用于100 tb数据机器学习的正确数据库

6g8kf2rb  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(281)

我需要对大约100tb的web数据执行分类和集群,我正计划使用hadoop、mahout和aws。你建议我用什么数据库来存储数据?mysql会工作吗?或者像mongodb这样的东西会更快吗?一个数据库还有其他的优点吗?谢谢。

mwecs4sa

mwecs4sa1#

最简单和最直接的答案是将文件直接放在hdfs或s3中(因为您提到了aws),并将hadoop/mahout直接指向它们。其他数据库有不同的用途,但hadoop/hdfs正是为这种高容量、批处理风格的分析而设计的。如果您想要一个更具数据库风格的访问层,那么您可以添加配置单元而不需要太多麻烦。底层存储层仍然是hdfs或s3,但是hive可以为您提供对存储在那里的数据的类似sql的访问,如果您需要的话。
只是为了解决您提出的另外两个选项:mongodb适用于低延迟读写,但您可能不需要它。我不太了解mysql的所有高级功能,但我猜100tb对它来说是相当困难的,尤其是当你开始进入访问所有数据的大型查询时。它更适合于传统的事务性访问。

相关问题