用于100 tb数据机器学习的正确数据库

6g8kf2rb 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(281)

我需要对大约100tb的web数据执行分类和集群，我正计划使用hadoop、mahout和aws。你建议我用什么数据库来存储数据？mysql会工作吗？或者像mongodb这样的东西会更快吗？一个数据库还有其他的优点吗？谢谢。

hadoop mysql mongodb machine-learning

来源：https://stackoverflow.com/questions/18744826/right-database-for-machine-learning-on-100-tb-of-data

1条答案

按热度按时间

mwecs4sa1#

最简单和最直接的答案是将文件直接放在hdfs或s3中（因为您提到了aws），并将hadoop/mahout直接指向它们。其他数据库有不同的用途，但hadoop/hdfs正是为这种高容量、批处理风格的分析而设计的。如果您想要一个更具数据库风格的访问层，那么您可以添加配置单元而不需要太多麻烦。底层存储层仍然是hdfs或s3，但是hive可以为您提供对存储在那里的数据的类似sql的访问，如果您需要的话。
只是为了解决您提出的另外两个选项：mongodb适用于低延迟读写，但您可能不需要它。我不太了解mysql的所有高级功能，但我猜100tb对它来说是相当困难的，尤其是当你开始进入访问所有数据的大型查询时。它更适合于传统的事务性访问。

赞(0）回复(0）举报 2021-06-03

我来回答

用于100 tb数据机器学习的正确数据库

1条答案

相关问题

热门标签

最新问答