包含相关数据的非常大的表什么dbms是最佳的，以及如何建模？

vxf3dgd4 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(273)

就目前的情况来看，这个问题并不适合我们的问答形式。我们希望答案能得到事实、参考资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或广泛讨论。如果您觉得这个问题可以改进，并可能重新打开，请访问帮助中心寻求指导。
8年前关门了。
我有一个脚本，在一个表中插入每个用户的职位公告的相关系数。这个表现在有9300万行，并且在未来将以指数级的速度增长。该表只有三个字段：作业id、用户id和相关性。目前大约有6500名用户和45000个工作岗位。我需要重新考虑数据建模吗？
这种设置的最佳dbms是什么？
我需要能够排序的相关性和容易做的事情，如 SELECT relevance FROM jobpostrelevance WHERE job_id = 1 AND user_id = 2

hadoop mysql mongodb cassandra scalability

来源：https://stackoverflow.com/questions/12747211/very-large-table-containing-relevance-data-what-dbms-would-be-optimal-and-how

1条答案

按热度按时间

ymdaylpp1#

根据我的经验，如果你正在寻找最好的性能写作，你可以尝试mongodb或cassandra两者都非常好。尽管您的问题似乎适合于键值db（比如cassandra）。
但我会根据“你的硬件”来回答你的问题：
如果整个数据库（will）适合内存，我会选择mongodb，因为这样会得到更好的结果。模型：一个文档（mongodb是面向文档的），每个“列”作为一个属性。
如果整个数据库不符合记忆，我毫不怀疑：Cassandra是最好的选举。如果mongodb不能将整个数据存储在内存中，那么它的性能会变得更差（如您所读到的）http://www.cubrid.org/blog/dev-platform/nosql-benchmarking/). 模型：一个columnfamily，每个属性有一列。
使用cassandra，您将能够使用hadoop（在其上使用pig/hive）对数据进行排序（我尝试过），但我不知道您是否可以将mongodb“连接”到hadoop。我的建议是：mongodb有一个非常好的文档（由10gen提供），而cassandra没有mongodb那么好的文档。但如果您需要cassandra文档，可以访问datastax文档：http://www.datastax.com/docs/1.1/index

赞(0）回复(0）举报 2021-06-03

我来回答

包含相关数据的非常大的表什么dbms是最佳的，以及如何建模？

1条答案

相关问题

热门标签

最新问答