使用spark和cassandra的优点

px9o7tmv 于 2021-05-29 发布在 Hadoop

关注(0)|答案(3)|浏览(341)

我已经看到使用spark和cassandra的组合比较流行。
我知道cassandra是一个大数据解决方案，它提供了可靠性而不是一致性，因此适合于实时系统。它还为查询提供了类似sql的语法，但它的数据管理方式与普通db非常不同。
另一方面，hadoop提供了可靠性之上的一致性，因此适合于分析系统。它的接口是mapreduce，这对于现在来说是相当慢和太低的级别。这就是Spark的来源。sparks使用hadoop的hdfs，并用更好的体系结构取代旧的mapreduce，该体系结构更多地利用内存而不是硬盘，并公开更好的接口，如rdd和Dataframe。
所以我的问题是：为什么我要用spark和cassandra结合呢？这有什么好处？为什么不用其中一个呢？
据我所知，cassandra只会替换hdfs，所以我的可靠性高于一致性，我还必须使用rdd/dataframes而不是cql，spark会在引擎盖下生成cql，这给了我更少的控制。

hadoop cassandra apache-spark Database bigdata

来源：https://stackoverflow.com/questions/42761818/advantages-of-using-spark-with-cassandra

3条答案

按热度按时间

0pizxfdo1#

hdfs是一个“文件系统”，hadoop就在上面。
还有许多数据库引擎运行在hadoop和hdfs之上，比如hbase、hive等，并利用它的分布式体系结构。
你不必在hadoop上运行spark，你可以独立运行它。
Cassandra的cql非常非常基础。您在最新版本中添加了基本的聚合函数，但是cassandra并不是为分析工作负载而设计的，很可能您都很难运行分析查询，并且会“扼杀”集群性能。
你不能比较hdfs和cassandra，就像你不能比较ntfs和mysql一样。cassandra基于dynamo（aws）和bigtable（google）概念，设计用于繁重的工作负载和简单的可伸缩性，并且每秒可以处理非常多的请求。还有其他选择，在hadoop上运行，比如hbase，cassandra在我见过的每一个基准测试中都获胜（但不要相信基准测试，总是用你的数据和用例来测试它）。
所以spark试图解决的是，在cassandra中的数据之上执行分析查询。使用spark，您可以从许多源（rdbms、文件、hadoop等）获取数据，并对这些数据执行分析查询。
还有，这个
可靠性高于一致性，因此适用于实时系统
我错了。有许多实时系统需要一致性（不是最终的）、序列化、事务等，而cassandra无法提供这些。。。

赞(0）回复(0）举报 2021-05-29

41ik7eoe2#

spark是一个数据处理框架。您将使用spark处理数据。
Cassandra是一个数据库管理系统。你要把你的数据储存在Cassandra。
的确，您可以使用cql在cassandra中处理数据，如果您可以使用cql摆脱困境，那么您可能不需要spark。不过，一般来说，spark是一种更强大的工具。在实践中，许多人使用spark从外部源接收数据，对其进行处理，并将已处理的数据存储在cassandra中。

赞(0）回复(0）举报 2021-05-29

qxgroojn3#

cassandra是nosql数据库，它的分析功能非常有限。
例如，cql支持单个分区内的聚合，并且不存在表联接。
spark是流式处理引擎，它可以使用来自hdfs或数据库的数据。因此，如果您想对整个数据集中的数据进行深入分析，就必须使用spark。你可以在这里阅读更多关于Cassandra和大数据的内容

赞(0）回复(0）举报 2021-05-29

我来回答

使用spark和cassandra的优点

3条答案

相关问题

热门标签

最新问答