60 gb的数据

brjng4g3 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(259)

我试图分析大约50-60 gb的数据。我想过使用spark来实现这一点，但是我不能访问集群中的多个节点。这个级别的处理可以使用spark独立模式完成吗？如果是，我想知道处理数据所需的估计时间。谢谢！

hadoop apache-spark machine-learning bigdata statistics

来源：https://stackoverflow.com/questions/37760029/50-60-gb-of-data-in-spark-standalone-mode

1条答案

按热度按时间

简而言之：是的。
spark将把这个文件分成许多较小的块。在您的情况下，一次只执行几个块。这几个块应该放在内存中（您需要使用配置来获得正确的结果）
总而言之，您将能够做到这一点，但如果您有更多的内存/内核，这样您就可以并行处理更多的事情，速度会更快。

赞(0）回复(0）举报 2021-06-02

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前