spark：静默执行sc.wholetextfiles

bfrts1fy 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(306)

我正在使用spark加载大约20万个文本文件 input = sc.wholeTextFiles(hdfs://path/*) 然后我运行一个 println(input.count) 结果是我的sparkshell输出了大量文本（每个文件的路径），过了一段时间它就挂起了，没有返回结果。
我相信这可能是由于 wholeTextFiles . 你知道有什么方法可以安静地运行这个命令吗？还是有更好的解决办法？
谢谢！

hadoop apache-spark

来源：https://stackoverflow.com/questions/27839454/spark-silently-execute-sc-wholetextfiles

1条答案

按热度按时间

omjgkv6w1#

你的文件有多大？从 wholeTextFiles 应用程序编程接口：
小文件是首选，大文件也是允许的，但可能会导致性能不佳。
在 conf/log4j.properties ，可以抑制过多的日志记录，如下所示：


# Set everything to be logged to the console

log4j.rootCategory=ERROR, console

那样的话，你只会回来 res 对于repl，就像scala（语言）repl一样。
以下是您可以使用的所有其他日志级别：log4japi。

赞(0）回复(0）举报 2021-05-30

我来回答

spark：静默执行sc.wholetextfiles

1条答案

相关问题

热门标签

最新问答