spark:静默执行sc.wholetextfiles

bfrts1fy  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(306)

我正在使用spark加载大约20万个文本文件 input = sc.wholeTextFiles(hdfs://path/*) 然后我运行一个 println(input.count) 结果是我的sparkshell输出了大量文本(每个文件的路径),过了一段时间它就挂起了,没有返回结果。
我相信这可能是由于 wholeTextFiles . 你知道有什么方法可以安静地运行这个命令吗?还是有更好的解决办法?
谢谢!

omjgkv6w

omjgkv6w1#

你的文件有多大?从 wholeTextFiles 应用程序编程接口:
小文件是首选,大文件也是允许的,但可能会导致性能不佳。
conf/log4j.properties ,可以抑制过多的日志记录,如下所示:


# Set everything to be logged to the console

log4j.rootCategory=ERROR, console

那样的话,你只会回来 res 对于repl,就像scala(语言)repl一样。
以下是您可以使用的所有其他日志级别:log4japi。

相关问题