我正在使用spark加载大约20万个文本文件 input = sc.wholeTextFiles(hdfs://path/*)
然后我运行一个 println(input.count)
结果是我的sparkshell输出了大量文本(每个文件的路径),过了一段时间它就挂起了,没有返回结果。
我相信这可能是由于 wholeTextFiles
. 你知道有什么方法可以安静地运行这个命令吗?还是有更好的解决办法?
谢谢!
我正在使用spark加载大约20万个文本文件 input = sc.wholeTextFiles(hdfs://path/*)
然后我运行一个 println(input.count)
结果是我的sparkshell输出了大量文本(每个文件的路径),过了一段时间它就挂起了,没有返回结果。
我相信这可能是由于 wholeTextFiles
. 你知道有什么方法可以安静地运行这个命令吗?还是有更好的解决办法?
谢谢!
1条答案
按热度按时间omjgkv6w1#
你的文件有多大?从
wholeTextFiles
应用程序编程接口:小文件是首选,大文件也是允许的,但可能会导致性能不佳。
在
conf/log4j.properties
,可以抑制过多的日志记录,如下所示:那样的话,你只会回来
res
对于repl,就像scala(语言)repl一样。以下是您可以使用的所有其他日志级别:log4japi。