java—在mapreduce作业中使用selenium是hadoop的一个好用法吗?

xlpyo6sf  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(235)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。

四年前关门了。
改进这个问题
我正在使用hadoop做一个项目,它使用selenium从各种twitter帐户收集tweet。我希望使用hadoop来减少收集时间,而不是一个接一个地执行这些操作。这听起来可行吗?这是hadoop的一个很好的用法吗?

q5iwbnjs

q5iwbnjs1#

twitter有一个流式api,你可以使用它来获取恒定的tweet流,并将它们加载到hdfs中,然后使用任何处理框架(hive、storm、spark)来理解这些tweet。如果您不想使用twitterapi编写代码,那么可以使用apachenifi或flume为您生成tweet并将其加载到hdfs中。
https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.gettwitter/
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

相关问题