java—在mapreduce作业中使用selenium是hadoop的一个好用法吗？

xlpyo6sf 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(235)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗？**更新这个问题，这样就可以通过编辑这篇文章用事实和引文来回答。

四年前关门了。
改进这个问题
我正在使用hadoop做一个项目，它使用selenium从各种twitter帐户收集tweet。我希望使用hadoop来减少收集时间，而不是一个接一个地执行这些操作。这听起来可行吗？这是hadoop的一个很好的用法吗？

Java hadoop selenium

来源：https://stackoverflow.com/questions/40591244/is-using-selenium-in-a-mapreduce-job-a-good-use-for-hadoop

1条答案

按热度按时间

q5iwbnjs1#

twitter有一个流式api，你可以使用它来获取恒定的tweet流，并将它们加载到hdfs中，然后使用任何处理框架（hive、storm、spark）来理解这些tweet。如果您不想使用twitterapi编写代码，那么可以使用apachenifi或flume为您生成tweet并将其加载到hdfs中。
https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.gettwitter/
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

赞(0）回复(0）举报 2021-05-29

我来回答

java—在mapreduce作业中使用selenium是hadoop的一个好用法吗？

1条答案

相关问题

热门标签

最新问答