twitter flume

j13ufse2  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(408)

各位用户,大家好!
我已经在我的cloudera4.6上安装了一个flume,我正在尝试从twitter上获取tweet。
所以我创建了一个hdfs接收器和一个hbase接收器,它们正在收集tweet。。。但是hbase中的数据结构不好。
由于数据不是结构化的,我不能用impala对其进行查询。
我创建了一个表tweets{name=>'tweet'},{name=>'retweet'},{name=>'entities'},{name=>'user'}
我的Flume配置是:http://pastebin.com/4b5d3r8q
我正在学习这个教程,但是我不知道如何使用他的序列化程序。
https://github.com/aronmacdonald/twitter_hbase_impala 我要把它做成jar?
我目前在hbase中有:http://pastebin.com/angbsvb7 一切都在推特专栏里。。。

3qpi33ja

3qpi33ja1#

我重新编译并使用了git:https因此使用“twitteragent.sources.twitter.type=com.cloudera.flume.source.twittersource”时没有问题
安装maven,然后下载cdh-twitter示例的存储库。
解压缩,然后在内部执行(如上所述):
$cdFlume源
$mvn套餐
$cd。。
这个问题发生在twitter4j版本从2.2.6升级到3.x时,他们删除了方法setincludeentities,jar不是最新的。
ps:不要下载预建版本,它仍然是旧的。

相关问题