druid+hadoop(用于两种用途,深层存储和索引)

p4rjhz4m  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(351)

如果hadoop服务器(伪分布式模式)在另一台机器上运行,我还需要在druid的conf dir下保存这些文件吗http://druid.io/docs/latest/configuration/hadoop.html
在我看来:
看起来那些-site.xml文件是针对hadoop服务器的…,而druid只充当hadoop客户端。所以我认为druid不需要hdfs-site.xml。
核心站点。xml…,好的,我可以得到它。我是说,Druid需要知道名称节点的ip(hadoop)。
mapred-site.xml,部分。druid需要知道mapreduce作业的状态(我想它会将索引委托给hadoop作为mr作业)。因此,它需要与那些作业跟踪器通信,以查看索引是否已完成/失败/正在进行。为此,它需要hadoop jt的url。
然而,druid不需要这个属性“mapreduce.cluster.local.dir”,因为它不积极参与mr作业。
是yarn-site.xml吗?也许它应该留一段时间。至少是为了提交一份工作(?)。
hdfs-site.xml呢?我认为这个可以完全废除。
capacity-scheduler.xml?它可以走了。
如果我错了,请纠正我。
这些问题/疑虑的产生是因为我对hadoop还很陌生。我的hadoop安装程序正在运行。伪分布模式。我还用javascript-webhdfs库测试了它对文件的读写。我也试过hadoop dist提供的mr jobs示例,所以我想我的hadoop设置还不错。我只是在Druid网站上有点不确定,部分原因是医生对此并不清楚。
顺便说一句。。。。我有Hadoop2.7.2。。。而druid使用的hadoop客户端libs仍然是2.3.0版本。
我应该把hadoop服务器降级到2.3.0吗?
http://druid.io/docs/latest/operations/other-hadoop.html
塔斯克,拉卡

pcrecxhr

pcrecxhr1#

请将mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml添加到类路径。你也不需要降低Druid2.7.x的等级。正如您在文档中看到的,您可以使用多个版本的hadoop。

相关问题