druid+hadoop(用于两种用途，深层存储和索引)

p4rjhz4m 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(351)

如果hadoop服务器（伪分布式模式）在另一台机器上运行，我还需要在druid的conf dir下保存这些文件吗http://druid.io/docs/latest/configuration/hadoop.html
在我看来：
看起来那些-site.xml文件是针对hadoop服务器的…，而druid只充当hadoop客户端。所以我认为druid不需要hdfs-site.xml。
核心站点。xml…，好的，我可以得到它。我是说，Druid需要知道名称节点的ip（hadoop）。
mapred-site.xml，部分。druid需要知道mapreduce作业的状态（我想它会将索引委托给hadoop作为mr作业）。因此，它需要与那些作业跟踪器通信，以查看索引是否已完成/失败/正在进行。为此，它需要hadoop jt的url。
然而，druid不需要这个属性“mapreduce.cluster.local.dir”，因为它不积极参与mr作业。
是yarn-site.xml吗？也许它应该留一段时间。至少是为了提交一份工作（？）。
hdfs-site.xml呢？我认为这个可以完全废除。
capacity-scheduler.xml？它可以走了。
如果我错了，请纠正我。
这些问题/疑虑的产生是因为我对hadoop还很陌生。我的hadoop安装程序正在运行。伪分布模式。我还用javascript-webhdfs库测试了它对文件的读写。我也试过hadoop dist提供的mr jobs示例，所以我想我的hadoop设置还不错。我只是在Druid网站上有点不确定，部分原因是医生对此并不清楚。
顺便说一句。。。。我有Hadoop2.7.2。。。而druid使用的hadoop客户端libs仍然是2.3.0版本。
我应该把hadoop服务器降级到2.3.0吗？
http://druid.io/docs/latest/operations/other-hadoop.html
塔斯克，拉卡

hadoop druid

来源：https://stackoverflow.com/questions/41073613/druid-hadoop-for-both-uses-deep-store-indexing