创建dataproc群集时报告的datanodes数量不足

0ve6wy6x 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(339)

在创建以gs://作为默认fs的dataproc集群时，出现了“datanodes reporting数量不足”错误。下面是我正在使用的命令dataproc cluster。

gcloud dataproc clusters create cluster-538f --image-version 1.2 \
    --bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
    --master-machine-type n1-standard-1 --master-boot-disk-size 500 \
    --num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
    --scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
    --properties 'core:fs.default.name=gs://dataproc_bucket_test/'

我检查并确认我使用的bucket能够在bucker中创建默认文件夹。

hadoop google-cloud-storage google-cloud-dataproc

来源：https://stackoverflow.com/questions/52248139/insufficient-number-of-datanodes-reporting-when-creating-dataproc-cluster

2条答案

按热度按时间

oyjwcjzk1#

尝试访问文件系统时会出现错误（hdfsclientmodule）。因此，我认为google云存储很可能没有hadoop所需的特定功能，并且在创建了一些文件夹后创建失败（第一个图像）。
正如前面提到的，最好放弃使用gcs作为默认fs的想法，让hdfs在dataproc中工作。尽管如此，您仍然可以利用云存储来获得数据持久性、可靠性和性能，因为请记住，当集群关闭时，hdfs中的数据将被删除。
1.-从dataproc节点，您可以通过hadoop命令访问数据以移入和移出数据，例如：

hadoop fs -ls gs://CONFIGBUCKET/dir/file 

hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file

2.-要从spark或任何hadoop应用程序访问数据，只需使用gs://前缀访问您的bucket。
此外，如果dataproc连接器安装在本地，它可以帮助将hdfs数据移动到云存储，然后从dataproc集群访问它。

赞(0）回复(0）举报 2021-05-29

cbeh67ev2#

正如igor所建议的，dataproc不支持gcs作为默认fs。我还建议取消这个属性。请注意 fs.default.name 财产可以转移到个人工作中，而且可以正常工作。

赞(0）回复(0）举报 2021-05-29

我来回答

创建dataproc群集时报告的datanodes数量不足

2条答案

相关问题

热门标签

最新问答