创建dataproc群集时报告的datanodes数量不足

0ve6wy6x  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(339)

在创建以gs://作为默认fs的dataproc集群时,出现了“datanodes reporting数量不足”错误。下面是我正在使用的命令dataproc cluster。

gcloud dataproc clusters create cluster-538f --image-version 1.2 \
    --bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
    --master-machine-type n1-standard-1 --master-boot-disk-size 500 \
    --num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
    --scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
    --properties 'core:fs.default.name=gs://dataproc_bucket_test/'

我检查并确认我使用的bucket能够在bucker中创建默认文件夹。

oyjwcjzk

oyjwcjzk1#

尝试访问文件系统时会出现错误(hdfsclientmodule)。因此,我认为google云存储很可能没有hadoop所需的特定功能,并且在创建了一些文件夹后创建失败(第一个图像)。
正如前面提到的,最好放弃使用gcs作为默认fs的想法,让hdfs在dataproc中工作。尽管如此,您仍然可以利用云存储来获得数据持久性、可靠性和性能,因为请记住,当集群关闭时,hdfs中的数据将被删除。
1.-从dataproc节点,您可以通过hadoop命令访问数据以移入和移出数据,例如:

hadoop fs -ls gs://CONFIGBUCKET/dir/file 

hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file

2.-要从spark或任何hadoop应用程序访问数据,只需使用gs://前缀访问您的bucket。
此外,如果dataproc连接器安装在本地,它可以帮助将hdfs数据移动到云存储,然后从dataproc集群访问它。

cbeh67ev

cbeh67ev2#

正如igor所建议的,dataproc不支持gcs作为默认fs。我还建议取消这个属性。请注意 fs.default.name 财产可以转移到个人工作中,而且可以正常工作。

相关问题