在创建以gs://作为默认fs的dataproc集群时,出现了“datanodes reporting数量不足”错误。下面是我正在使用的命令dataproc cluster。
gcloud dataproc clusters create cluster-538f --image-version 1.2 \
--bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
--master-machine-type n1-standard-1 --master-boot-disk-size 500 \
--num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
--scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
--properties 'core:fs.default.name=gs://dataproc_bucket_test/'
我检查并确认我使用的bucket能够在bucker中创建默认文件夹。
2条答案
按热度按时间oyjwcjzk1#
尝试访问文件系统时会出现错误(hdfsclientmodule)。因此,我认为google云存储很可能没有hadoop所需的特定功能,并且在创建了一些文件夹后创建失败(第一个图像)。
正如前面提到的,最好放弃使用gcs作为默认fs的想法,让hdfs在dataproc中工作。尽管如此,您仍然可以利用云存储来获得数据持久性、可靠性和性能,因为请记住,当集群关闭时,hdfs中的数据将被删除。
1.-从dataproc节点,您可以通过hadoop命令访问数据以移入和移出数据,例如:
2.-要从spark或任何hadoop应用程序访问数据,只需使用gs://前缀访问您的bucket。
此外,如果dataproc连接器安装在本地,它可以帮助将hdfs数据移动到云存储,然后从dataproc集群访问它。
cbeh67ev2#
正如igor所建议的,dataproc不支持gcs作为默认fs。我还建议取消这个属性。请注意
fs.default.name
财产可以转移到个人工作中,而且可以正常工作。