用于图像分类的hdfs图像Dataframe

2ic8powd  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(292)

我正在尝试使用python和spark编写一个图像分类算法。
我遵循这个教程,它取自官方的databricks文档,在本地运行时非常有效。
我现在的问题是,在集群上转移算法,我必须从hdfs上的两个文件夹中加载图像 .jpg 格式,我找不到一种方法来创建一个Dataframe的方式,它在本地完成的例子。
我正在寻找此代码的替代品:

from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))
4smxwvx5

4smxwvx51#

它应该和从本地读取文件差不多。
下面是来自库的实现。它在内部使用BinaryFilesAPI来加载二进制文件。api文档(binaryfiles)说它也支持hadoop文件系统。

rdd = sc.binaryFiles(path, minPartitions=numPartitions).repartition(numPartitions)

希望这有帮助。

相关问题