pyspark 使用Spark将图像文件写入Azure blob容器

xcitsw88  于 5个月前  发布在  Spark
关注(0)|答案(1)|浏览(84)

我有两个两个Azure容器srcdstsrc包含图像文件,它安装在/dbfs/mnt/内的数据结构上。我有一个单独的框架,其中我们有srcdst路径Map。
我尝试做的是使用spark将数据从挂载的src容器复制到dest容器。我可以很容易地从src读取数据,因为它是挂载的,但是如何使用纯spark方式复制数据。我知道我可以使用dbutils

dbutils.fs.cp(src_path, dest_path)

字符串
但是我不确定它有多快。而且我们不能在spark函数中使用dbutils工具。
我已经为服务主体配置了所有需要的访问权限。

cxfofazt

cxfofazt1#

为了读取图像(或blob),对于此用例,您可以探索以下方法:
第一个月
1.使用pyspark在嵌入式框架中读取数据二进制内容(docs
1.编写一个UDF或Pandas UDF,应用于每个行的框架(基本上是一个I/O函数lambda x:process_image(x)
CASE 2: You just need to move files from one container to another
1.编写一个UDF/ Pandas UDF函数,使用Azure存储客户端库来操作存储帐户中的文件。

相关问题