从aws dynamodb pyspark aws glue读取数据(不使用动态框架)

ddrv8njm  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(240)

我知道我们可以使用gluecontext动态帧从dynamodb读取数据,使用它会消耗更多的读取时间。考虑下面的示例从s3读取相同的数据

USING SPARK DATAFRAME FRAME
spark.read.format("CSV").option("header":"true").load("S3///")
reads data in 0 to 30 seconds

鉴于

USING GLUE DYNAMIC
glueContext.create_dynamic_frame.from_catalog()
OR
glueContext.create_dyanmic_frame.from_options()
reads data in 5 to 10 minutes

那么,有没有一种方法可以使用pysparkDataframe从dynamobd读取数据呢?

经过一番研究**

https://github.com/audienceproject/spark-dynamodb
使用上述连接器,能够读取和显示本地机器的数据。
因为aws glue使用的是spark2.4,所以下载了spark-dynamidb_2.11-1.0.3.jar并上传到s3,并在python库路径中提到了s3uri。
运行作业时,其抛出o.88.showstring.com.audienceproject.spark.dynamodb.datasource.scanpartition
你知道怎么用aws胶水吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题