从aws dynamodb pyspark aws glue读取数据(不使用动态框架)

ddrv8njm 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(240)

我知道我们可以使用gluecontext动态帧从dynamodb读取数据，使用它会消耗更多的读取时间。考虑下面的示例从s3读取相同的数据

USING SPARK DATAFRAME FRAME
spark.read.format("CSV").option("header":"true").load("S3///")
reads data in 0 to 30 seconds

鉴于

USING GLUE DYNAMIC
glueContext.create_dynamic_frame.from_catalog()
OR
glueContext.create_dyanmic_frame.from_options()
reads data in 5 to 10 minutes

那么，有没有一种方法可以使用pysparkDataframe从dynamobd读取数据呢？

经过一番研究**

https://github.com/audienceproject/spark-dynamodb
使用上述连接器，能够读取和显示本地机器的数据。
因为aws glue使用的是spark2.4，所以下载了spark-dynamidb_2.11-1.0.3.jar并上传到s3，并在python库路径中提到了s3uri。
运行作业时，其抛出o.88.showstring.com.audienceproject.spark.dynamodb.datasource.scanpartition
你知道怎么用aws胶水吗？

apache-spark pyspark aws-glue amazon-web-services aws-glue-spark

来源：https://stackoverflow.com/questions/67090666/read-data-from-aws-dynamodb-pyspark-aws-glue-not-using-dynamic-frame