pyspark AWS Glue -Glue Context：从S3读取分区数据，将分区添加为DynamicFrame的列

t30tvxxf 于 5个月前发布在 Spark

关注(0)|答案(2)|浏览(61)

我有一些数据以 parquet 格式存储在一个S3桶中，遵循类似于Hive的分区方式，分区键如下：retailer - year - month - day。
Eg

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...

字符串
我想在一个sagemaker笔记本中读取所有这些数据，我想把这些分区作为DynamicFrame的列，这样当我df.printSchema()时，它们就包括在内了。
如果我使用Glue建议的方法，分区就不会包含在我的架构中。

df = glueContext.create_dynamic_frame.from_options(
    connection_type='s3',
    connection_options={
        'paths': ['s3://my-bucket/'],
        "partitionKeys": [
            "retailer",
            "year",
            "month",
            "day"
        ]
    },
    format='parquet'
)

型
通过使用普通的spark代码和DataFrame类，它可以正常工作，并且分区包含在我的模式中：
df = spark.read.parquet('s3://my-bucket/')的值。“
我想知道是否有办法做到这一点与AWS胶水的具体方法或没有。

pyspark

来源：https://stackoverflow.com/questions/60413299/aws-glue-gluecontext-read-partitioned-data-from-s3-add-partitions-as-columns