在aws emr中使用pyspark读取100k json文件

nkkqxpd9  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(197)

我正在aws emr中使用pyspark从mysql数据库读取kafka s3sink connector发布的100k小json文件。使用以下代码段:

ug_path='s3://datalake/raw/topics/masterdb.users_groups/partition=*/*.json'
ug=spark.read.json(ug_path)
ug.printSchema()
print("No of rows is ",ug.count())

输出: 520500 行计数不是精确的计数。
当我使用ksql(创建流并计算行数)时,它会显示实际的行数,即: 4185150 .
如何从s3加载和读取100k json文件并正确查询它们?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题