在scale上基于多个键合并json文件

h9vpoimq 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(205)

我希望根据多个json文件的键之间的关系，将大量json文件存储在s3 bucket中。每个bucket包含具有不同模式的文件。有太多的文件要用python或批处理脚本循环。
例如，如果bucket 1有schema1的文件，bucket 2有schema2的文件，我想根据下面的逻辑聚合文件： (schema1.key1 == schema2.key2 && schema2.key3 > schema1.key4) 我正在考虑spark，但找不到关于按键聚合的文档，以便进行除相等以外的比较。spark是最好的解决方案还是我应该使用更好的解决方案？
任何建议都将不胜感激。

JSON apache-spark amazon-emr data-science

来源：https://stackoverflow.com/questions/62045289/merging-json-files-based-on-multiple-keys-at-scale