使用hive优化的hive数据聚合

oxf4rvwz 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(352)

我有一个配置单元表（8000万条记录），具有以下架构（event\u id、country、unit\u id、date），我需要按照以下要求将此数据导出到文本文件：1-按event\u id聚合（合并）行。2-聚合行必须按日期排序。
例如，具有相同事件标识的行必须组合为一个列表列表，并根据日期排序。
使用spark进行此项工作的最佳性能解决方案是什么？
注意：这应该是批处理作业。

Hive apache-spark optimization bigdata distributed-computing

来源：https://stackoverflow.com/questions/43807359/optimized-hive-data-aggregation-using-hive

1条答案

按热度按时间

就性能而言，我认为最好的解决方案是编写一个spark程序（scala或python），将底层文件读入hive表，进行转换，然后将输出作为文件写入。
我发现在spark中读取文件要比通过spark查询hive并将结果拉入Dataframe快得多。

赞(0）回复(0）举报 2021-06-26

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前