spark小兽人条纹

dddzy1tm 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(365)

我们使用spark将clickstream数据展平，然后以orc+zlib格式将其写入s3。我尝试过在spark中更改许多设置，但创建的orc文件的条带大小仍然非常小（<2mb）
到目前为止我试着缩小条纹尺寸，
以前每个文件的大小是20mb，使用coalesce我现在创建的文件大小是250-300mb，但是每个文件仍然有200个条纹，即每个条纹<2mb
通过将hive.exec.orc.default.stripe.size设置为67108864，尝试使用hivecontext而不是sparkcontext，但spark不接受这些参数。
那么，关于如何增加正在创建的orc文件的条带大小，有什么想法吗？因为小条带的问题是，当我们使用presto查询这些orc文件时，当条带大小小于8mb时，presto将读取整个数据文件，而不是查询中选定的字段。
presto条带问题相关线程：https://groups.google.com/forum/#!topic/presto用户/7ncrfvgppaa

hadoop presto apache-spark amazon-athena

来源：https://stackoverflow.com/questions/48250778/spark-small-orc-stripes

1条答案

按热度按时间

ndh0cuux1#

我在hdp社区平台上发布了同样的问题，得到了以下回复，
“它与hive-13232相关（在hive1.3.0、2.0.1、2.1.0中修复），但所有apachespark仍然使用hive1.2.1库。
你能试试HDP2.6.3+（2.6.4是最新的）。hdp spark 2.2有固定的配置单元库。”

赞(0）回复(0）举报 2021-05-29

我来回答

spark小兽人条纹

1条答案

相关问题

热门标签

最新问答