spark小兽人条纹

dddzy1tm  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(365)

我们使用spark将clickstream数据展平,然后以orc+zlib格式将其写入s3。我尝试过在spark中更改许多设置,但创建的orc文件的条带大小仍然非常小(<2mb)
到目前为止我试着缩小条纹尺寸,
以前每个文件的大小是20mb,使用coalesce我现在创建的文件大小是250-300mb,但是每个文件仍然有200个条纹,即每个条纹<2mb
通过将hive.exec.orc.default.stripe.size设置为67108864,尝试使用hivecontext而不是sparkcontext,但spark不接受这些参数。
那么,关于如何增加正在创建的orc文件的条带大小,有什么想法吗?因为小条带的问题是,当我们使用presto查询这些orc文件时,当条带大小小于8mb时,presto将读取整个数据文件,而不是查询中选定的字段。
presto条带问题相关线程:https://groups.google.com/forum/#!topic/presto用户/7ncrfvgppaa

ndh0cuux

ndh0cuux1#

我在hdp社区平台上发布了同样的问题,得到了以下回复,
“它与hive-13232相关(在hive1.3.0、2.0.1、2.1.0中修复),但所有apachespark仍然使用hive1.2.1库。
你能试试HDP2.6.3+(2.6.4是最新的)。hdp spark 2.2有固定的配置单元库。”

相关问题