Apache Spark ZOrder和Bloom将如何过滤此Delta Lake表

rbl8hiat  于 2023-02-13  发布在  Apache
关注(0)|答案(1)|浏览(183)

我应该如何实现索引策略这个事实表?包含约5 mlns的行

是否也值得在这里添加布隆过滤器索引?如果是,以何种方式?

yfjy0ee7

yfjy0ee71#

我个人只会从machine_idday_id上的ZOrder开始测试性能。假设只有500万行,那么很可能会为它创建一个文件,所以布隆过滤器没有任何意义。
另外,当你有很多不同的值时,布鲁姆过滤器是很好的,你可以通过等式来搜索。

相关问题