Apache Spark ZOrder和Bloom将如何过滤此Delta Lake表

rbl8hiat 于 2023-02-13 发布在 Apache

关注(0)|答案(1)|浏览(183)

我应该如何实现索引策略这个事实表？包含约5 mlns的行

是否也值得在这里添加布隆过滤器索引？如果是，以何种方式？

来源：https://stackoverflow.com/questions/75398688/how-you-will-zorder-and-bloom-filter-this-delta-lake-table

1条答案

按热度按时间

我个人只会从machine_id和day_id上的ZOrder开始测试性能。假设只有500万行，那么很可能会为它创建一个文件，所以布隆过滤器没有任何意义。
另外，当你有很多不同的值时，布鲁姆过滤器是很好的，你可以通过等式来搜索。

赞(0）回复(0）举报 2023-02-13

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 4个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 4个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 4个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 4个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 4个月前