我遇到了典型的联合查找问题,我必须对记录进行分组,但它包括数百亿条记录的多个文件。
我能用clickhouse数据库来解决这个问题吗?
编辑-最小可重现示例:我有表示图节点的树列(item_id,from,to),我想创建组(id,group_id,item_id),它们从不相交的集合中命名组。
【数据】
item_id from to
0 101 102
1 102 103
2 104 105
[结果]
id group_id item_id
0 0 0
1 0 1
2 1 2
只有两个组0(101-〉102-〉103)和1(104-〉105)。
在内存中实现的问题是有太多的记录,我希望clickhouse(或其他解决方案)关心文件系统缓存。
1条答案
按热度按时间ncgqoxb01#
在不了解您的具体数据和问题的情况下,提供一个明确的答案是很棘手的。一般来说,这代表ClickHouse的中等规模。UNION是完全支持的。您最好的选择是简单地尝试-loading data或generating data是直接的,SQL查询通常可以很容易地从Postgresql/MySQL转换。