关于athenapresto中分区的sql右连接

nhaq1z21 于 2021-07-26 发布在 Java

关注(0)|答案(0)|浏览(136)

我对sql和athena aws（presto）是相当陌生的。我尝试获取一个非常小的数据集（几个gb），并将它的每一行与一个非常大的数据集（多tb）中的信息连接起来。
我有一个名为student\ table的表，从中我获取一个特定学生的活动（由几十行组成）。我想给每个学生一个事件id，它存储在一个非常大的表中。在这两个表中，分区都是年、月、日。
到目前为止，我的问题是：

WITH student_hist AS (
SELECT 
    year,month,day,event_time,course,student_id,action
FROM students_table
WHERE 
    AND date_parse(concat(year, '-', month, '-', day),'%Y-%m-%d')
        BETWEEN DATE('2020-01-01') AND DATE('2020-06-01')
    AND student_id = '2594395350'
)

SELECT 
    student_hist.*
    ,events.id
FROM big_table events
RIGHT JOIN student_hist
    ON  CAST(student_hist.year AS INTEGER)  = big_table.year 
    AND CAST(student_hist.month AS INTEGER) = big_table.month
    AND CAST(student_hist.day AS INTEGER)   = big_table.day
    AND student_hist.event_time = big_table.event_time

当我查询仅获取student hist时，我的查询使用大约20gb，但当我运行上面的完整查询以获取事件id时，查询需要大量资源（许多tb），我必须取消它（在破产之前）。我认为问题是分区没有在正确的连接中使用。
你知道如何让分区在正确的连接中工作吗？我还尝试从学生历史中获得不同的日期，将上面的“来自大表事件”替换为：

FROM (SELECT * FROM big_table WHERE date_parse(...date partitions) IN (SELECT dates FROM distinct_dates)) events

但是查询同样使用了太多的资源。我认为这是因为它一遍又一遍地运行子查询。
我希望查询的第二部分只是根据student\u hist中的每一行进行分区。student\u hist总共只有不到100行，因此此查询不会花费很长时间或需要大量数据。不知道为什么，但这里似乎没有使用分区。
谢谢你们的帮助！

sql presto amazon-athena

来源：https://stackoverflow.com/questions/62265221/right-join-with-regard-to-partitions-in-athena-presto

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

关于athenapresto中分区的sql右连接

暂无答案！

相关问题

热门标签

最新问答