hadoop—从配置单元表的每个分区中随机抽取100000行的最快方法

kd3sttzy  于 2021-07-15  发布在  Hadoop
关注(0)|答案(0)|浏览(154)

我有一个按天分区的表,每个分区包含近80m行。
我想从每个分区中随机抽取一个特定月份的100000行。
目前我在每个分区中使用rank,按rand()排序,然后在rank上进行过滤,但这几乎需要45-60分钟。
有没有一种更快的方法在不影响样品质量的情况下做同样的事情?
编辑我的table没有扣子

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题