我有以下两个不同模式的数据集。
case class schema1(a: Double, b: Double) -> dataset1
case class schema2(c: Double, d: Double, e: Double, f: Double) -> dataset2
我想用以下架构创建另一个数据集:
case class schema3(c: Double, b: Double) -> dataset3
i、 e schema3数据集包含来自schema 2数据集的第1列c和来自schema 1数据集的第2列b。
如何利用数据集2和1中c列和b列的数据,基于schema3创建第三个数据集。
或者更简单地说,我必须创建一个第三个数据集,从第一个数据集中获取一列,从第二个数据集中获取另一列,并将其Map到上面定义的第三个模式。
请帮忙。
1条答案
按热度按时间7vhp5slm1#
使用
monotonically_increasing_id
&row_numer
在两个数据集中添加唯一的id值&使用id
列以及两个数据集中的必需列,最后从结果数据集中删除id。请检查下面的代码。