如何将具有自定义数据类型的列保存到spark中的配置单元表中?

aoyhnmkz  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(175)

我有一个专栏 UserDefinedType tdigestsql在我的数据集中。创建数据集后,架构如下所示:

root
    |-- id: long (nullable = true)
    |-- value: tdigest (nullable = true)

现在,我准备将此数据集保存到配置单元表(或其他表格式)。要保存自定义数据类型tdigest,我可能需要在列中将其保存为二进制。但我该如何告诉spark将此列保存为二进制?我可以直接改变 value 列转换为二进制,而不是数据集中的tdigest,但我不希望每次在数据集中访问该列时都对其进行序列化/反序列化。我只想在完成计算并准备好写入数据源时将其更改为二进制。似乎spark在写入表时不会自动将自定义数据类型转换为二进制。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题