我有一个专栏 UserDefinedType
tdigestsql在我的数据集中。创建数据集后,架构如下所示:
root
|-- id: long (nullable = true)
|-- value: tdigest (nullable = true)
现在,我准备将此数据集保存到配置单元表(或其他表格式)。要保存自定义数据类型tdigest,我可能需要在列中将其保存为二进制。但我该如何告诉spark将此列保存为二进制?我可以直接改变 value
列转换为二进制,而不是数据集中的tdigest,但我不希望每次在数据集中访问该列时都对其进行序列化/反序列化。我只想在完成计算并准备好写入数据源时将其更改为二进制。似乎spark在写入表时不会自动将自定义数据类型转换为二进制。
暂无答案!
目前还没有任何答案,快来回答吧!