在scala spark中使用任何数据类型

ig9co6j1  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(331)

我写了一个通用的Spark工作,我不知道总钥匙事先。其目的是用户可以选择任意随机列,作业将基于此开始创建聚合。举个小例子

Col_A Int
Col_B String
Col_C Long

用户可以在GROUPBY子句中选择它们中的任何一个并选择度量值。此作业现在必须作为流运行。
为了实现这一点,我们创建了一个对象

class AggregateValue(var value: Any)

此对象将保存键的值。因为我不知道类型,所以我还是保留。现在,我想知道有没有最好的选择。在性能等方面使用any作为类型有什么缺点吗。
另外,我明白类型安全是任何问题。你们认为这会对性能或其他方面造成影响吗。感谢您的帮助

qncylg1j

qncylg1j1#

如果你在这里和其他地方搜索,你会发现自定义项不能使用任何或Map。
spark sql以及dfs和dss不支持架构中的任何内容。所以,这不是个好主意。
我偶尔遇到一个问题,真的解决不了。
简言之:任何类型都是寻找其他方式做事的信号。

相关问题