在scala spark中使用任何数据类型

ig9co6j1 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(331)

我写了一个通用的Spark工作，我不知道总钥匙事先。其目的是用户可以选择任意随机列，作业将基于此开始创建聚合。举个小例子

Col_A Int
Col_B String
Col_C Long

用户可以在GROUPBY子句中选择它们中的任何一个并选择度量值。此作业现在必须作为流运行。
为了实现这一点，我们创建了一个对象

class AggregateValue(var value: Any)

此对象将保存键的值。因为我不知道类型，所以我还是保留。现在，我想知道有没有最好的选择。在性能等方面使用any作为类型有什么缺点吗。
另外，我明白类型安全是任何问题。你们认为这会对性能或其他方面造成影响吗。感谢您的帮助

1条答案

如果你在这里和其他地方搜索，你会发现自定义项不能使用任何或Map。
spark sql以及dfs和dss不支持架构中的任何内容。所以，这不是个好主意。
我偶尔遇到一个问题，真的解决不了。
简言之：任何类型都是寻找其他方式做事的信号。