我写了一个通用的Spark工作,我不知道总钥匙事先。其目的是用户可以选择任意随机列,作业将基于此开始创建聚合。举个小例子
Col_A Int
Col_B String
Col_C Long
用户可以在GROUPBY子句中选择它们中的任何一个并选择度量值。此作业现在必须作为流运行。
为了实现这一点,我们创建了一个对象
class AggregateValue(var value: Any)
此对象将保存键的值。因为我不知道类型,所以我还是保留。现在,我想知道有没有最好的选择。在性能等方面使用any作为类型有什么缺点吗。
另外,我明白类型安全是任何问题。你们认为这会对性能或其他方面造成影响吗。感谢您的帮助
1条答案
按热度按时间qncylg1j1#
如果你在这里和其他地方搜索,你会发现自定义项不能使用任何或Map。
spark sql以及dfs和dss不支持架构中的任何内容。所以,这不是个好主意。
我偶尔遇到一个问题,真的解决不了。
简言之:任何类型都是寻找其他方式做事的信号。