我已经在cloudera中编写了hiveudf,我们正在将其迁移到hortonworks。当我尝试在hortonworks集群中应用相同的udf时,它会在下面抛出一个错误。
u0sqgete1#
使用正确版本的正确依赖项。与管理团队讨论版本并尝试运行它。limit总是扫描很少的记录,并对该数据而不是整个数据集应用该操作,因此,当我使用limit应用udf时,它对我有效。如果使用limit,即使是您使用的任何版本/即使是cdh版本也可以工作。但当你把它应用于整个数据集时,问题就来了。由于我的示例数据约为500万条记录,它必须运行map reduce作业。
1条答案
按热度按时间u0sqgete1#
使用正确版本的正确依赖项。与管理团队讨论版本并尝试运行它。limit总是扫描很少的记录,并对该数据而不是整个数据集应用该操作,因此,当我使用limit应用udf时,它对我有效。如果使用limit,即使是您使用的任何版本/即使是cdh版本也可以工作。但当你把它应用于整个数据集时,问题就来了。由于我的示例数据约为500万条记录,它必须运行map reduce作业。