在pyspark文件中执行hive命令，同时通过apacheoozie自动化作业

ufj5ltwl 于 2021-07-13 发布在 Hadoop

关注(0)|答案(0)|浏览(132)

我开发了一个pyspark脚本，通过使用apacheoozie工作流（使用spark动作）和另一个工作流（使用shell动作）来自动化数据处理。在pyspark脚本中，我尝试执行以下操作：

os.system('hdfs dfs -e "$(hdfs dfs -cat /full_path_in_my_hdfs/myquery.hql)"')

myquery.hql文件只创建一个小的配置单元表，一点也不复杂。我已经提供了在oozie上运行pyspark所需的所有配置和jdbc设置。在oozie上执行这个pyspark的状态是成功的，但是根本没有创建表。这就像oozie将作业提交给hadoop/yarn并尝试执行它，但没有返回任何输出，就好像它忽略了它并跳转到第二个命令并返回一个成功的作业一样。
我在没有oozie的shell上测试了上面的命令和脚本，它工作得很好，表也被创建了，只是当我试图在oozie中自动执行该作业时，没有得到任何输出，oozie作业成功完成了？！？！？
如果有人以前遇到过类似的东西，并且愿意分享他/她的方法或对此类用例的任何建议，我将不胜感激。
谢谢大家

hadoop hdfs oozie pyspark oozie-workflow

来源：https://stackoverflow.com/questions/66483742/executing-hive-command-inside-pyspark-file-while-automating-job-by-apache-oozie