在pyspark文件中执行hive命令,同时通过apacheoozie自动化作业

ufj5ltwl  于 2021-07-13  发布在  Hadoop
关注(0)|答案(0)|浏览(132)

我开发了一个pyspark脚本,通过使用apacheoozie工作流(使用spark动作)和另一个工作流(使用shell动作)来自动化数据处理。在pyspark脚本中,我尝试执行以下操作:

os.system('hdfs dfs -e "$(hdfs dfs -cat /full_path_in_my_hdfs/myquery.hql)"')

myquery.hql文件只创建一个小的配置单元表,一点也不复杂。我已经提供了在oozie上运行pyspark所需的所有配置和jdbc设置。在oozie上执行这个pyspark的状态是成功的,但是根本没有创建表。这就像oozie将作业提交给hadoop/yarn并尝试执行它,但没有返回任何输出,就好像它忽略了它并跳转到第二个命令并返回一个成功的作业一样。
我在没有oozie的shell上测试了上面的命令和脚本,它工作得很好,表也被创建了,只是当我试图在oozie中自动执行该作业时,没有得到任何输出,oozie作业成功完成了?!?!?
如果有人以前遇到过类似的东西,并且愿意分享他/她的方法或对此类用例的任何建议,我将不胜感激。
谢谢大家

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题