如何通过集群中的oozie工作流将文本文件加载到hdfs中

2lpgd968  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(194)

我正在尝试用oozie加载hive脚本中的text/csv文件,并每天安排它。文本文件位于本地unix文件系统中。
在oozie工作流中执行配置单元脚本之前,我需要将这些文本文件放到hdfs中。
在实时集群中,我们不知道作业将在哪个节点上运行,它将在集群中的任意一个节点上随机运行。
有谁能给我提供解决办法吗。
提前谢谢。

piah890a

piah890a1#

我不知道你想做什么。
在我看来,这是行不通的:
oozie服务器只能访问hdfs文件(与hive相同)
你的数据在某个地方的本地文件系统上
那你为什么不事先把文件加载到hdfs中呢?传输可以在文件可用时触发(上游作业中的后处理操作),也可以在固定时间触发(使用linux cron)。
如果您的namenode上的webhdfs服务是活动的,那么您甚至不需要linux上的hadoop库—只需使用curl和http上传。

相关问题