hadoop摄取自动化技术

efzxgjgh  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(305)

我的背景是;
晚上有10个csv文件上传到我的服务器上。
我的过程是:
摄入:
把文件放在hdfs上
创建orc配置单元表并在其上放置数据。
处理:
Spark加工:改造、清洗、连接。。。。
很多连锁步骤(Spark作业)
我正在寻找最佳实践来自动化第一部分并触发第二部分。
克朗,嘘,把。
哦齐?
Apache·尼菲?
Flume?
电话:(
我也看到了https://kylo.io/ ,这是完美的,但我认为还是年轻的投入生产。
提前谢谢。

m4pnthwp

m4pnthwp1#

oozie和nifi都将与flume、hive和spark动作结合使用。
所以你的(oozie或nifi)工作流应该是这样工作的
cron作业(或时间表)启动工作流。
工作流程的第一步是flume进程,将数据加载到所需的hdfs目录中。您可以不用flume,只需hdfs命令就可以做到这一点,但这将有助于维护您的解决方案在未来的可扩展性。
创建/更新表的配置单元操作
执行自定义spark程序的spark操作
确保通过正确的日志记录和通知处理工作流中的错误,以便在生产中操作工作流。

相关问题