hadoop摄取自动化技术

efzxgjgh 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(305)

我的背景是；
晚上有10个csv文件上传到我的服务器上。
我的过程是：
摄入：
把文件放在hdfs上
创建orc配置单元表并在其上放置数据。
处理：
Spark加工：改造、清洗、连接。。。。
很多连锁步骤（Spark作业）
我正在寻找最佳实践来自动化第一部分并触发第二部分。
克朗，嘘，把。
哦齐？
Apache·尼菲？
Flume？
电话：(
我也看到了https://kylo.io/ ，这是完美的，但我认为还是年轻的投入生产。
提前谢谢。

hadoop apache-nifi data-ingestion

来源：https://stackoverflow.com/questions/43376443/hadoop-ingestion-automation-techniques

1条答案

按热度按时间

m4pnthwp1#

oozie和nifi都将与flume、hive和spark动作结合使用。
所以你的（oozie或nifi）工作流应该是这样工作的
cron作业（或时间表）启动工作流。
工作流程的第一步是flume进程，将数据加载到所需的hdfs目录中。您可以不用flume，只需hdfs命令就可以做到这一点，但这将有助于维护您的解决方案在未来的可扩展性。
创建/更新表的配置单元操作
执行自定义spark程序的spark操作
确保通过正确的日志记录和通知处理工作流中的错误，以便在生产中操作工作流。

赞(0）回复(0）举报 2021-05-29

我来回答

hadoop摄取自动化技术

1条答案

相关问题

热门标签

最新问答