HDFS 一个简单的事件驱动批处理

mm5n2pyu  于 8个月前  发布在  HDFS
关注(0)|答案(1)|浏览(84)

首先,我想收集一些信息,一个简单的事件驱动架构在真实的生活中是如何工作的。如果这个问题在这里不合适。请告诉我在哪里可以问这类问题。
以下是我的usecase:我公司有两个部门,A部门将HDFS中的数据提供给B部门,启动流程并生成最终报告。计划示例部门A在上午11:00启动流程部门B在下午05:00启动流程
我的问题是,B部门如何在A部门提供数据后立即启动流程。
我最初的想法是定期检查部门B的数据可用性

up9lanfz

up9lanfz1#

1.在某个队列RabbitMQ或Kafka中有一个任务收集器,该任务收集器具有数据在摄取层中可用和完整的信号
1.启动一个生产者Kafka,使用HDFS作为源,为部门A生产流

  1. Dept B的消费者Kafka正在不断接收Dept A的数据。
  2. Dept B Kafka中的数据将是json或Avro
    1.你必须在Dept B中编写一些消费者Kafka,将AVRO转换为结构化形式,并在HDFS中插入
    1.编写一些单元测试来验证部门B中的数据以测试数据

相关问题