HDFS 一个简单的事件驱动批处理

mm5n2pyu 于 8个月前发布在 HDFS

关注(0)|答案(1)|浏览(84)

首先，我想收集一些信息，一个简单的事件驱动架构在真实的生活中是如何工作的。如果这个问题在这里不合适。请告诉我在哪里可以问这类问题。
以下是我的usecase：我公司有两个部门，A部门将HDFS中的数据提供给B部门，启动流程并生成最终报告。计划示例部门A在上午11：00启动流程部门B在下午05：00启动流程
我的问题是，B部门如何在A部门提供数据后立即启动流程。
我最初的想法是定期检查部门B的数据可用性

来源：https://stackoverflow.com/questions/74072843/a-simple-event-driven-batch-processing

1条答案

按热度按时间

1.在某个队列RabbitMQ或Kafka中有一个任务收集器，该任务收集器具有数据在摄取层中可用和完整的信号
1.启动一个生产者Kafka，使用HDFS作为源，为部门A生产流

Dept B的消费者Kafka正在不断接收Dept A的数据。
Dept B Kafka中的数据将是json或Avro
1.你必须在Dept B中编写一些消费者Kafka，将AVRO转换为结构化形式，并在HDFS中插入
1.编写一些单元测试来验证部门B中的数据以测试数据

赞(0）回复(0）举报 8个月前

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前