如何在hadoop上实现数据沿袭？

yws3nbqq 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(327)

我们在金融领域实施的业务流程很少。监管机构的要求（不幸的是，不是很具体）是有一个用于审计目的的数据谱系。
该流包含两个部分：同步和异步。同步部分是一个包含关于销售点、客户和商品的大量信息的支付尝试。异步部分是一个批处理过程，它每小时向信用评估数据模型提供一部分新计算的变量。这些变量可能包括一些聚合，如余额和历史交易的链接。
为了计算异步部分，我们从多个关系数据库中摄取数据，并以原始格式（csv格式的表中的行）将它们存储在hdfs中。
在hdfs上存储数据时，会触发一个基于springxd的作业，该作业计算一些聚合并生成同步部分的数据。
我们有关系数据、hdfs上的原始数据和依赖pojo的mapreduce作业，pojo描述了springxd中实现的相关语义和转换。
所以，问题是如何处理上述场景中的审计？我们需要在任何时间点能够解释为什么要做出特定的决策，并且能够解释如何计算策略中使用的每个变量（同步或近实时流）。
我查看了现有的hadoop堆栈，看起来目前没有任何工具能够提供良好的企业级审计功能。
我的想法是从custome实现开始，包括>
包含所有业务术语的业务术语表
操作和技术元数据-将每个条目的转换执行记录到单独的存储中。
记录对业务逻辑的更改（使用保存业务规则和转换的版本控制中的数据）。
任何建议或分享您的经验将不胜感激！

hadoop architecture data-lineage finance enterprise-architecture

来源：https://stackoverflow.com/questions/37528116/how-to-implement-data-lineage-on-hadoop