以分布式方式进行二进制文件转换-spark、flume或任何其他选项?

ej83mcc0  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(288)

我们有一个场景,其中会有一组连续传入的二进制文件(确切地说是asn.1类型)。我们希望将这些二进制文件转换成不同的格式,比如xml或json,然后写入到不同的位置。我想知道什么样的架构设计才能最好地处理这种问题?我知道我们可以使用spark cluster来处理csv、json、parquet之类的文件,但我不确定我们是否可以使用它来处理二进制文件,或者我们可以使用apacheflume将文件从一个地方移动到另一个地方,甚至使用拦截器来转换内容。
如果我们可以在考虑性能的情况下随时切换asn.1解码器,而不改变分布式处理的底层框架(例如:使用基于c++或基于python或基于java的解码器库),这是非常理想的。

ep6jt1vc

ep6jt1vc1#

在可伸缩性、可靠性和经得起未来考验的解决方案方面,我更倾向于使用apachenifi而不是flume。您可以从开发自己的asn.1处理器开始,或者尝试使用已经可用但尚未发布版本的修补程序。

相关问题