传输pdf文件的最佳方式

gwo2fgha  于 2021-06-08  发布在  Kafka
关注(0)|答案(1)|浏览(334)

通过消息队列传输pdf文件的好方法是什么?
在Kafka这样做是个好主意吗?
以下是我的想法:
从文件放置位置拾取pdf文件。
通过Kafka传输文件。
对文件进行分析,以便进行一些低级的信息检索和清理。这可能会在风暴或星火中完成。也许是一些自定义的Map代码。
最后,我想在这些文档上运行一些机器学习算法。
请注意,上述步骤只是可能的。如果你有一个更好的实施,请建议。

q43xntqr

q43xntqr1#

我把它分成三个问题:
摄入
解析
分析
因此,您可以执行一次摄取,但随着您对数据和问题的理解的发展,您可以迭代解析和分析。
对于摄取,我会将实际文件推送到一个可广泛访问的位置,如hdfs或http服务器,然后通过kafka发送一条短消息,说明给定位置的文件刚刚添加完毕,可以进行解析。解析完文件后,将该信息存储在数据库中,以便在解析算法更改时可以再次迭代整个摄取的文件集。

相关问题