spark流从Hive表,有可能吗?

khbbv19g  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(291)

我有一个用例
我们有java框架,每半个小时就可以将实时数据从kinesis解析到hive表。
我需要访问这个配置单元表并进行一些近乎实时的处理。一个小时的延迟是好的,因为我没有权限访问kinesis流。
一旦处理在spark中完成(最好是pyspark),我就必须创建一个新的kinesys流并推送数据。
然后我将使用splunk和拉它近实时。
问题是,有人用python从hive中完成了spark流吗?我要做一个poc然后再做实际的工作。
任何帮助都将不胜感激。
提前谢谢!!

mfuanj7w

mfuanj7w1#

有两种方法可以实现这一点:
使用Spark流从动觉中直接获取信息。这会给你一些实时的东西。
一旦文件放入您的暂存区域(您的hive仓库或您的一些hdfs位置),您就可以使用spark streaming对文件进行处理。
一定要告诉我们哪种方法最适合你。

相关问题