kafka与spark 3.0.0版的spark结构化流媒体集成

z18hc3ub  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(560)

Kafka与Spark流抛出一个错误:

from pyspark.streaming.kafka import KafkaUtils ImportError: No module named kafka

我已经建立了一个Kafka经纪人和一个工作Spark环境与一个主和一个奴隶。

import os

os.environ['PYSPARK_PYTHON'] = '/usr/bin/python2.7'
import findspark
findspark.init('/usr/spark/spark-3.0.0-preview2-bin-hadoop2.7')
import pyspark
import sys
from pyspark import SparkConf,SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

if __name__=="__main__":
    sc = SparkContext(appName="SparkStreamAISfromKAFKA")
    sc.setLogLevel("WARN")
    ssc = StreamingContext(sc,1)
    kvs = KafkaUtils.createStream(ssc,"my-kafka-broker","raw-event-streaming-consumer",{'enriched_ais_messages':1})
    lines = kvs.map(lambda x: x[1])
    lines.count().map(lambda x: 'Messages AIS: %s' % x).pprint()
    ssc.start()
    ssc.awaitTermination()

对于这个错误,我假设缺少一些与Kafkaans相关的东西,特别是版本。有人能帮忙吗?
spark版本:版本3.0.0-preview2
我执行时:

/usr/spark/spark-3.0.0-preview2-bin-hadoop2.7/bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.1 --jars spark-streaming-kafka-0-10_2.11 spark_streamer.py spark://mysparkip:7077
rlcwz9us

rlcwz9us1#

根据kafka集成指南,pythonapi还没有在spark版本3.0.0中提供。
您可以使用spark版本2.4.5来解决您的问题。

相关问题