mapr流与pyspark一起工作吗?我下载了必要的jar并尝试测试以下示例。https://github.com/ihijazi/data-engineering/blob/master/kafka-mapr-db-hbase.py 请告诉我遗漏了什么。
[mapr@ip-10-0-0-85 centos]$ /opt/mapr/spark/spark-2.1.0/bin/spark-
submit --jars /opt/mapr/spark/spark-2.1.0/jars/spark-streaming_2.10-
2.1.0.jar /home/mapr/kafka.py
Traceback (most recent call last):
File "/home/mapr/kafka.py", line 7, in <module>
from pyspark.streaming.kafka import *;
ImportError: No module named kafka
2条答案
按热度按时间bz4sfanl1#
进入spark文件夹
搜索是否有kafka、kafka08或kafka09,并在代码的import语句中相应地更改
yebdmbv42#
根据issam hijazi的发现,pyspark不是为与mapr流一起工作而编译的(因为它不使用v09)。不过,他也报告说,下载了最新的版本http://package.mapr.com/releases/ecosystem-5.x/redhat/mapr-spark-1.6.1.201612010646-1.noarch.rpm 解决了问题。请查看详细信息:https://community.mapr.com/message/54864-re-mapr-streams-via-pyspark-exception?commentid=54864#comment-54864