spark2.0.0：在集群模式下从cassandra读取

dnph8jn4 于 2021-06-15 发布在 Cassandra

关注(0)|答案(1)|浏览(375)

我在运行spark2.0.0中从cassandra读取数据的spark应用程序时遇到了一些问题。
我的代码如下：

DataFrameReader readerCassandra = SparkContextUtil.getInstance().read() 
                    .format("org.apache.spark.sql.cassandra")
                    .option("spark.cassandra.connection.host", [DATABASE_IP])
                    .option("spark.cassandra.connection.port", [DATABASE_PORT]);

final Map<String,String> map = new HashMap<String,String>();

map.put("table", "MyTable");
map.put("keyspace", "MyKeyspace");

public final  StructType schema = DataTypes.createStructType(
        new StructField[] { DataTypes.createStructField("id", DataTypes.StringType, true),
            DataTypes.createStructField("timestamp", DataTypes.TimestampType, true),
            DataTypes.createStructField("value", DataTypes.DoubleType, true)
        });

final Dataset<Row> dataset = readerCassandra.schema(schema).options(map).load(); 
dataset.show(false);

我想在集群中运行此代码。我的集群使用spark-2.0.2-bin-hadoop2.7（目前没有spark-2.0.0）http://spark.apache.org/downloads.html).
首先，我使用以下脚本以客户端模式提交它：


# !/bin/bash

sparkMaster=local[*]
mainClass=package.MainClass

jar=/path/to/myJar-with-dependencies.jar

driverPort=7079
blockPort=7082

deployMode=client

$SPARK_HOME/bin/spark-submit \
  --conf "spark.driver.port=${driverPort}"\
  --conf "spark.blockManager.port=${blockPort}"\
  --class $mainClass \
  --master $sparkMaster \
  --deploy-mode $deployMode \
  --jars /path/to/jars/spark-cassandra-connector_2.11-2.0.0.jar \
  $jar

当我这么做的时候，一切都很顺利。但是现在，我想在集群模式下运行我的应用程序。
所以我通过设置 sparkMaster 与我的主ip，和 deployMode 到“群集”。
当我提交申请时，驱动程序日志中几乎立即出现以下错误：

Exception in thread "main" java.lang.reflect.InvocationTargetException
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.worker.DriverWrapper$.main(DriverWrapper.scala:58)
        at org.apache.spark.deploy.worker.DriverWrapper.main(DriverWrapper.scala)
Caused by: java.lang.ClassNotFoundException: Failed to find data source: org.apache.spark.sql.cassandra. Please find packages at https://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projects
        at org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:148)
        ...

Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.cassandra.DefaultSource
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        ...

注：
我仍然有集群的错误，只有一个工人在同一台机器上作为我的主人。
一开始，我使用的是spark2.3.1，在集群模式下运行代码没有任何问题（在中使用spark-cassandra-connector_2.11-2.3.1.jar） --jars ).
我试过多个jar --jars 比如： spark-cassandra-connector_2.11-2.0.0.jar , spark-cassandra-connector_2.11-2.0.2.jar , spark-cassandra-connector_2.11-2.3.1.jar , spark-cassandra-connector-java_2.11-1.5.1.jar ，但都没用。
其他一些jar放在箱子里 --jars param和

Java cassandra apache-spark spark-cassandra-connector

来源：https://stackoverflow.com/questions/52533181/spark-2-0-0-read-from-cassandra-in-cluster-mode

1条答案

按热度按时间

wyyhbhjk1#

您可能需要将路径指定为 file:///path/to/jars/spark-cassandra-connector_2.11-2.0.0.jar 相反，在这种情况下，它将通过驱动程序的http服务器分发给执行者。否则，它希望您已经将该文件复制到所有计算机，以避免进程本身进行复制。有关详细信息，请参阅spark文档。。。
我更倾向于建议只创建带有所有依赖项的uberjar（spark除外），然后提交它——这样做会减少痛苦。

赞(0）回复(0）举报 2021-06-15

我来回答

spark2.0.0：在集群模式下从cassandra读取

1条答案

相关问题

热门标签

最新问答