janusgraph sparkGuava版

uttx8gqw  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(327)

我的问题是:
我们将Cloudera5.7.0与Java1.8.0结合使用,我们有spark 1.6.0、janusgraph 0.1.1和hbase 1.2.0。
我在gremlin shell中运行以下代码:

:load data/call-janusgraph-schema-groovy
writeGraphPath='conf/my-janusgraph-hbase.properties'
writeGraph=JanusGraphFactory.open(writeGraphPath)
defineCallSchema(writeGraph)
writeGraph.close()

readGraph=GraphFactory.open('conf/hadoop-graph/hadoop-call-script.properties')
gRead=readGraph.traversal()
gRead.V().valueMap()

//so far so good everything works perfectly

blvp=BulkLoaderVertexProgram.build().keepOriginalIds(true).writeGraph(writeGraphPath).create(readGraph)
readGraph.compute(SparkGraphComputer).workers(1).program(blvp).submit().get()

它开始执行spark作业,第一阶段运行平稳,但是在第二阶段我遇到了一个异常:

java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.createStarted()Lcom/google/common/base/Stopwatch;
at org.janusgraph.graphdb.database.idassigner.StandarIdPool.waitForIDBlockGetter(StandartIDPool.java:136).......

我认为这是Guava版本的问题
下面是我如何启动小精灵外壳


# !/bin/bash

export JAVA_HOME=/mnt/hdfs/jdk.1.8.0_74

export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/hadoop
export HADOOP_CONF_DIR= /etc/hadoop/conf.cloudera.yarn
export YARN_HOME=/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/hadoop-yarn
export YARN_CONF_DIR=$HADOOP_CONF_DIR
export SPARK_HOME=/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/spark
export SPARK_CONF_DIR=$SPARK_HOME/conf
export HBASE_HOME=/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/hbase
export HBASE_CONF_DIR=$HBASE_HOME/conf

source "$HADOOP_CONF_DIR"/hadoop-env.sh
source "$SPARK_HOME"/bin/load-spark-env.sh
source "$HBASE_CONF_DIR"/hbase-env.sh

export JAVA_OPTIONS="$JAVA_OPTIONS -Djava.library.path=/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/lib/hadoop/lib/native -Dtinkerpop.ext=ext -Dlog4j.configuration=conf/log4j-console.properties -Dgremlin.log4j.level=$GREMLIN_LOG_LEVEL -javaagent:/mnt/hdfs/janusgraph-0.1.1-hadoop2/lib/jamm-0.3.0.jar -Dhdp.version=$HDP_VERSION"

GREMLINHOME=/mnt/hdfs/janusgraph-0.1.1-hadoop2
export HADOOP_GREMLIN_LIBS=$GREMLINHOME/lib

export CLASSPATH=$HADOOP_HOME/etc/hadoop

export CLASSPATH=$CLASSPATH:$HBASE_HOME/conf

export CLASSPATH=$GREMLINHOME/lib/*:$YARN_HOME/*:$YARN_CONF_DIR:$SPARK_HOME/lib/*:$SPARK_CONF_DIR:$CLASSPATH

cd $GREMLINHOME
export GREMLIN_LOG_LEVEL=info
exec $GREMLINHOME/bin/gremlin.sh $*

下面是我的conf/hadoop-graph/hadoop-call-script.properties文件:

gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph
gremlin.hadoop.GraphInputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.script.ScriptInputFormat
gremlin.hadoop.inputLocation=/user/hive/warehouse/tablex/000000_0
gremlin.hadoop.scriptInputFormat.script=/user/me/janus/script-input-call.groovy
gremlin.hadoop.outputLocation=output
gremlin.hadoop.jarsInDistributedCache=true

spark.driver.maxResultSize=8192
spark.yarn.executor.memoryOverhead=5000
spark.executor.cores=1
spark.executor.instances=1000
spark.master=yarn-client
spark.executor.memory=10g
spark.driver.memory=10g
spark.serializer=org.apache.spark.serializer.JavaSerializer

如果我将行“spark.master=yarn client”更改为“spark.master=local[*]”,那么它运行良好并将数据加载到janusgraph,不会引发异常。但是我需要用Yarn,这是我必须的。因此,我将guava-18.0.jar添加到hdfs中,并将行“spark.executor.extraclasspath=hdfs:///user/me/guava-18.0.jar”添加到hadoop-call-script.properties中。它没有解决问题。
目前我的想法和无助,任何帮助是感激的。
不是:我知道mvn着色与这个问题有关,但是在这种情况下,因为我使用janusgraph代码来创建spark作业,所以我无法干预和着色guava包。
提前告诉我,阿里

kuuvgm7e

kuuvgm7e1#

当您提交将使用janusgraph从hbase读/写到hbase的spark作业时,就会出现问题。问题的真正原因是每个组件都需要一个不同版本的guava,这个版本的提交速度非常快,而且版本之间的兼容性无法保证。下面是快速查看版本依赖关系-
spark v1.6.1-guava v14.0.1
hbase v1.2.4-guava v12.0
janusgraph 0.1.1-Guavav18.0
即使您在classpath中提供了所有三个jar,由于版本冲突,您仍将获得特定于guava的jar。我解决这个问题的方法是重建janusgraph并在janusgraph核心和janusgraph hbase父级中重新定位Guava。
在解决这个问题之后,我遇到了一些与spark和hbase中的jetty冲突相关的其他依赖性问题,为此我将mortbay从janusgraph hbase父着色中排除。
希望这有帮助,如果你需要更多的信息,我会更新答案。

nx7onnlm

nx7onnlm2#

几天前我也遇到了同样的问题。这是因为com.google。guava:guava:18.0工件可能不在类路径中,或者类路径上可能存在同一jar的多个版本。


# from the projects home dir

>ls -lrt lib/ | grep gua

# should show guava-18.0.jar

如果神器(https://mvnrepository.com/artifact/com.google.guava/guava/18.0 )不存在,然后将其添加到lib文件夹中。
最好从shell脚本中打印$classpath,以检查所需的jar是否在类路径上

相关问题