如何使用spark submit运行emr集群主节点上的scala文件？

vddsk6oq 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(398)

因此，我使用ssh连接到emr集群的主节点。这是主节点中的文件结构：

|-- AnalysisRunner.scala
|-- AutomatedConstraints.scala
|-- deequ-1.0.1.jar
|-- new
|   |-- Auto.scala
|   `-- Veri.scala
|-- VerificationConstraints.scala
`-- wget-log

现在，我要先跑 spark-shell --conf spark.jars=deequ-1.0.1.jar 一旦我到达scala提示符，我就会使用 :load new/Auto.scala 运行scala脚本。
我想做的是：
在emr集群的主节点上，我想运行一个 spark-submit 这将帮助我实现我之前所做的一切。
我是新手，有人能帮我指挥吗？

scala apache-spark spark-submit amazon-emr

来源：https://stackoverflow.com/questions/66209747/how-to-use-spark-submit-to-run-a-scala-file-present-on-emr-clusters-master-node

1条答案

按热度按时间

6tdlim6h1#

对于任何可能被困在这里的初学者：
你需要有一个ide（我使用intellij idea）。应遵循的步骤：
创建一个scala项目-在build.sbt文件中列出所有需要的依赖项。
创建一个包（比如说“pkg”），然后在它下面创建一个scala对象（比如说“obj”）。
在scala对象中定义main方法并编写逻辑。
处理项目以形成单个.jar文件(使用ide工具或在项目目录中运行“sbt package”）
使用以下命令提交

spark-submit --class pkg.obj 
--jars <path to your dependencies (if any)> 
<path to the jar created from your code> 
<command line arguments (if any)>

这对我有用。注意-如果您在emr集群上运行此命令，请确保所有路径都是基于
群集上存在文件系统
s3路径

赞(0）回复(0）举报 2021-07-13

我来回答

如何使用spark submit运行emr集群主节点上的scala文件？

1条答案

相关问题

热门标签

最新问答