在虚拟机上的本地spark中运行导出的databricks笔记本

vd8tlhqk  于 2022-12-13  发布在  Apache
关注(0)|答案(1)|浏览(86)

我已经在本地安装了spark,它的所有依赖项都在一个虚拟机上。

现在我想在这个环境下运行一个导出的databricks笔记本。不使用jupyter我能达到这个目标吗?

50few1ms

50few1ms1#

您可以将Databricks记事本导出为包含所有单元格代码的“普通”python文件(File > Export菜单)。
如果您重新导入该文件,数据块使用该文件中的注解来重建笔记本结构,但是,由于是注解,如果您将该文件作为脚本在本地运行,Python解释器将跳过这些注解。
唯一缺少的是一个spark会话(笔记本代码中的spark变量)。

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

然后在本地环境中使用spark-submit

spark-submit your_notebook.py

请注意,此方法仅适用于非常简单的笔记本电脑,没有任何特定于数据块功能或实用程序的内容。

相关问题