如何安装apachespark并使其在r上运行？

o2g1uqev 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(346)

所以，我对hadoop和apachespark还很陌生。我是一个新手，正在尝试。因此，首先我了解了什么是hadoop和mapreduce，它们是如何产生的，然后是apachespark提供了什么优于hadoop的优势（一些在内存和磁盘上的处理速度更快），以及使我们的生活更轻松的多个库。现在，我想试试我的apachespark。为了做到这一点，我假设我必须在我的机器上安装一个名为apachespark的软件。
我所做的是安装oracle虚拟盒。然后我安装了流浪汉。现在，我知道在下载了vagrant，提取了文件和其他东西之后，我必须运行这个命令 vagrant up 它将下载并安装我的虚拟机。但是，我想使用apachespark使用r。我的意思是，我不懂python，但我懂r。几天前我读到，databricks显然已经发布了对r的支持。因为，我是新来的，我假设，将有一些shell，我可以键入我的r命令和计算将发生在使用apachespark。
因此，我不知道如何继续。我该怎么办 vagrant up ，我想这将允许我使用apachespark使用python shell。或者这就是未来的发展方向，在这样做之后，我将不得不安装一些额外的库来使用r。

hadoop apache-spark r

来源：https://stackoverflow.com/questions/30885718/how-do-i-install-apache-spark-and-get-it-up-and-running-for-r

2条答案

按热度按时间

sauutmhj1#

如何安装apache spark？
请去餐厅https://spark.apache.org/downloads.html
请从2015年7月2日起为hadoop 2.6及更高版本选择预构建
下载并解压缩文件
请使用终端进入下载文件夹，最后进入解压文件夹 cd Downloads/ cd spark-1.4.0-bin-hadoop2.6 把它拿起来然后跑去？
请用以下命令检查您的目录 ls 您将开始看到文件夹中的文件 CHANGES.txt NOTICE README.md bin data ec2 lib sbin LICENSE R RELEASE conf derby.log examples python 最后，请在终端中键入以下命令以使用来自spark的r ./bin/sparkR

赞(0）回复(0）举报 2021-05-30

wwodge7n2#

你所说的软件包是sparkr实际上你可以在r中导入一些软件包，并且可以在r中本地使用spark，但是如果你想使用spark独立集群，那么你也必须安装spark。在spark 1.4.0中，r软件包已随spark安装一起嵌入，您可以通过将其导入r来直接使用它们。
这个新发布的软件包可以从这个位置下载-
https://spark.apache.org/downloads.html
现在您可以使用rstudio或rshell并使用这些行来导入r包-

Sys.setenv(SPARK_HOME="/home/hduser/Downloads/FlareGet/Others/spark-1.4.0-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)

或者您可以直接从下载包的bin文件夹运行sparkrshell—转到bin文件夹并键入命令promt

./sparkR

从此位置下载包-http://www.webhostingjams.com/mirror/apache/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz

赞(0）回复(0）举报 2021-05-30

我来回答

如何安装apachespark并使其在r上运行？

2条答案

相关问题

热门标签

最新问答