Ubuntu   发布时间:2022-05-10  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了ubuntu安装spark 2.1.0大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。

spark介绍

spark是一套并行计算的框架,由于在计算过程中,数据在内存中传递,所有,性能要比hadoop的map/reduce在磁盘中传递的效率高很多。下边在使用hdfs的基础上,安装spark单机环境。

1.启动hadoop服务
2.安装spark程序包
3.启动spark服务器

启动hadoop服务

如过尚未安装hadoop,请参hadoop安装文档

cd $HADOOP_HOME/sbin
./start-all.sh
jps

显示信息如下:

hadoop@hzwy23:/opt/hadoop-2.7.3/sbin$ jps
7601 Jps
6487 SecondaryNameNode
7482 NodeManager
4747 NameNode
5565 Datanode
6655 resourceManager
hadoop@hzwy23:/opt/hadoop-2.7.3/sbin$ 

表明hadoop 已经启动成功。

安装spark程序包

spark下载地址官方下载链接
根据hadoop版本,选择对应的spark二进制包。如果下载的是spark源代码,需要安装编译环境,在这里以入门环境搭建为目标,所以,直接下载spark二进制包。
将下载好的压缩包解压到/opt目录中,如下边所示:

hadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7$ ls
bin  conf  data  derby.log  examples  jars  LICENSE  licenses  logs  metastore_db  NOTICE  python  R  README.md  RELEASE  sbin  work  yarn
hadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7$ pwd
/opt/spark-2.1.0-bin-hadoop2.7
hadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7$

接着设置spark环境变量,修改 ~/.profile 配置文件,在后边添加下面信息

export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

接着执行source命令,使环境变量生效:

source ~/.profile

到此,spark单机版已经安装完成

启动spark服务

cd $SPARK_HOME/sbin
./start-all.sh

接着查看spark在jvm中的进程信息:

hadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7/sbin$ jps
8800 Jps
8710 Worker
6487 SecondaryNameNode
7482 NodeManager
4747 NameNode
5565 Datanode
7917 @H_243_40@master
6655 resourceManager

上边显示Master、Worker进程已经启动,表示spark已经成功启动。
spark管理页面地址:http://127.0.0.1:8080

运行一个spark自带的圆周率计算函数。

cd $SPARK_HOME/bin
./run-example SparkPi 10

结果如下图所示:

上边过程,完成了spark的单机模式测试换进搭建,进攻入门学习参,大数据,需要通过 数据爬取 – 业务建模 – 数据分析 等等。现在已经打开了spark的入口,后续的将继续完善大数据实践过程。

大佬总结

以上是大佬教程为你收集整理的ubuntu安装spark 2.1.0全部内容,希望文章能够帮你解决ubuntu安装spark 2.1.0所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签:所有