抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >


Spark 环境部署(Ubuntu20.04)

Spark  在 Ubuntu20.04 中的配置

实验环境

实验环境

Ubuntu20.04 LTS

Ubuntu20.04 LTS

Hadoop 2.6.0-cdh5.14.0

Hadoop 2.6.0-cdh5.14.0

Java 1.8.0_141

Java 1.8.0_141

Python3.8.2(default)

Python3.8.2(default)

Spark 3.0.0-preview2

Spark 3.0.0-preview2

配置 java 环境

解压安装 jdk

tar -zxvf jdk-8u141-linux-x64.tar.gz -C ../servers/

配置环境变量

nano /etc/profile
/etc/profile
export JAVA_HOME=/export/servers/jdk1.8.0_141
export PATH=:$JAVA_HOME/bin:$PATH

修改完成之后记得  
reboot -h nowsource
/etc/profile 生效

验证

jps

配置 Hadoop 环境

下载解压

Hadoop 2 可以通过  https://mirrors.cnnic.cn/apache/hadoop/common/  下载

将 Hadoop 安装至 /usr/local/ 中:

sudo tar -zxf hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop # 修改文件权限

Hadoop 伪分布式配置

伪分布式需要修改 2 个配置文件  core-site.xml  和  hdfs-site.xml

core-site.xml

core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

hdfs-site.xml

hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>

配置 JAVA_HOME

到 hadoop 的安装目录修改配置文件 “/usr/local/hadoop/etc/hadoop/hadoop-env.sh”,在里面找到 “export JAVA_HOME=${JAVA_HOME}” 这行,然后,把它修改成 JAVA 安装路径的具体地址

NameNode 格式化

cd /usr/local/hadoop
./bin/hdfs namenode -format

开启 NameNode 和 DataNode 守护进程

cd /usr/local/hadoop
./sbin/start-dfs.sh

安装 Spark

打开浏览器,访问 Spark 官方下载地址

安装 Spark

由于我们已经自己安装了 Hadoop,所以,在 Choose a package type 后面需要选择 Pre-build with user-provided Hadoop
将 spark 解压到 /usr/local, 并重命名为 spark
修改 Spark 的配置文件 spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑 spark-env.sh 文件,在第一行添加以下配置信息:

spark-env.sh
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

修改环境变量

/etc/profile
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

运行 Spark 自带的示例,验证 Spark 是否安装成功

使用 Spark 计算 PI3.1415926....

cd /usr/local/spark
bin/run-example SparkPi

Spark 计算 PI
grep 命令进行过滤

bin/run-example SparkPi 2>&1 | grep "Pi is"

Spark 计算 PI

推荐阅读
大数据处理技术-apache hadoop三种架构介绍(StandAlone) 大数据处理技术-apache hadoop三种架构介绍(StandAlone) 大数据处理技术-CDH 伪分布式环境搭建 大数据处理技术-CDH 伪分布式环境搭建 大数据处理技术-apache hadoop三种架构介绍(高可用分布式环境介绍以及安装) 大数据处理技术-apache hadoop三种架构介绍(高可用分布式环境介绍以及安装) CentOS7安装Python3 CentOS7安装Python3 大数据处理技术-apache hadoop三种架构介绍(伪分布介绍以及安装) 大数据处理技术-apache hadoop三种架构介绍(伪分布介绍以及安装) Spark RDD 编程 Spark RDD 编程

留言区

Are You A Robot?