Hadoop - Spark + Jupyter 應用程式安裝

2021-02-08 1015 words 3 minutes

Contents

Hadoop 為 Apache 基金會的開源頂級專案，為軟體框架做為分散式儲存及運算，無論是增減加機器都能處理，另具備高可用性、數據副本等能力

機器基本訊息:

準備五台機器（兩台主節點、三台工作節點)

IP	FQDN	HOSTNAME	用途
192.168.1.30	test30.example.org	test30	Master 節點 (Namenode)
192.168.1.31	test31.example.org	test31	Master 節點 (ResourceManager)
192.168.1.32	test32.example.org	test32	Worker 節點
192.168.1.33	test33.example.org	test33	Worker 節點
192.168.1.34	test34.example.org	test34	Worker 節點

OS : Ubuntu 18.04
資源配置 :
- Cpu : 4 core
- Ram : 8 G
- Disk : 50 G

建置步驟 - Spark + Jupyter 應用程式安裝：

執行前，請先確認叢集均已啟動 hdfs 及 yarn 服務

1. 下載及安裝Spark(管理者身份)

下載

1
2


cd
wget http://ftp.tc.edu.tw/pub/Apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz

Info

如檔案過期或是失效，請至Spark官方網站下載

解壓縮

1

tar -xvf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local

更名

1

mv /usr/local/spark-2.4.4-bin-hadoop2.7 /usr/local/spark

修改spark資料夾及檔案使用者

1

chown -R hadoop:hadoop /usr/local/spark

2. 修改Spark環境變數(hadoop身份)

設定.bashrc

1

nano ~/.bashrc

重新載入設定檔

1

source ~/.bashrc  #( . .bashrc)

查看環境變數

3. 更改 Spark運行程式時環境腳本(hadoop身份)

複製並建立一份spark-env腳本

1

cp /usr/local/spark/conf/spark-env.sh.template  /usr/local/spark/conf/spark-env.sh

編輯spark-env腳本

1

nano /usr/local/spark/conf/spark-env.sh

4. 跑個pi 測試一下Spark(hadoop身份)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


cd $SPARK_HOME
./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
--num-executors 3 \
--queue default \
examples/jars/spark-examples*.jar \
100

明顯看出Spark 遠遠勝過 MapReduce (同樣跑pi 100次)

MapReduce花費3分11秒 Spark花費14秒

5. 停止Spark運行程式時都要上傳jar檔到hdfs方式(hadoop身份)

每次執行都會上傳那麼多檔案

1
2
3


hdfs dfs -mkdir -p /user/spark/share/jars
hdfs dfs -put $SPARK_HOME/jars/* /user/spark/share/jars/
hdfs dfs -ls /user/spark/share/jars

上傳jar檔到hdfs

1
2


hdfs dfs -mkdir -p /user/spark/share/jars
hdfs dfs -put $SPARK_HOME/jars/* /user/spark/share/jars/

確認jar檔都上傳

1

hdfs dfs -ls /user/spark/share/jars | wc -l

編輯spark-defaults.conf 的hdfs路徑

1
2


cp /usr/local/spark/conf/spark-defaults.conf.template /usr/local/spark/conf/spark-defaults.conf
nano /usr/local/spark/conf/spark-defaults.conf

跑個pi 檢測一下

出現一堆的Not copying就代表成功了

)

時間減少1秒

6. 使用PySpark shell(hadoop身份)

使用Spark的readme當範本測試一下

開啟pyspark shell

1
2


cd $SPARK_HOME
./bin/pyspark --master yarn --deploy-mode client --num-executors 1 --executor-cores 1

運行程式看看

7. 安裝jupter 系列及pyspark 等套件(管理者身份)

安裝失敗

如果沒有安裝 python 3開發工具箱，會導致失敗
請執行下方步驟:

安裝python開發工具箱

1
2


sudo apt update
sudo apt install python3-dev

安裝pip

1
2
3


#取得最新版pip腳本
wget https://bootstrap.pypa.io/get-pip.py
python3 get-pip.py

安裝pyspark 套件

1

pip3 install pyspark

安裝jupter 系列套件

1

pip3 install jupyterlab

8. jupyter 系列遠端使用及產生密碼(一般使用者身份)

創建jupyter設定檔

1

jupyter notebook --generate-config

修改設定檔

1

nano .jupyter/jupyter_notebook_config.py

將登入網域開成全域

1

c.NotebookApp.ip = '0.0.0.0'

產生密碼

1

jupyter notebook password

開啟筆記本或是Lab

1

jupyter notebook  #jupyter lab

Success

就可以藉由瀏覽器登入

Question

~~或是用手機登入coding…瘋掉拉~~

如果你還沒有註冊 Like Coin，你可以在文章最下方看到 Like 的按鈕，點下去後即可申請帳號，透過申請帳號後可以幫我的文章按下 Like，而 Like 最多可以點五次，而你不用付出任何一塊錢，就能給我寫這篇文章的最大的回饋！