Hadoop - Spark + Jupyter 應用程式安裝
Contents
Hadoop 為 Apache 基金會的開源頂級專案,為軟體框架做為分散式儲存及運算,無論是增減加機器都能處理,另具備高可用性、數據副本等能力
機器基本訊息:
- 準備五台機器 (兩台主節點、三台工作節點)
| IP | FQDN | HOSTNAME | 用途 |
|---|---|---|---|
| 192.168.1.30 | test30.example.org | test30 | Master 節點 (Namenode) |
| 192.168.1.31 | test31.example.org | test31 | Master 節點 (ResourceManager) |
| 192.168.1.32 | test32.example.org | test32 | Worker 節點 |
| 192.168.1.33 | test33.example.org | test33 | Worker 節點 |
| 192.168.1.34 | test34.example.org | test34 | Worker 節點 |
-
OS : Ubuntu 18.04
-
資源配置 :
- Cpu : 4 core
- Ram : 8 G
- Disk : 50 G
建置步驟 - Spark + Jupyter 應用程式安裝:
執行前,請先確認叢集均已啟動 hdfs 及 yarn 服務
1. 下載及安裝Spark(管理者身份)
- 下載
|
|
Info
如檔案過期或是失效,請至Spark官方網站下載
- 解壓縮
|
|
- 更名
|
|
- 修改spark資料夾及檔案使用者
|
|
2. 修改Spark環境變數(hadoop身份)
- 設定.bashrc
|
|

- 重新載入設定檔
|
|
- 查看環境變數

3. 更改 Spark運行程式時環境腳本(hadoop身份)
- 複製並建立一份spark-env腳本
|
|
- 編輯spark-env腳本
|
|

4. 跑個pi 測試一下Spark(hadoop身份)
|
|




- 明顯看出Spark 遠遠勝過 MapReduce (同樣跑pi 100次)
MapReduce花費3分11秒
Spark花費14秒
5. 停止Spark運行程式時都要上傳jar檔到hdfs方式(hadoop身份)


- 每次執行都會上傳那麼多檔案
- 在 hdfs 建立目錄放jar檔
|
|
- 上傳jar檔到hdfs
|
|

- 確認jar檔都上傳
|
|

- 編輯spark-defaults.conf 的hdfs路徑
|
|

- 跑個pi 檢測一下

出現一堆的Not copying就代表成功了
)
時間減少1秒
6. 使用PySpark shell(hadoop身份)
- 使用Spark的readme當範本測試一下

- 開啟pyspark shell
|
|


- 運行程式看看

7. 安裝jupter 系列及pyspark 等套件(管理者身份)
安裝失敗
如果沒有安裝 python 3開發工具箱,會導致失敗
請執行下方步驟:
- 安裝python開發工具箱
|
|
- 安裝pip
|
|
- 安裝pyspark 套件
|
|
- 安裝jupter 系列套件
|
|
8. jupyter 系列遠端使用及產生密碼(一般使用者身份)
- 創建jupyter設定檔
|
|

- 修改設定檔
|
|
- 將登入網域開成全域
|
|

- 產生密碼
|
|

- 開啟筆記本或是Lab
|
|
Success
就可以藉由瀏覽器登入


Question
或是用手機登入coding…瘋掉拉

如果你還沒有註冊 Like Coin,你可以在文章最下方看到 Like 的按鈕,點下去後即可申請帳號,透過申請帳號後可以幫我的文章按下 Like,而 Like 最多可以點五次,而你不用付出任何一塊錢,就能給我寫這篇文章的最大的回饋!