Hadoop - Spark on R 配置
Contents
Hadoop 為 Apache 基金會的開源頂級專案,為軟體框架做為分散式儲存及運算,無論是增減加機器都能處理,另具備高可用性、數據副本等能力
0.基本需求
準備事項:
- Linux 作業系統
- Spark
- hadoop
- jupyter
範例相關應用程式版本:
|
|
建置步驟 - Spark on R:
1. 加入R的倉庫清單(管理者身份)
|
|

- 請注意範例倉庫清單使用的臺灣私立元智大學鏡像站
- Linux 使用版本為Ubuntu 18.04 LTS => Bionic
- R-base官網鏡像站列表請參閱
- Ubuntu各式版本名稱請參閱wiki百科
2. 取得金鑰(管理者身份)
|
|

Warning
3. 簽屬金鑰(管理者身份)
|
|

Warning
請確認出現金鑰正常 imported,如未果請至官網使用 gpg 取得金鑰
金鑰如果有變更,請至新增倉庫清單鏡像站確認最新版金鑰
金鑰如果有變更,請至新增倉庫清單鏡像站確認最新版金鑰
4. 更新倉庫清單(管理者身份)
|
|

Warning
請確認有出現R的倉庫清單,如未果會無法正常下載
5. 下載及安裝相關套件(管理者身份)
|
|
6. 檢查下載R相關套件(管理者身份)
|
|

7. 啟動R(管理者身份)
|
|

8. 下載 irkernel 等套件 (管理者身份)
|
|

9. 退出R後,切換hadoop帳號並啟動Jupyter互動式介面 (Hadoop身份)
|
|

10. 至瀏覽器輸入IP及Ports埠號選擇 R 筆記本,並測試一下

- 如何使用Jupyter Server請參閱官網
11. 使用SparkR
|
|

12. 至ResourceManager UI 查看 SparkR session

附錄: SparkR Standalone
- 啟動Spark (Hadoop身份)
|
|

- 啟動Jupyter互動式介面 (Hadoop身份)
|
|

- 設定Spark Standalone

- 至Spark Master UI 查看 SparkR session

如果你還沒有註冊 Like Coin,你可以在文章最下方看到 Like 的按鈕,點下去後即可申請帳號,透過申請帳號後可以幫我的文章按下 Like,而 Like 最多可以點五次,而你不用付出任何一塊錢,就能給我寫這篇文章的最大的回饋!