Monday, September 18, 2017

Python Spark ML(七):Python Hadoop Spark

Python Spark ML(七):Python Hadoop Spark

2017/09/18

本次作業:

閱讀 [2] 之後,將第一章的內容,摘要至 GitHub。可參考 [3] 或其他網路資料。
https://www.facebook.com/groups/pythontw/permalink/10156895096858438/

前言:

針對學員的反應,本活動決定將第一部份決策樹的理論與 Python 實作,移到後面。

目前改為從第二部分,PySpark 在 Windows 的環境架設為主。這個部分有點繁瑣,然而,如果要跑 Spark 的 ML,不先架設環境,也無法進行。

還好書上寫的還蠻清楚仔細的,如果同學交作業的反應還不錯的話,我「大約」一週會來貼一下作業,請同學發表自己的上機心得。

圖一其實是本活動的核心概念,解說已經在 [3] 裡面了。

您想自己解說一遍圖一嗎?:)

-----

課程大綱:

(一)
Decision Tree Theory
Python Decision Tree Lab

(二)
1 ~ 9

一到九章,主要是 Hadoop、Spark、Python 環境的架設。

(三)
10, 11

第十章,RDD,是 Spark MLlib 的資料格式。

(四)
13, 17, 18

Spark MLlib 決策樹二元分類、決策樹多元分類、決策樹迴歸分析。

(五)
19

第十九章,DataFrame,是 Spark ML Pipeline 的資料格式。 

(六)
20, 21, 22

Spark ML Pipeline 決策樹二元分類、決策樹多元分類、決策樹迴歸分析。

(七)
14, 15, 16

Logistic Regression、SVM、Naive Bayes。

(八)
12

Recommender。

-----


Fig. 1. Future of Spark [1].



Fig. 2. Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰 [2]。

-----

References

[1] 使用Python開發Spark 2.0 +Hadoop機器學習與大數據分析 _ Python+Spark+Hadoop 機器學習與大數據分析實戰
http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20-hadoop.html 
 
[2] 書名:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰,ISBN:9864341537,作者:林大貴,出版社:博碩,出版日期:2016-10-03.
http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html 

[3] Big Data(目錄)
http://hemingwang.blogspot.tw/2017/08/big-data.html

No comments: