Thursday, March 15, 2018

PySpark(一):Instructor -- Taipei

PySpark(一):Instructor -- Taipei

2018/03/05

報名講師者,請「仔細閱讀」本文後,在下方報名網址處填上:

講師+1

即可。

大部分網路活動並無約束力,經驗上多半是報名後就不見了。所以,歡迎有「熱心」及「榮譽心」的伙伴一起參加這個活動。你不一定要是「台大」,也不一定要是「學生」,但你要為社團的參加者好好準備、並講解資料。活動預計在 2018 年暑假或秋季開始,每週四晚間 19:00 ~ 21:00 在台大普通教室 305 進行廿四週(確定的時間地點會另行公布),除了講解自己的部分,也希望講師可以全程參加學習。

本活動講師報名網址:

https://www.facebook.com/groups/pythontw/permalink/10157508746228438/

-----

前言:

網路上其實機器學習的資料已經包山包海了,相關的網路社團也很多,那為何我在 Python Taiwan 調查是否要成立 PySpark Taiwan,有這麼多人想參加呢?

https://www.facebook.com/groups/pythontw/permalink/10157486591603438/

記取之前活動的經驗,我知道,大部分人,都是想要有人教、有人帶,而不是我之前請大家一直交作業的學習方式。成立網路社團是很容易的,但如果沒有熱心者持續耕耘、灌溉,那就會跟大部分網路社團一樣,是荒原。

所以這次先徵求熱心的講師與社團幹部共五十四人(更多當然是歡迎),額滿才會成立。

我其實很想說:知識是越給越多的,你相信嗎?

-----

Summary:

繼 PyTorch Taipei [1] 之後,成立 PySpark Taipei,以教授 Spark RDD 與 DataFrame 的機器學習演算法為目的。有興趣來學的朋友,可以先參考之前 Spark [2] 與 Big Data [3] 的資料。

Spark 機器學習,精華可以說在圖一,範例則是先用 RDD (non-schematic) 跑 決策樹二元分類、多元分類、迴歸分析,再用更方便的 DataFrame (schematic) 把三個再跑一遍 [4]。

課程有一、理論(原理、論文)講解。二、實作講解與練習。三、演算法 Scala code 的講解。[5], [6] 為補充資料,可自行閱讀。

-----


Fig. 1. Spark ML: RDD and DataFrame  [4].

-----

Outline

一、活動方法
二、地點時間
三、講師人數

-----

一、活動方法

緊接著 PyTorch Taiwan 網路社團的成立與 PyTorch Taipei、PyTorch Hsinchu 實體社團的成立 [1],本篇文章以籌備 PySpark Taiwan 網路社團與 PySpark Taipei 實體社團的講師群為主。

活動共分十八組、廿四週。會有文字教學資料與課程錄影。

 -----

二、時間地點

暫時活動時間地點:每週四晚間 18:20 ~ 19:00,台大普通教室 305。
時間為 PyTorch Taipei 之前的四十分鐘,地點相同。
預計 2018 年秋季開學後進行,屆時則與目前 PyTorch Taipei 的時間 19:00 ~ 21:00 對調。 

-----

三、講師人數

每組預計找三位講師可以一起討論、準備。報告則可由三人輪流或者一人獨力講完。
加上社長一員、副社長兩員,共五十四人。

1. 滿五十四人之前,以聊天室方式進行 PySpark Taipei 實體社團。
2. 滿五十四人之後,選舉社長、副社長,即可成立 PySpark Taiwan 網路社團。
3. 陸續加入者,由社長安排至各組討論。
4. 聽課人數會另行調查,再由 Pecu 老師決定要不要把百人教室換成更大的。

若講師人數未達五十四人,則由現有報名者討論如何進行。

-----

附錄:

組別 (週別) 內容 章節 Scala code -- 講師1

1、(一)、簡介、1, 2, 3, 4, 5 -- 施米拉
2、(二)、HDFS、6 -- CH Chen
3、(三)、MapReduce、7 -- Arey Liu
4、(四)、YARN、8 -- 曾睦欽
5、(五)、Spark、9 -- 林佳穎

6、(六)、RDD、10, 11 -- 李慕義
7、(七、八)、決策樹二元分類、13、Scala code -- Blake Wang
8、(九、十)、決策樹多元分類、17、Scala code -- Hu Oscar
9、(十一、十二)、決策樹迴歸分析、18、Scala code -- Miko Chen

10、(十三)、DataFrame、19 -- 林冠廷
11、(十四)、決策樹二元分類、20、Scala code -- 楊程予
12、(十五)、決策樹多元分類、21、Scala code -- Jeffrey Lu
13、(十六)、決策樹迴歸分析、22、Scala code -- 陳彥辰

14、(十七、十八)、Logistic 迴歸二元分類、14、Scala code -- 陳廣翰
15、(十九、二十)、SVM 二元分類、15、Scala code
16、(廿一、廿二)、Naive Bayes 二元分類、16、Scala code
17、(廿三、廿四)、推薦系統、12、Scala code -- 潘沐宣

18、社長(施米拉)、副社長

-----

References

[1] PyTorch Taiwan(目錄)
http://hemingwang.blogspot.tw/2017/11/pytorch-taiwan.html

[2] Python Spark ML(目錄)
http://hemingwang.blogspot.tw/2017/09/python-spark-ml_4.html

[3] Big Data(目錄)
http://hemingwang.blogspot.tw/2017/08/big-data.html

[4] Python Spark ML(七):Python Hadoop Spark
http://hemingwang.blogspot.tw/2017/09/python-spark-mlpython-hadoop-spark.html

[5] Top 10
Wu, Xindong, et al. "Top 10 algorithms in data mining." Knowledge and information systems 14.1 (2008): 1-37.
http://sci2s.ugr.es/sites/default/files/files/Teaching/OtherPostGraduateCourses/DataMiningandSoftComputing/Top10.pdf

[6] Hot
Chen, Tianqi, and Carlos Guestrin. "XGBoost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. ACM, 2016.
http://dmlc.cs.washington.edu/data/pdf/XGBoostArxiv.pdf

No comments: