Tuesday, January 19, 2021

深度學習論文研討(五):深度學習(三)

深度學習論文研討(五):深度學習(三)

2021/01/20

-----

前言:

-----

全方位 AI 社團 2021(六十小時搞定深度學習)。(簡章)。

六十小時當然是搞不定深度學習的,這很明顯是個廣告詞而已。不過六十小時確實是可以有一個很好的開始。

-----

-----

Summary:

-----

在 2019 收費論文研討 [1] 與 2020 全方位 AI 課程 [2] 兩次的實驗教學之後,本活動有一些改進。首先,整理了李宏毅老師的教學影片 [3],目的在於,如果你看免費教學影片就可以有不錯的學習品質,就不用再參加這個收費活動。

如果你對於我整理的廿篇深度學習經典論文 [4] 很有興趣,就歡迎參加這個收費線上線上論文研討活動,廿次共六十小時的活動收費一萬五千元,平均每小時是兩百五十元。可以有系統地聽到不止廿篇深度學習的論文,以及做研究的一些技巧。

AI 從頭學(2020 年版) [5] 是 2017 與 2018 年個人自學深度學習的筆記。AI 三部曲(深度學習:從入門到精通)[6] 則是 2019 年整理的十篇論文精華,年底實驗了收費論文研討 [1],2020 年又擴充為全方位 AI 課程。

基於種種辦活動的經驗,本次沒有規劃實作,也沒有線下的部分。廿次活動都是本人(Marcel Wang,交大電控 Ph. D.)演講,參加活動者若想要另外報告,也可以提出申請。活動由 AI Seminar Taiwan [7] 與勵信科技 [8] 合辦。所有收費、發票、退費,都透過勵信科技辦理,退費機制則參考台灣人工智慧學校 [9],下方會另有詳細的說明。

-----

◎ 簡章:

-----

一、時間:2021 年三月到十二月,每月兩次週日,下午兩點到五點。第一、二小時為論文研討,實際過程大約是兩次四十分鐘的 ZOOM 線上會議。第三小時是研究心得分享,大約是四十分鐘的  ZOOM 線上會議。參考附件一。

二、地點:線上,透過 ZOOM 參加。當日無法參加者,可以自行找時間看錄下來的影片。

三、收費:每人新台幣一萬五千元整。

四、報名:請與 AI Seminar Taiwan | Facebook 管理員聯繫即可,會再給您勵信科技的繳費窗口,以便討論發票開立的種種事宜。

五、退費方法。參考附件二 。

-----

 附件一:全方位 AI 社團 2021 行事曆。

-----

每次活動時間為下午兩點到五點,線上。

-----

三月

Week 11。03/07 Sun:一A、LeNet。

Week 13。03/21 Sun:一B、AlexNet。

-----

四月

Week 16。04/11 Sun:二A、NIN。

Week 18。04/25 Sun。二B、GoogLeNet。

-----

五月

Week 21。05/16 Sun。三A、ResNet。

Week 23。05/30 Sun。三B、DenseNet。

-----

六月

Week 24。06/06 Sun。四A、FCN。

Week 26。06/20 Sun。四B、PFPNet。

-----

七月

Week 28。07/04 Sun。五A、YOLO。

Week 30。07/18 Sun。五B、Mask R-CNN。

-----

八月

Week 32。08/01 Sun。六A、LSTM。

Week 34。08/15 Sun。六B、Word2vec。

-----

九月

Week 37。09/05 Sun。七A、Seq2seq。

Week 40。09/26 Sun。七B、Paragraph2vec。

-----

十月

Week 43。10/17 Sun。八A、Attention。

Week 45。10/31 Sun。八B、Short Attention。

-----

十一月

Week 46。11/07 Sun。九A、ConvS2S。

Week 48。11/21 Sun。九B、ELMo。

-----

十二月

Week 50。12/05 Sun。十A、Transformer

Week 52。12/19 Sun。十B、BERT。

-----

◎ 附件二、退費方法

-----

[參考] 退費辦法 - 台灣人工智慧學校

https://aiacademy.tw/refund/

-----

沒有來聽

※ 註冊截止日 2021/02/28(含當日)前提出退費申請者

收取新台幣 300 元行政處理費,餘額退回參加者帳戶。

-----

沒有來聽

※ 於 2021/03/01 至聽第一次(2021/03/07 Sun:一A、LeNet)前提出退費申請者

退還約定繳納費用總額百分之八十。

-----

聽完一次

※ 於第一次活動(2021/03/07 Sun:一A、LeNet)後,第二次活動(2021/03/21 Sun:一B、AlexNet。)前(不含當次)提出退費申請者

退還約定繳納費用總額百分之七十。

-----

聽完兩次到聽完六次

※ 於第二次活動(2021/03/21 Sun:一B、AlexNet。)後、(2021/06/06 Sun。四A、FCN。)前(不含當次),提出退費申請者

退還約定繳納費用總額百分之五十。

-----

聽完七次

※ 於(2021/06/06 Sun。四A、FCN。)後

所收取之當期費用得全數不予退還。

-----

勵信科技使用渣打銀行帳戶,若您提供渣打銀行以外的金融帳戶需加收 14 元匯費。

-----

References

-----

[1] The Star Also Rises: A1 Taipei

https://hemingwang.blogspot.com/2019/08/a1-taipei.html

[2] The Star Also Rises: 全方位 AI 課程(六十小時搞定深度學習)

https://hemingwang.blogspot.com/2020/01/all-round-ai-lectures.html

[3] The Star Also Rises: 深度學習(一)

http://hemingwang.blogspot.com/2020/11/hung-yi-lee.html

[4] The Star Also Rises: 深度學習(二)

http://hemingwang.blogspot.com/2020/11/problem.html

[5] The Star Also Rises: AI 從頭學(2020 年版)

https://hemingwang.blogspot.com/2019/08/ai-2020.html

[6] The Star Also Rises: AI 三部曲(深度學習:從入門到精通)

https://hemingwang.blogspot.com/2019/05/trilogy.html

[7] AI Seminar Taiwan | Facebook

https://zh-tw.facebook.com/groups/2027602154187130/

[8] 勵信科技有限公司-台灣公司網

https://www.twincn.com/item.aspx?no=53966683

[9] 退費辦法 - 台灣人工智慧學校

https://aiacademy.tw/refund/

[10] 中華民國一百一十年政府行政機關辦公日曆表 行政院人事行政總處- Directorate-General of Personnel Administration,Executive Yuan-公告

https://www.dgpa.gov.tw/information?uid=83&pid=10173

-----

備註:

2021 行事曆。

-----

一月

-----

Week 01。

Week 02。01/03 Sun。

Week 03。01/10 Sun。

Week 04。01/17 Sun。

Week 05。01/24 Sun。

Week 06。01/31 Sun。

-----

二月

-----

Week 07。02/07 Sun。

Week 08。02/14 Sun。初三。

Week 09。02/21 Sun。

Week 10。02/28 Sun。二二八連假。

-----

三月

-----

Week 11。03/07 Sun:一A、LeNet。

Week 12。03/14 Sun。

Week 13。03/21 Sun:一B、AlexNet。

Week 14。03/28 Sun。

-----

四月

Week 15。04/04 Sun。清明節連假。

Week 16。04/11 Sun:二A、NIN。

Week 17。04/18 Sun。

Week 18。04/25 Sun。二B、GoogLeNet。

-----

五月

Week 19。05/02 Sun。勞動節連假。

Week 20。05/09 Sun。母親節。

Week 21。05/16 Sun。三A、ResNet。

Week 22。05/23 Sun。

Week 23。05/30 Sun。三B、DenseNet。

-----

六月

Week 24。06/06 Sun。四A、FCN。

Week 25。06/13 Sun。端午節連假。

Week 26。06/20 Sun。四B、PFPNet。

Week 27。06/27 Sun。

-----

七月

Week 28。07/04 Sun。五A、YOLO。

Week 29。07/11 Sun。

Week 30。07/18 Sun。五B、Mask R-CNN。

Week 31。07/25 Sun。

-----

八月

Week 32。08/01 Sun。六A、LSTM。

Week 33。08/08 Sun。父親節。

Week 34。08/15 Sun。六B、Word2vec。

Week 35。08/22 Sun。

Week 36。08/29 Sun。

-----

九月

Week 37。09/05 Sun。七A、Seq2seq。

Week 38。09/12 Sun。

Week 39。09/19 Sun。中秋節連假。

Week 40。09/26 Sun。七B、Paragraph2vec。

-----

十月

Week 41。10/03 Sun。

Week 42。10/10 Sun。國慶日連假。

Week 43。10/17 Sun。八A、Attention。

Week 44。10/24 Sun。

Week 45。10/31 Sun。八B、Short Attention。

-----

十一月

Week 46。11/07 Sun。九A、ConvS2S。

Week 47。11/14 Sun。

Week 48。11/21 Sun。九B、ELMo。

Week 49。11/28 Sun。

-----

十二月

Week 50。12/05 Sun。十A、Transformer

Week 51。12/12 Sun。

Week 52。12/19 Sun。十B、BERT。

Week 53。12/26 Sun。聖誕節相關。

-----

深度學習論文研討(四):深度學習(二)

深度學習論文研討(四):深度學習(二)

2020/11/24

-----

在《看不見的城市》中,馬可波羅向大汗講了五十五個城市的故事,其實每個故事都在講威尼斯。同樣地,我們這篇文章介紹了很多論文,其實只有一篇,它叫做「深度學習」。

-----

前言:

這篇文章主要說明我為什麼精選這廿篇深度學習的論文作為深度學習的基礎。下方有論文下載與精簡說明。最下方則是精選的相關部落格文章。內容以 CV 跟 NLP 模型為主,NLP 也加入 Embedding 系列。幾個重要主題:Regularization、Normalization、Optimization、Activation Function、Loss Function 等,限於篇幅,並未包含在內。

-----


https://pixabay.com/zh/photos/bubble-gum-shoes-glue-dirt-438404/

-----

Summary:

Computer Vision (CV) [1] 與 Natural Language Processing (NLP) [2], [3] 是 Deep Learning 兩大應用。[1] 是我接觸 LeNet 之後,主要使用的參考資料。資料在現在當然是過時了,但在當時,它告訴我,LeNet 之後可以繼續研究哪些模型。[2], [3] 這兩篇文章省略一些重要細節沒講,但它闡釋了 NLP 模型的進程。所以我把 [1] 跟 [2], [3] 擺在最前面。[4] - [27] 則是輔助廿篇論文的部落格文章。


當然,你可以先進行機器學習的線上課程 [28] 或者機器學習的論文 [29] 或者深度學習的線上課程 [30] 或者本篇深度學習的論文,都可以,並無一定的順序。

-----

◎ 一、為什麼選 LeNet 與 AlexNet?

-----

LeNet [4] 是經典的卷積神經網路,卷積、激活函數、池化、全連接層、損失函數、梯度下降、反向傳播,都有。其他的卷積神經網路,都可以說是 LeNet 的延伸。初學者甚至學了一段時間的人,比較容易困惑的是為為什麼激活函數必須是非線性,這個可以參考 Colah 的文章 Nonlinear Activation Function [5],非線性激活函數可以將線性不可分的問題轉成線性可分。

AlexNet [6] 是 LeNet 之後的第一個成功的大型卷積神經網路。可以處理的圖片比以前大,也比以前多很多。它還使用的很多當時的新技巧如 ReLU、Dropout 等。Dropout 在 Transformer 之中也被使用。

-----

◎ 二、為什麼選 NIN 與 GoogLeNet?

-----

NIN [7] 的核心是 Conv1 [8],用簡單的說法就是千層派,可以把多張特徵圖壓扁成少張特徵圖,也可以把少張特徵圖拉成多張特徵圖。比例?靠訓練。應用 Conv1 最成功的例子是 GoogLeNet [9]。GoogLeNet 雖然比較受重視,但以深度學習的演進來說,NIN 更重要一些。GoogLeNet 是 Inception v1。Inception v3 的 Label Smoothing 在 Transformer 之中有使用。

-----

◎ 三、為什麼選 ResNet 與 DenseNet?

-----

ResNet [10],可以說,現在的 CNN 都是 ResNet(的變種),或者說,都會用到 identity mapping。它其實是 ensemble learning,也就是說,一個深層的 ResNet 其實是很多淺層網路的平均。DenseNet [10] 可以說是 NIN 的特化,也是平均,特徵圖的反覆平均。平均,所以損失函數的圖示都是平滑的。

-----

◎ 四、為什麼選 FCN 與 PFPNet?

-----

FCN [11] 接在三篇 CNN:LeNet、NIN、ResNet 之後。CNN 主要是圖片分類。FCN 則是像素分類。先講 FCN 再講 YOLO 有一個好處。FCN 的語意分割會了,再加上物件偵測,就是實例分割。

PFPNet [12] 全景分割的例子,其骨幹是 FPN [13],然後再做 FCN 語意分割 [11] 與 Mask R-CNN 實例分割。

-----

◎ 五、為什麼選 YOLO 與 Mask R-CNN?

-----

YOLO [14] 作為 CV 第五篇,很多人覺得很奇怪,為什麼不是 YOLO v3,甚至 YOLO v4。其實選 YOLO,並未限制你只能讀 YOLO,SSD、YOLO v2 - v4,都比 YOLO 效能更好。那 YOLO 好在哪裡?因為它是第一篇從 two-stage 轉進到 one-stage 的物件偵測論文,是一個從無到有,而不是一篇「更好」的論文。

講 Mask R-CNN [15] 則必須先講 Faster R-CNN。Mask R-CNN 是「第一篇」「比較好」的實例分割的論文。

-----

◎ 六、為什麼選 LSTM 與 Word2vec?

-----

LSTM [16] 可以處理有先後次序的資料,但如果要做 NLP,初學者不一定知道要先做 Word2vec [17], [18]。Word2vec 可以處理詞義與句法的任務。

-----

◎ 七、為什麼選 Seq2seq 與 Paragraph2vec?

-----

Seq2seq [19] 優於 LSTM 之處在於 Encoder-Decoder 的架構是整句讀完再輸出,避免斷章取義的缺點。由於 Word2vec 系列處理語義級別的任務差了一點,因此有 Paragraph2vec [20] 的必要。Skip-thought [20] 跟 Paragraph 都是 Sentence Embedding,Skip-thought 延伸 Seq2seq 的概念,但一個句子可以同時預測上一句與下一句。

-----

◎ 八、為什麼選 Attention 與 Short Attention?

-----

Seq2seq 壓縮成一個向量不夠精緻,Attention [21] 輸出的每個字,都考慮輸入句所有字(權重靠訓練)。Short Attention [22] 則是清楚地把文字向量分解成 Query、Key、Value 三個。K 是索引,V 是實際值,Q 比較難理解。Q 其實就是下一個字的機率分布。在 Word2vec 裡面已經有 QKV 的概念隱含在內。

-----

◎ 九、為什麼選 ConvS2S 與 ELMo?

-----

ConvS2S [23] 是比較容易被忽略的論文,它跟 Transformer 都用了 QKV 的觀念,可以視為 Transformer 的熱身,兩篇一起讀,會更能理解。

ELMo [24] 延續 Word2vec 與 Paragraph,是 Context2vec 做的比較好的。解決了一字多義的問題。

-----

◎ 十、為什麼選 Transformer 與 BERT? 

-----

Transformer [25] 比起 ConvS2S 最大的不同點是 Encoder 與 Decoder 兩邊都先做 self attention。基於 Transformer Encoder 的 BERT [26] 預訓練模型是目前 NLP 的經典,如何預訓練?四個主要任務是什麼?[26] 兩張圖即說明一切。最後,BERT NLP Pipeline [27] 用實驗說明下層元件主要是句法任務用,上層元件主要是語義任務用,跟傳統 NLP 一致。也跟 Embedding 系列一致。

-----

結語:

-----

學習深度學習五年以來的心得總整理

過去一年來,由於有收到贊助,所以我讀了很多的深度學習論文跟部落格文章。讀了這麼多之後,有點心得,選了一些特別重要的論文跟特別好的部落格文章。有心打好深度學習基礎的朋友,可以以此篇提供的論文清單,作為一個起點!

-----

以下是論文說明:

-----

本文分成十個階段,選擇約廿篇論文,CV 與 NLP 各半,「簡述」十篇深度學習經典論文(LeNet、NIN、ResNet、FCN、YOLO、LSTM、Seq2se2、Attention、ConvS2S、Transformer)要解決的問題、如何解決,以及延伸的研究。

-----

01A:LeNet。01B:AlexNet(可補充 Dropout)。

02A:NIN(可補充 SENet)。02B:GoogLeNet(可補充 Inception v3,Label smoothing)。

03A:ResNet。03B:DenseNet(可補充 CSPNet,YOLO v4 的骨幹網路)。

04A:FCN。04B:PFPNet(可補充 Faster R-CNN(之前))。

05A:YOLO(可補充 YOLO v4)。05B:Mask R-CNN(可補充 Faster R-CNN(之後))。

-----

06A:LSTM。06B:Word2vec(詞義、句法)(可補充 C&W v2)。

07A:Seq2seq。07B:Paragraph2vec(詞義、句法、語義)。

08A:Attention。08B:Short Attention(QKV,水平分解)。

09A:ConvS2S。09B:ELMo(詞義、句法、語義,的垂直分解)(可補充 Context2vec)。

10A:Transformer。10B:BERT(詞義、句法、語義,的垂直分工,可補充 BERT NLP Pipeline)。

-----

-----

Computer Vision(CV)

-----

一、前驅研究:HDR。經典論文:LeNet。延伸主題:AlexNet。

二、前驅研究:ZFNet。經典論文:NIN。延伸主題:GoogLeNet。

三、前驅研究:VGGNet。經典論文:ResNet。延伸主題:DenseNet。

四、前驅研究:SDS。經典論文:FCN。延伸主題:PFPNet。

五、前驅研究:Faster R-CNN。經典論文:YOLO。延伸主題:Mask R-CNN。

-----

-----

Natural Language Processing(NLP)

-----

六、前驅研究:RNN。經典論文:LSTM。延伸主題:Word2vec。

七、前驅研究:RCTM。經典論文:Seq2Seq。延伸主題:Paragraph2vec。

八、前驅研究:Visual Attention。經典論文:Attention。延伸主題:Short Attention。

九、前驅研究:GNMT。經典論文:ConvS2S。延伸主題:ELMo。

十、前驅研究:ULMFiT。經典論文:Transformer。延伸主題:BERT。

-----

Advanced Topics

-----

一、RL

二、Mobile

三、NAS RL

四、Semantic Segmentation

五、Object Detection

六、PCA

七、Normalization

八、MLE

九、GAN

十、BERT Family

-----

◎ 一、前驅研究:HDR。經典論文:LeNet。延伸主題:AlexNet。

-----

說明:

LeNet 是經典的 CNN,卷積、激活函數、池化、全連接層、損失函數,都有。LeNet 較早的版本 HDR 是第一個使用反向傳播法的 CNN,沒有全連接層。

經過很久之後,AlexNet 是第一個成功的大型 CNN。使用了各式各樣的技巧,其中最重要的,可能是 Dropout。Dropout 後續有被用在 Transformer。

-----

# HDR。被引用 3589 次。針對數字的手寫辨識,較早的神經網路架構,無全連接層。

LeCun, Yann, et al. "Handwritten digit recognition with a back-propagation network." Advances in neural information processing systems 2 (1989): 396-404.

https://papers.nips.cc/paper/1989/file/53c3bce66e43be4f209556518c2fcb54-Paper.pdf


# LeNet。被引用 31707 次。經典的卷積神經網路,主要比 HDR 多了全連接層。

LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324.

http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf


# AlexNet。被引用 74398 次。較早使用 GPU 的大型卷積神經網路之一,效能比之前有飛躍的提升,成功使用 dropout 避免 overfitting。

Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Communications of the ACM 60.6 (2017): 84-90.

https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf


# Dropout。被引用 24940 次。Dropout 避免 overfitting,Transformer 有使用這個技巧。

Srivastava, Nitish, et al. "Dropout: a simple way to prevent neural networks from overfitting." The journal of machine learning research 15.1 (2014): 1929-1958.

https://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf

-----

◎ 二、前驅研究:ZFNet。經典論文:NIN。延伸主題:GoogLeNet。

-----

說明:

AlexNet 微調後,是 ZFNet。NIN 在 ZFNet 之上加了 Conv1,重新融合 channel 間特徵圖的值,但 Conv1 後來主要被用於升降維,也就是增加或減少特徵圖,Conv1 後來幾乎成為深度學習的標準配備。SENet 沒有像 Conv1 融合頻道間特徵圖的值,而是就同一張特徵圖的值,全體放大或縮小。

GoogLeNet 是第一個成功運用 Conv1 的大型網路,也稱為 Inception v1。Inception v2 主要是 Batch Normalization,另外它也將 5 x 5 的卷積核,拆成兩個 3 x 3。Inception v3 將 3 x 3 拆成 3 x 1 與 1 x 3。另外使用了 Label Smoothing 的技巧,LS 後續有被用在 Transformer。Inception v4 則是與 ResNet 整合。

-----

# ZFNet。被引用 10795 次。AlexNet 的微調版本,VGGNet 的前驅研究。卷積核的可視化。

Zeiler, Matthew D., and Rob Fergus. "Visualizing and understanding convolutional networks." European conference on computer vision. Springer, Cham, 2014.

https://arxiv.org/pdf/1311.2901.pdf


# NIN。被引用 4475 次。Channel(feature maps) 之間的 fusion。可用於升維或降維(改變特徵圖的數目)。

Lin, Min, Qiang Chen, and Shuicheng Yan. "Network in network." arXiv preprint arXiv:1312.4400 (2013).

https://arxiv.org/pdf/1312.4400.pdf


# SENet。被引用 4780 次。NIN 的特殊版本,可對每張特徵圖的所有權重同時進行 scale。

Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

https://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Squeeze-and-Excitation_Networks_CVPR_2018_paper.pdf


# GoogLeNet。被引用 25849 次。成功將 NIN 的一維卷積運用於大型網路,效能略優於 VGGNet。

Szegedy, Christian, et al. "Going deeper with convolutions." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf


# Inception v3。被引用 11280 次。Label smoothing 避免 overfitting,Transformer 有使用這個技巧。

Szegedy, Christian, et al. "Rethinking the inception architecture for computer vision." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Szegedy_Rethinking_the_Inception_CVPR_2016_paper.pdf

-----

◎ 三、前驅研究:VGGNet。經典論文:ResNet。延伸主題:DenseNet。

-----

說明:

AlexNet 與 VGGNet 都有引用一篇 PreVGGNet。PreVGGNet 嘗試加寬網路(增加特徵圖數目)不算有效。但加深網路層數有效,AlexNet 首先加深。VGG 則繼 ZFNet 縮小第一層的卷積核(有改善特徵圖解析度)之後,以兩個 3 x 3 的卷積核取代一個 5 x 5,反覆加深至 16 層,得到很好的結果。加深到 19 層之後,結果只有好一點點。繼續加深後,反而變差。

ResNet  v1 借鏡 LSTM 的 identity mapping 成功將網路加深至百層,但無法至千層。ResNet-D 則加上 dropout 的技巧讓網路可以達到千層。ResNet 把 ReLU 移動造成 pure identity mapping,成功讓網路達到千層(不需要使用 dropout)。ResNet-E 說明 ResNet v2 其實是 enssemble learning,也就是深層的 ResNet v2 其實是一堆淺層網路的集成。ResNet-V 則以可視化的結果說明集成、平均、平滑、好訓練,之間的關係。

DenseNet 可以說是一個超級的 NIN,它沒有使用 identity mapping,但效果跟 ResNet 接近。CSPNet 可以改良 ResNet 與 DenseNet,是 YOLO v4 的骨幹網路。

-----

# VGGNet。被引用 47721 次。以兩個 conv3 組成一個 conv5,反覆加深網路至 16 與 19 層。

Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).

https://arxiv.org/pdf/1409.1556.pdf


# ResNet v1。被引用 61600 次。加上靈感來自 LSTM 的 identity mapping,網路可到百層。

He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

https://openaccess.thecvf.com/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf


# ResNet-D。被引用 982 次。ResNet v1 的 dropout 版本,網路可到千層。

Huang, Gao, et al. "Deep networks with stochastic depth." European conference on computer vision. Springer, Cham, 2016.

https://arxiv.org/pdf/1603.09382.pdf


# ResNet v2。被引用 4560 次。重點從 residual block 轉移到 pure identity mapping,網路可到千層。

He, Kaiming, et al. "Identity mappings in deep residual networks." European conference on computer vision. Springer, Cham, 2016.

https://arxiv.org/pdf/1603.05027.pdf


# ResNet-E。被引用 551 次。ResNet v2 其實是淺層網路的 ensemble。

Veit, Andreas, Michael J. Wilber, and Serge Belongie. "Residual networks behave like ensembles of relatively shallow networks." Advances in neural information processing systems. 2016.

https://papers.nips.cc/paper/2016/file/37bc2f75bf1bcfe8450a1a41c200364c-Paper.pdf


# ResNet-V。被引用 464 次。ensemble 促使損失函數平滑化,也因此好訓練。

Li, Hao, et al. "Visualizing the loss landscape of neural nets." Advances in Neural Information Processing Systems. 2018.

https://papers.nips.cc/paper/2018/file/a41b3bb3e6b050b6c9067c67f663b915-Paper.pdf


# DenseNet。被引用 12498 次。反覆使用 conv1 也可加深網路。

Huang, Gao, et al. "Densely connected convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

https://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf


# CSPNet。被引用 45 次。YOLOv4 的骨幹。

Wang, Chien-Yao, et al. "CSPNet: A new backbone that can enhance learning capability of cnn." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020.

https://openaccess.thecvf.com/content_CVPRW_2020/papers/w28/Wang_CSPNet_A_New_Backbone_That_Can_Enhance_Learning_Capability_of_CVPRW_2020_paper.pdf

-----

◎ 四、前驅研究:SDS。經典論文:FCN。延伸主題:PFPNet。

-----

說明:

FCN 使用全卷積網路進行語意分割,避免 SDS 只能輸入固定大小的圖片的缺點。語意分割加上物件偵測是實例分割。PFPNet 全景分割則是在語意分割的基礎上,又進行實例分割。

-----

# SDS。被引用 983 次。

Hariharan, Bharath, et al. "Simultaneous detection and segmentation." European Conference on Computer Vision. Springer, Cham, 2014.

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/shape/papers/BharathECCV2014.pdf


# FCN。被引用 19356 次。

Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf


# PFPNet。被引用 171 次。

Kirillov, Alexander, et al. "Panoptic feature pyramid networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

https://openaccess.thecvf.com/content_CVPR_2019/papers/Kirillov_Panoptic_Feature_Pyramid_Networks_CVPR_2019_paper.pdf

-----

◎ 五、前驅研究:Faster R-CNN。經典論文:YOLO。延伸主題:Mask R-CNN。

-----

說明:

HOG 是較早的特徵抽取器。物件偵測較早的論文 DPM 使用 SVM 作為分類器。接下來 SS 提出建議框。R-CNN 則是在 SS 的建議框之後,用 CNN 作為特徵抽取器,然後一樣用 SVM 作為分類器。

Fast R-CNN 在 R-CNN 的基礎上,套用 SPPNet 的觀念,只做一次特徵抽取,然後再使用 SS 的建議框,分類器則從 SVM 改成 CNN。Faster R-CNN 則是把 SS 也改成 CNN-based 的 RPN,讓建議框從大約兩千改為大約三百。RPN 概念上跟 YOLO 是接近的。

Faster 是兩階段的物件偵測演算法,YOLO 則是一階段的物件偵測演算法。YOLO 快,但準確性差。到 YOLO v4,整合各種網路架構與訓練方法後,快,而且準確。

Mask R-CNN 則是在 Faster R-CNN 的基礎上,加上語意分割的功能。特點是較精確的 RoIAlign。

-----

# Faster R-CNN。被引用 23747 次。

Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

https://proceedings.neurips.cc/paper/2015/file/14bfa6bb14875e45bba028a21ed38046-Paper.pdf


# YOLO。被引用 12295 次。

Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf


# YOLOv4。被引用 253 次。

Bochkovskiy, Alexey, Chien-Yao Wang, and Hong-Yuan Mark Liao. "YOLOv4: Optimal Speed and Accuracy of Object Detection." arXiv preprint arXiv:2004.10934 (2020).

https://arxiv.org/pdf/2004.10934.pdf


# Mask R-CNN。被引用 8887 次。

He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.

https://openaccess.thecvf.com/content_ICCV_2017/papers/He_Mask_R-CNN_ICCV_2017_paper.pdf

-----

◎ 六、前驅研究:RNN。經典論文:LSTM。延伸主題:Word2vec。

-----

說明:

RNN 是簡單的循環神經網路。LSTM 加上三個門,以及一個直通架構,用來改善梯度消失與梯度爆炸。直通架構也成為 ResNet 的靈感來源。

LSTM 可以用來處理音訊、語音資料。文字資料如果要用 LSTM 處理,則要先經過 Word Embedding,將 one hot encoding 壓縮成維度較低並且具關連性的向量。在 NNLM 之後的 Word2vec 是最經典的詞向量演算法。

Word2vec 1 主要是 CBOW 與 Skip-gram。CBOW 是多字預測一字,Skip-gram 是一字預測多字。Word2vec 2 主要是 Hierarchical Softmax 與 Negative Sampling。Hierarchical Softmax 階層式的架構大幅精簡網路結構,Negative Sampling 則大幅減少訓練樣本。Word2vec 3 主要是 Word2vec 1 與 Word2vec 2 較平易近人的版本。Word2vec 處理後,可執行詞義與句法的 NLP 任務。

C&W v2 也是 Word Embedding 的演算法。除了可以執行詞義與句法的 NLP 任務,由於部分語義任務效果不佳,因此也推出整句輸入的版本,順利改善語義任務的效能。此舉說明了在 Word Embedding 之外,Sentence Embedding 的必要性。

-----

# RNN。被引用 11946 次。

Elman, Jeffrey L. "Finding structure in time." Cognitive science 14.2 (1990): 179-211.

https://cogsci.ucsd.edu/~rik/courses/readings/elman90-fsit.pdf


# LSTM。被引用 39743 次。

Hochreiter, Sepp, and Jürgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.676.4320&rep=rep1&type=pdf


# Word2vec 1。被引用 18991 次。

Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).

https://arxiv.org/pdf/1301.3781.pdf


# Word2vec 2。被引用 23990 次。

Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.

https://papers.nips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf


# Word2vec 3。被引用 645 次。

Rong, Xin. "word2vec parameter learning explained." arXiv preprint arXiv:1411.2738 (2014).

https://arxiv.org/pdf/1411.2738.pdf


# C&W v1。被引用 5099 次。

Collobert, Ronan, and Jason Weston. "A unified architecture for natural language processing: Deep neural networks with multitask learning." Proceedings of the 25th international conference on Machine learning. 2008.

http://www.cs.columbia.edu/~smaskey/CS6998-Fall2012/supportmaterial/colbert_dbn_nlp.pdf


# C&W v2。被引用 6841 次。本篇論文闡釋了從 Word2vec 繼續發展 Paragraph2vec 的必要性。

Collobert, Ronan, et al. "Natural language processing (almost) from scratch." Journal of machine learning research 12.ARTICLE (2011): 2493-2537.

https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

-----

◎ 七、前驅研究:RCTM。經典論文:Seq2Seq。延伸主題:Paragraph2vec。

-----

基本上 LSTM 即可進行機器翻譯,但難以避免斷章取義的缺點,較合適的作法是將整句讀完,壓縮成一個向量,再將這個向量轉成目的語言,這個作法也就是 Seq2seq。Seq2seq 是 Encoder-Decoder 架構的 LSTM 版本。較早的 RCTM 已經開始使用 Encoder-Decoder 架構,但是 Encoder 端使用 CNN,因而有漏失時間訊息的缺點,Seq2seq 兩端都是 LSTM,可改善此缺點。

Paragraph2vec 則是從 Word2vec 詞向量延伸而來的句向量版本,概念上跟 Word2vec 接近,但段落的 id 會參加訓練,因而每個段落或句子也可以獲得一個向量。比起詞向量主要有詞義與句法的訊息,句向量還多了語義的訊息。

-----

# RCTM。被引用 1137 次。

Kalchbrenner, Nal, and Phil Blunsom. "Recurrent continuous translation models." Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013.

https://www.aclweb.org/anthology/D13-1176.pdf


# Seq2seq 1。被引用 12676 次。

Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014.

http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf


# Seq2seq 2。被引用 11284 次。

Cho, Kyunghyun, et al. "Learning phrase representations using RNN encoder-decoder for statistical machine translation." arXiv preprint arXiv:1406.1078 (2014).

https://arxiv.org/pdf/1406.1078.pdf


# Paragraph2vec。被引用 6763 次。

Le, Quoc, and Tomas Mikolov. "Distributed representations of sentences and documents." International conference on machine learning. 2014.

http://proceedings.mlr.press/v32/le14.pdf

-----

◎ 八、前驅研究:Visual Attention。經典論文:Attention。延伸主題:Short Attention。

-----

說明:

Seq2seq 解碼端只靠一個向量,訊息較為粗糙。Attention 每個輸出字都會考慮編碼端所有字(向量)的權重,結果較為細緻,也就是較好。至於權重如何得來,靠訓練。

其實一個詞向量已經包含 Query、Key、Value 三種訊息。K 可以視為字典的索引,V 也可視為實質的意義。Query 則是下一個字的機率分布。Short Attention 則是在前人的基礎上,將 Word Embedding 一分為三。公式 Context = Q 運算 K 運算 V。

-----

# Attention 1。被引用 14895 次。

Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. "Neural machine translation by jointly learning to align and translate." arXiv preprint arXiv:1409.0473 (2014).

https://arxiv.org/pdf/1409.0473.pdf


# Visual Attention。被引用 6060 次。

Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International conference on machine learning. 2015.

http://proceedings.mlr.press/v37/xuc15.pdf


# Attention 2。被引用 4781 次。

Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. "Effective approaches to attention-based neural machine translation." arXiv preprint arXiv:1508.04025 (2015).

https://arxiv.org/pdf/1508.04025.pdf


# Short Attention。被引用 76 次。

Daniluk, Michał, et al. "Frustratingly short attention spans in neural language modeling." arXiv preprint arXiv:1702.04521 (2017).

https://arxiv.org/pdf/1702.04521.pdf

-----

◎ 九、前驅研究:GNMT。經典論文:ConvS2S。延伸主題:ELMo。

-----

說明:

使用 LSTM 的 Attention 的架構,在多層的 GNMT 已經達到極限。ConvS2S 使用一維卷積改善了 LSTM 無法平行運算的缺點。另外 ConvS2S 也導入了 QKV 的觀念。

QKV 是在寬度上將 Context 拆成 Query、Key、Value三部分。ELMo 則是在深度上將 Context 拆成詞義、句法、語義三層,先欲訓練,再把詞義、句法、語義串接的向量投入不同的 NLP 任務訓練三種向量的權重,因而可以解決一字多義的 context issue。

-----

# GNMT。被引用 3391 次。

Wu, Yonghui, et al. "Google's neural machine translation system: Bridging the gap between human and machine translation." arXiv preprint arXiv:1609.08144 (2016).

https://arxiv.org/pdf/1609.08144.pdf


# ConvS2S。被引用 1772 次。

Gehring, Jonas, et al. "Convolutional sequence to sequence learning." arXiv preprint arXiv:1705.03122 (2017).

https://arxiv.org/pdf/1705.03122.pdf


# Context2vec。被引用 312 次。

Melamud, Oren, Jacob Goldberger, and Ido Dagan. "context2vec: Learning generic context embedding with bidirectional lstm." Proceedings of the 20th SIGNLL conference on computational natural language learning. 2016.

https://www.aclweb.org/anthology/K16-1006.pdf


# ELMo。被引用 5229 次。ELMo 是 Context2vec 中,做的最好的。

Peters, Matthew E., et al. "Deep contextualized word representations." arXiv preprint arXiv:1802.05365 (2018).

https://arxiv.org/pdf/1802.05365.pdf

-----

◎ 十、前驅研究:ULMFiT。經典論文:Transformer。延伸主題:BERT。

-----

說明:

GNMT 是多層的 LSTM 結構。ConvS2S 是多層的一維卷積,並且有 QKV 的精神。Transformer 最主要的特點是先分別在編碼端與解碼端都進行全連接的 self attention,再於 Encoder 端的 K、V 輸出與 Decoder 端每一層的 Q 進行 encoder-decoder attention。可說是集之前 NLP 研究的大成。

GPT-1 使用 Transformer 的解碼端作為預訓練模型,BERT 基於 ELMo 的雙向結構,使用 Transformer 的編碼端作為預訓練模型。ULMFiT 則是較早針對文件分類,使用 LSTM 的預訓練模型。

BERT 的輸入是詞向量,擁有詞義。BERT NLP Pipeline 發現 BERT 較低層主要處理句法(grammar / context)的問題,較高層主要處理語義(semantic)的問題,與傳統 NLP 的 pipeline 一致。

-----

# ULMFiT。被引用 1339 次。

Howard, Jeremy, and Sebastian Ruder. "Universal language model fine-tuning for text classification." arXiv preprint arXiv:1801.06146 (2018).

https://arxiv.org/pdf/1801.06146.pdf


# Transformer。被引用 13554 次。

Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf


# BERT。被引用 12556 次。

Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

https://arxiv.org/pdf/1810.04805.pdf


# BERT NLP Pipeline。被引用 262 次。

Tenney, Ian, Dipanjan Das, and Ellie Pavlick. "BERT rediscovers the classical NLP pipeline." arXiv preprint arXiv:1905.05950 (2019).

https://arxiv.org/pdf/1905.05950.pdf

-----

附錄:

-----

本篇論文解決(之前論文未解決的)什麼問題(弱點)?

一、LeNet(之前:HDR)。(弱點:Performance 不佳)。

二、NIN(之前:ZFNet)。(弱點:Performance 不佳)。

三、ResNet(之前:VGGNet)。(弱點:網路無法持續加深、Performance 不佳)。

四、FCN(之前:SDS)。(弱點:無法處理任意大小的圖片、Performance 不佳)。

五、YOLO(之前:Faster R-CNN)。(弱點:速度太慢)。

六、LSTM(之前:RNN)。(弱點:梯度消失、爆炸,其實也沒真正解決,長距離傳輸訊息不容易)。

七、Seq2seq 1、2(之前:LSTM、RCTM)。(弱點:LSTM 斷章取義。RCTM 損失時間順序)。

八、Attention 1、2(之前:Seq2seq、Visual Attention)。(弱點:Seq2seq 單向量訊息不夠細緻)。

九、ConvS2S(之前:Attention、GNMT)。(弱點:LSTM 無法像卷積一樣平行運算、Attention 不夠細緻,QKV 比較細緻)。

十、Transformer(之前:ConvS2S、ULMFiT)。(弱點:QKV 不夠細緻,兩邊都先進行 self-attention 比較細緻)。

-----

References

# CV

[1] 深度學習 : Caffe 之經典模型詳解與實戰 | 天瓏網路書店

https://www.tenlong.com.tw/products/9787121301186


# NLP(上)

[2] Seq2seq pay Attention to Self Attention: Part 1(中文版) | by Ta-Chun (Bgg/Gene) Su | Medium

https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-1-%E4%B8%AD%E6%96%87%E7%89%88-2714bbd92727


# NLP(下)

[3] Seq2seq pay Attention to Self Attention: Part 2(中文版) | by Ta-Chun (Bgg/Gene) Su | Medium

https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-2-%E4%B8%AD%E6%96%87%E7%89%88-ef2ddf8597a4

-----

# LeNet

[4] Review: LeNet-1, LeNet-4, LeNet-5, Boosted LeNet-4 (Image Classification) | by Sik-Ho Tsang | Medium

https://sh-tsang.medium.com/paper-brief-review-of-lenet-1-lenet-4-lenet-5-boosted-lenet-4-image-classification-1f5f809dbf17


# Non-linear activation function

[5] Neural Networks, Manifolds, and Topology -- colah's blog

http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/


# AlexNet

[6] Review: AlexNet, CaffeNet — Winner of ILSVRC 2012 (Image Classification) | by Sik-Ho Tsang | Coinmonks | Medium

https://medium.com/coinmonks/paper-review-of-alexnet-caffenet-winner-in-ilsvrc-2012-image-classification-b93598314160


# NIN

[7] Review: NIN — Network In Network (Image Classification) | by Sik-Ho Tsang | Towards Data Science

https://towardsdatascience.com/review-nin-network-in-network-image-classification-69e271e499ee


# Conv1

[8] CNN网络中的 1 x 1 卷积是什么?_AI小作坊 的博客-CSDN博客

https://blog.csdn.net/zhangjunhit/article/details/55101559


# GoogLeNet

[9] Review: GoogLeNet (Inception v1)— Winner of ILSVRC 2014 (Image Classification) | by Sik-Ho Tsang | Coinmonks | Medium

https://medium.com/coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-2014-image-classification-c2b3565a64e7


# ResNet and DenseNet

[10] An Overview of ResNet and its Variants | by Vincent Fung | Towards Data Science

https://towardsdatascience.com/an-overview-of-resnet-and-its-variants-5281e2f56035


# FCN

[11] Review: FCN — Fully Convolutional Network (Semantic Segmentation) | by Sik-Ho Tsang | Towards Data Science

https://towardsdatascience.com/review-fcn-semantic-segmentation-eb8c9b50d2d1


# PFPNet

[12] PFPNet 算法笔记_AI之路-CSDN博客

https://blog.csdn.net/u014380165/article/details/82468725


# FPN

[13] Understanding Feature Pyramid Networks for object detection (FPN) | by Jonathan Hui | Medium

https://jonathan-hui.medium.com/understanding-feature-pyramid-networks-for-object-detection-fpn-45b227b9106c


# YOLO

[14] What do we learn from single shot object detectors (SSD, YOLOv3), FPN & Focal loss (RetinaNet)? | by Jonathan Hui | Medium

https://jonathan-hui.medium.com/what-do-we-learn-from-single-shot-object-detectors-ssd-yolo-fpn-focal-loss-3888677c5f4d


# Mask R-CNN

[15] Image segmentation with Mask R-CNN | by Jonathan Hui | Medium

https://jonathan-hui.medium.com/understanding-feature-pyramid-networks-for-object-detection-fpn-45b227b9106c

-----

# LSTM

[16] Understanding LSTM Networks -- colah's blog

http://colah.github.io/posts/2015-08-Understanding-LSTMs/


# Word2vec

[17] Word2Vec Tutorial - The Skip-Gram Model · Chris McCormick

http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/


# Hierarchical Softmax

[18] Approximating the Softmax for Learning Word Embeddings

https://ruder.io/word-embeddings-softmax/


# Seq2seq

[19] Word Level English to Marathi Neural Machine Translation using Encoder-Decoder Model | by Harshall Lamba | Towards Data Science

https://towardsdatascience.com/word-level-english-to-marathi-neural-machine-translation-using-seq2seq-encoder-decoder-lstm-model-1a913f2dc4a7


# Paragraph2vec and Skip-thought

[20] Meanings are Vectors - Seeking Wisdom

http://sanjaymeena.io/tech/word-embeddings/


# Attention

[21] Attention? Attention!

https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html


# Short Attention

[22] Attention in NLP. In this post, I will describe recent… | by Kate Loginova | Medium

https://medium.com/@edloginova/attention-in-nlp-734c6fa9d983


# ConvS2S

[23] Understanding incremental decoding in fairseq – Telesens

https://www.telesens.co/2019/04/21/understanding-incremental-decoding-in-fairseq/


# ELMo

[24] Learn how to build powerful contextual word embeddings with ELMo

https://medium.com/saarthi-ai/elmo-for-contextual-word-embedding-for-text-classification-24c9693b0045


# Transformer

[25] The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.

https://jalammar.github.io/illustrated-transformer/


# BERT

[26] LeeMeng - 進擊的 BERT:NLP 界的巨人之力與遷移學習

https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html


# BERT NLP Pipeline

[27] 《BERT Rediscovers the Classical NLP Pipeline》阅读笔记 - 知乎

https://zhuanlan.zhihu.com/p/70757539

-----

The Star Also Rises: 深度學習論文研討(一):機器學習(一)

http://hemingwang.blogspot.com/2020/12/hsuan-tien-lin.html


The Star Also Rises: 深度學習論文研討(二):機器學習(二)

http://hemingwang.blogspot.com/2020/12/problem.html


The Star Also Rises: 深度學習論文研討(三):深度學習(一)

http://hemingwang.blogspot.com/2020/11/hung-yi-lee.html

-----

深度學習論文研討(三):深度學習(一)

深度學習論文研討(三):深度學習(一)

2020/11/25

-----

前言:

台大電機系教授,李宏毅老師機器學習課程的攻略建議。在參加任何收費課程之前,建議都先試一下李宏毅老師免費的線上課程。

-----


http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/DNN%20tip.pdf

# p. 41。

圖一、李。

-----

Summary:

深度學習 [1] 與機器學習 [2] 有何不同?如果用淺顯的話說明,人工智慧分為兩種,會思考的強人工智慧,與不會思考的弱人工智慧,機器學習,屬於弱人工智慧,只是看起來會思考而已,基本上是基於數據的統計模型。類神經網路 NN 是機器學習 ML 裡面的一支。深度學習 DL 則是有平行運算、更深的類神經網路 [3](以上是「淺顯」的話,請勿過度挑剔)。

深度學習,可以寫一本厚厚的教科書 [4]。這本書賣的很好,中譯本也賣的很好。個人覺得很棒,只是教科書不適於自習。如果要「快速」知道深度學習是什麼,可以讀一下深度學習的經典論文 [5]。讀完之後,你大概知道深度學習可以做什麼,但可能還是不知道深度學習是如何運作的。其實 [5] 的參考文獻有一百多篇,最重要的,作者有加上粗體說明,只是,還是太多。[5] 的另一個缺點是內容已經舊了一點,我從 [5] 的精華裡面,又補充了一些,可以依照順序攻略 [6]。

-----


圖二、人工智慧、機器學習、深度學習 [3]。

-----


圖三、機器學習與深度學習 [4]。

-----

說明:

先看一下圖二,深度學習是機器學習的一支,機器學習是人工智慧的一支。再看一下圖三,資料量少時、機器學習比較佔優勢,資料量多時,深度學習比較佔優勢。網路時代以來,資料量越來越大,所以你就知道,為什麼深度學習 [1] 這麼紅。無論如何,機器學習 [2] 是基礎,有空還是回去複習一下基礎。但不一定要從基礎複習。因為基礎就是假設你線性代數跟機率統計已經修過了。在 [4] 裡面,一開始就複習線性代數跟機率統計,只是點醒你這兩個是根基,超重要。如果你仔細研究一下目錄,其實整本都是線性代數跟機率統計。個人以為這是該書作者在發表生成對抗網路 Generative Adversarial Network,GAN 之後,為了教人讀懂 GAN 這篇論文,才又寫了這本書。

-----

開動:

現在進入主題。你可能聽說,李宏毅老師的機器學習(深度學習)影片很棒,想說先看看。但是影片這麼多,從最早,還是最新,開始看?要每一部影片都看嗎?

目錄是可以先研究一下的。重要的東西,會每年都講。最重要的是哪些?回歸分析、梯度下降、反向傳播。

回歸分析把輸入的資料,跟資料的值,用一條直線或複雜的多項式曲線描述,線建立起來,你就可以用輸入值來預測輸出值,看起來就有點「智慧」的樣子了。神經網路可以說是複雜的「線、超平面」,可以預測較複雜的東西譬如照片的類別。多項式有係數,我們稱為參數。梯度下降法透過更動參數讓結果更準確。至於反向傳播,就是微積分裡面的鍊式法則,因為梯度下降是透過微分找低點,損失函數一微下去,就要用鍊式法則展開。不懂?沒關係,影片講得很好,可以慢慢看,這裡只是告訴你,「回歸分析」、「梯度下降」、「反向傳播」很重要而已。

-----

應用:

如果你喜歡應用,[4] 裡面的 12.2 Computer Vision 電腦視覺跟 12.4 Natural Language Processing 自然語言處理,就是深度學習的兩大應用。CNN 就是 CV 的基礎,RNN、Word Embedding、Seq2seq、Transformer、BERT 就是 NLP 的基礎。可以依照下方的推薦順序觀看影片。

-----

實作:

下方 Tips 跟 Lab 有實作的技巧跟實際練習,這個是更多人感興趣的。

-----

更炫的主題:

DRL 跟 GAN,雖然很炫,不過我建議你不要太快進入。

-----

最後:

如果你對於深入理論很有興趣,我也整理了一份論文清單 [6],可以參考。祝您有個愉快的深度學習之旅。

-----

 開動。

-----

在底下這份清單中,如果你對機器學習很有興趣,我建議可以先跳過 2014 的 Circuit 以及所有的 Linear Algebra [1]。Circuit 是硬體相關的課程,如果你有注意到,這門課後來並沒有繼續開設。另外,線性代數很重要,不過如果你從線性代數開始機器學習,那放棄的機會很高。比較適合的方式是,先從簡單的機器學習開始,如果覺得想要加強數學,再開始複習線性代數。

Linear Algebra (2020,Fall)

Deep Learning for Human Language Processing (2020,Spring)

Machine Learning (2020,Spring)

Linear Algebra (2019,Fall)

Machine Learning (2019,Spring)

Deep Learning and Human Language Processing (2018,Fall)

Linear Algebra (2018,Fall)

Machine Learning and having it deep and structured (2018,Spring)

Machine Learning (2017,Fall)

Machine Learning and having it deep and structured (2017,Fall)

Machine Learning (2017,Spring)

Machine Learning and having it deep and structured (2017,Spring)

Machine Learning (2016,Fall)

Linear Algebra (2016,Spring)

Machine Learning and having it deep and structured (2015,Fall)

Machine Learning and having it deep and structured (2015,Spring)

Circuit (2014,Fall)

-----

 一、Regression

-----

2016, Fall。(2016/09/30)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

2017, Spring。(2017/03/02)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

2017, Fall。(2017/09/22)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

2019, Spring。(2019/02/21)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/03/26)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

 二、Gradient Descent

-----

梯度下降法,是機器學習重要的基本觀念之一。

2016, Fall。(2016/10/07)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

2017, Spring。(2017/03/09, recorded at 2016/10/07)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

2017, Fall。(2017/09/29)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

2019, Spring。(2019/02/21)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/03/26)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

簡單說,神經網路這個函數的輸出值跟實際值的差距,的圖形,在某個權重的維度上,可以看成一座山。x 軸是權重,y 軸是差距。梯度下降就是往下山的方向走一小步。只要方向正確,一直走,理論上就可以下山了。

-----

 三、Back Propagation

-----

2015, Fall。(2015/10/02)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html

2016, Fall。(2016/10/28)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

2017, Fall。(2017/10/13)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

2019, Spring。(2019/03/07)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/04/30)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

 四、CNN

-----

2015, Fall。(2015/09/25)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html

2016, Fall。(2016/10/28)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

2017, Spring。(2017/04/06)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

2017, Fall。(2017/10/27)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

2019, Spring。(2019/03/14)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/04/30)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

 五、RNN

-----

2016, Fall。(2016/12/30)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

2017, Fall。(2017/11/03)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

2019, Spring。(2019/03/28)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/04/30)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

◎ 六、Word Embedding

-----

2020, Spring。(2020/04/30)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

 七、Seq2seq

-----

2019, Spring。(2019/03/28)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/05/21)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

◎ 八、Transformer。

-----

2019, Spring。(2019/05/30)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/05/21)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

◎ 九、BERT。

-----

2019, Spring。(2019/06/02)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring。(2020/05/21)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

-----

 十、Tips for (Training)Deep Learning(Neural Network)

-----

2015, Fall。(2015/10/16)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html

2016, Fall。(2016/11/04)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

2017, Fall。(2017/10/20)。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

-----

 十一、Lab

-----

2018, Spring。http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

2019, Spring。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html

2020, Spring -1。http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

2020, Spring -2。http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

-----

 十二、DRL

-----

自行搜尋。

-----

 十三、GAN

-----

自行搜尋。

-----

References

[1] courses

https://speech.ee.ntu.edu.tw/~tlkagk/courses.html

-----

[2] The Star Also Rises: 深度學習論文研討(一):機器學習(一)

http://hemingwang.blogspot.com/2020/12/hsuan-tien-lin.html


[3] History DL。

Alom, Md Zahangir, et al. "The history began from alexnet: A comprehensive survey on deep learning approaches." arXiv preprint arXiv:1803.01164 (2018).

https://arxiv.org/ftp/arxiv/papers/1803/1803.01164.pdf

-----

[4] Deep Learning Book

https://www.deeplearningbook.org/


[5] Deep Learning Paper。

LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." nature 521.7553 (2015): 436-444.

https://www2.cs.duke.edu/courses/spring19/compsci527/papers/Lecun.pdf


[6] The Star Also Rises: 深度學習論文研討(四):深度學習(二)

https://hemingwang.blogspot.com/2020/11/problem.html

-----

深度學習論文研討(二):機器學習(二)

深度學習論文研討(二):機器學習(二)

2020/12/08

-----

前言:

機器學習,對於剛入門的人,會顯得比較複雜而難以理解。根據筆者的學習經驗,有一個簡單的替代概念,就是:機器學習,主要就是分群、分類、推薦系統,三大類演算法。

-----


https://pixabay.com/zh/photos/laundry-washing-machines-housewife-413688/

-----

Summary:

機器學習主要的應用場景是資料探勘 [1], [2]。資料探勘的專家,根據投票的結果,選出十篇重要的論文,依得票數排列 [2]。研讀這些論文之前,可以先選擇適合的線上課程暖身 [3]。

-----

說明:

本文分成十個階段,選擇約廿篇論文,主要為 ML,「簡述」十篇機器學習經典論文(k-Means、EM、Naive Bayes、kNN、SVM、C4.5、CART、AdaBoost、Aprioi、PageRank)要解決的問題、如何解決,以及延伸的研究。部分論文由於不容易找到線上的文件,所以以同一個主題的其他論文作為替代。

由於依照票數排列,比較凌亂而難以掌握,因此筆者依照分類、分群、推薦系統,加以重新排列,並且十篇經典論文之外,又推薦了十篇相關的論文。

值得一提的是,k-Means 可應用於 CapsNet v1。EM 可應用於 CapsNet v2。PageRank 可用於 PPRGo。

-----

Machine Learning(ML)

-----

一(分群)。經典論文:k-Means。延伸主題:BIRCH。

二(分群)。經典論文:EM。延伸主題:MLE。

三(分類)。經典論文:Naive Bayes。延伸主題:MAP。

四(分類)。經典論文:kNN。延伸主題:TCFP。

五(分類)。經典論文:SVM。延伸主題:SMO。

六(分類)。經典論文:C4.5。延伸主題:LightGBM。

七(分類)。經典論文:CART。延伸主題:Random Forests。

八(分類)。經典論文:AdaBoost。延伸主題:XGBoost。

九(推薦系統)。經典論文:Aprioi。延伸主題:FP Tree。

十(推薦系統)。經典論文:PageRank。延伸主題:HITS。

-----

# k-Means。被引用 29439 次。

MacQueen, James. "Some methods for classification and analysis of multivariate observations." Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. Vol. 1. No. 14. 1967.

https://www.cs.cmu.edu/~bhiksha/courses/mlsp.fall2010/class14/macqueen.pdf


# BIRCH。被引用 6068 次。

Zhang, Tian, Raghu Ramakrishnan, and Miron Livny. "BIRCH: an efficient data clustering method for very large databases." ACM sigmod record 25.2 (1996): 103-114.

https://dsf.berkeley.edu/cs286/papers/birch-sigmod1996.pdf

-----

# EM。被引用 63074 次。

Dempster, Arthur P., Nan M. Laird, and Donald B. Rubin. "Maximum likelihood from incomplete data via the EM algorithm." Journal of the Royal Statistical Society: Series B (Methodological) 39.1 (1977): 1-22.

http://groups.csail.mit.edu/drl/journal_club/papers/DempsterEMAlgorithm77.pdf


# MLE。被引用 1601 次。

Myung, In Jae. "Tutorial on maximum likelihood estimation." Journal of mathematical Psychology 47.1 (2003): 90-100.

https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.74.671&rep=rep1&type=pdf

-----

# Naive Bayes。被引用 989 次。

Hand, David J., and Keming Yu. "Idiot's Bayes—not so stupid after all?." International statistical review 69.3 (2001): 385-398.

https://www.researchgate.net/profile/David_Hand/publication/229731942_Idiot's_Bayes_Not_So_Stupid_after_All/links/569d4f9708aed27a702fa0a3.pdf


# MAP。被引用 36 次。

Bassett, Robert, and Julio Deride. "Maximum a posteriori estimators as a limit of Bayes estimators." Mathematical Programming 174.1-2 (2019): 129-144.

https://arxiv.org/pdf/1611.05917.pdf

-----

# kNN。被引用 1220 次。

Hastie, Trevor, and Robert Tibshirani. "Discriminant adaptive nearest neighbor classification." IEEE transactions on pattern analysis and machine intelligence 18.6 (1996): 607-616.

https://web.stanford.edu/~hastie/Papers/dann_IEEE.pdf


# TCFP。被引用 16 次。

Ko, Youngjoong, and Jungyun Seo. "Text categorization using feature projections." COLING 2002: The 19th International Conference on Computational Linguistics. 2002.

https://www.aclweb.org/anthology/C02-1074.pdf

-----

# SVM。被引用 12734 次。

Boser, Bernhard E., Isabelle M. Guyon, and Vladimir N. Vapnik. "A training algorithm for optimal margin classifiers." Proceedings of the fifth annual workshop on Computational learning theory. 1992.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.3818&rep=rep1&type=pdf


# SMO。被引用 3405 次。

Platt, John. "Sequential minimal optimization: A fast algorithm for training support vector machines." (1998).

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-98-14.pdf

-----

# C4.5。被引用 2181 次。

Bagging, Boosting, and C4.5

https://www.aaai.org/Papers/AAAI/1996/AAAI96-108.pdf


# LightGBM。被引用 1721 次。

Ke, Guolin, et al. "Lightgbm: A highly efficient gradient boosting decision tree." Advances in neural information processing systems. 2017.

https://papers.nips.cc/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf

-----

# CART。被引用 48458 次。

Breiman, Leo, et al. Classification and regression trees. CRC press, 1984.


# CART。被引用 1377 次。

Loh, Wei‐Yin. "Classification and regression trees." Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1.1 (2011): 14-23.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.364.9647&rep=rep1&type=pdf


# Random Forests。被引用 67773 次。

Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32.

https://biostat.wisc.edu/~kbroman/teaching/statgen/2004/refs/forests.pdf

-----

# AdaBoost。被引用 20591 次。

Freund, Yoav, and Robert E. Schapire. "A decision-theoretic generalization of on-line learning and an application to boosting." Journal of computer and system sciences 55.1 (1997): 119-139.

https://www.ee.columbia.edu/~sfchang/course/svia-F03/papers/freund95decisiontheoretic-adaboost.pdf


# XGBoost。被引用 8675 次。

Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016.

https://arxiv.org/pdf/1603.02754.pdf

-----

# Aprioi。被引用 26276 次。

Agrawal, Rakesh, and Ramakrishnan Srikant. "Fast algorithms for mining association rules." Proc. 20th int. conf. very large data bases, VLDB. Vol. 1215. 1994.

https://www.it.uu.se/edu/course/homepage/infoutv/ht08/vldb94_rj.pdf


# FP Tree。被引用 9198 次。

Han, Jiawei, Jian Pei, and Yiwen Yin. "Mining frequent patterns without candidate generation." ACM sigmod record 29.2 (2000): 1-12.

https://www2.cs.duke.edu/courses/cps296.1/spring02/papers/HPY-SIGMOD2000.pdf

-----

# PageRank。被引用 20380 次。

Brin, Sergey, and Lawrence Page. "The anatomy of a large-scale hypertextual web search engine." (1998).

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/334.pdf


# HITS。被引用 10413 次。

Kleinberg, Jon M. "Authoritative sources in a hyperlinked environment." Journal of the ACM (JACM) 46.5 (1999): 604-632.

https://eecs.ceas.uc.edu/~annexsfs/Courses/cs690/auth.pdf

-----

備註:

-----

k-Means(初始)可應用於 CapsNet v1。

EM(精確)可應用於 CapsNet v2。

-----

MLE 與 MAP 可以一起讀。

-----

TCFP、SMO、LightGBM 是快速版本。

-----

CART 到 Random Forests 是弱集成強。

AdaBoost 到 XGBoost 是弱集成強。

-----

最後兩個,Aprioi 與 PageRank 屬於推薦系統。

-----

References


[1] Top 10

Wu, Xindong, et al. "Top 10 algorithms in data mining." Knowledge and information systems 14.1 (2008): 1-37.

http://www.realtechsupport.org/UB/CM/algorithms/Wu_10Algorithms_2008.pdf


[2] ICDM:数据挖掘十大算法|Little Stone - Huan Li's Blog

https://longaspire.github.io/blog/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E5%8D%81%E5%A4%A7%E7%AE%97%E6%B3%95/


[3] The Star Also Rises: 深度學習論文研討(一):機器學習(一)

http://hemingwang.blogspot.com/2020/12/hsuan-tien-lin.html

-----

深度學習論文研討(一):機器學習(一)

深度學習論文研討(一):機器學習(一)

2020/12/08

-----

前言:

本篇文章建議了「一種」學習機器學習的方法。另外,參考文獻 [3],handout slides 省略了放映過程。 

-----


https://pixabay.com/zh/photos/tractor-tractors-drive-drives-243431/

圖一、Wood、Vehicle、Field。

-----

Summary:

機器學習 [1] - [3] 是許多演算法的總稱,最有名的可能是支援向量機 Support Vector Machine [4] 以及決策樹 Decision Tree,較基本的則是回歸分析 [1] - [3]。

2012 年興起的深度學習 [5] 原本叫做類神經網路,是機器學習裡面的一支。特點在於可以用高效的平行運算的 GPU 與深層的大型網路架構,解決龐大資料的分類問題等等。[6] 的 Fig. 1 說明了人工智慧、機器學習、類神經網路、深度學習之間的關係。[6] 的 Fig.2 則圖示為何深度學習會逐漸取代一般的機器學習。

對機器學習若很有興趣,可以找機器學習的論文仔細研讀 [7]。先學深度學習 [8],再回頭看機器學習,也是一種方式。

-----


圖二、人工智慧、機器學習、深度學習 [6]。

-----


圖三、機器學習與深度學習 [6]。

-----

說明:

如果我們比較機器學習 [1] - [3] 與深度學習 [5], [8] ,可以觀察到一件事:基礎都是數學,特別是線性代數與機率統計,然後最簡單的演算法都是回歸分析。另外,Overfitting 與 Regularization 則不管是機器學習 [1] 與深度學習都是非常重要的進階主題,簡單說,Overfitting 就是考古題做太多,臨場表現反而不好。Regularization 則是避免 Overfitting 的方法總稱。

李宏毅老師的線上課程,主要內容是深度學習,但一開始都會先講回歸分析 [8]。這是因為複雜的神經網路,可以說是從簡單的回歸分析演化而來。精神上都是用一條直線或曲線(也許是多項式)來 fit 一堆資料。只是神經網路複雜很多,資料的維度也高很多。

要不要學機器學習?何時學機器學習,每個人目的不同,基礎不同,所以不會有一定的答案。如果時間允許,[1], [2] 慢慢看完,並且每段影片都寫心得,是很好的學習方式。時間不夠,先看看 SVM [4] 也就夠了。

就像 [5] 是很好的教科書,但如果要你先複習線性代數與機率,陣亡的機會很高,還不如先研習 CNN 與 RNN 那兩章,雖然直接研讀 CNN、RNN,如果沒人帶,自己讀的陣亡率也很高。

如果你需要一些建議,那我建議從深度學習開始 [8],我把龐大的教材,選了一些我認為的,比較重要的主題,列舉出來。這些重要的主題你研習完後,可以繼續研習其他的深度學習 [8],或者開始認真打好機器學習、深度學習的基礎 [1] - [3]。

-----

機器學習基石


重點一:Linear Regression(34 - 37)。

重點二:Logistic Regression(38 - 41)。

重點三:Overfitting(50 - 53)。

重點四:Regularization(54 - 57)。 

-----

機器學習技法


重點五:Linear Support Vector Machine(01 - 05)。

重點六:Dual Support Vector Machine(06 - 09)。

重點七:Kernel Support Vector Machine(10 - 13)。

重點八:Soft-Margin Support Vector Machine(14 - 17)。


重點九:Kernel Logistic Regression(18 - 21)。

重點十:Support Vector Regression(22 - 25)。


重點十一:Blending and Bagging(26 - 29)。

重點十二:Adaptive Boosting(30 - 33)。

重點十三:Decision Tree(34 - 37)。

重點十四:Random Forest(38 - 41)。

重點十五:Gradient Boosted Decision Tree(42 - 45)。


重點十六:Neural Network(46 - 49)。

重點十七:Radial Basis Function Network(54 - 57)。

-----

(01) The Learning Problem :: Course Introduction @ Machine Learning Foundations (機器學習基石) - YouTube

(02) The Learning Problem :: What Is Machine Learning @ Machine Learning Foundations (機器學習基石) - YouTube

(03) The Learning Problem :: Applications of Machine Learning @ Machine Learning Foundations (機器學習基石) - YouTube

(04) The Learning Problem :: Components of Learning @ Machine Learning Foundations (機器學習基石) - YouTube

(05) The Learning Problem :: Machine Learning and Other Fields @ Machine Learning Foundations (機器學習基石) - YouTube

(06) Learning to Answer Yes/No :: Perceptron Hypothesis Set @ Machine Learning Foundations (機器學習基石) - YouTube

(07) Learning to Answer Yes/No :: Perceptron Learning Algorithm @ Machine Learning Foundations (機器學習基石) - YouTube

(08) Learning to Answer Yes/No :: Guarantee of PLA @ Machine Learning Foundations (機器學習基石) - YouTube

(09) Learning to Answer Yes/No :: Non-Separable Data @ Machine Learning Foundations (機器學習基石) - YouTube

(10) Types of Learning :: Learning with Different Output Space @ Machine Learning Foundations (機器學習基石) - YouTube

(11) Types of Learning :: Learning with Different Data Label @ Machine Learning Foundations (機器學習基石) - YouTube

(12) Types of Learning :: Learning with Different Protocol @ Machine Learning Foundations (機器學習基石) - YouTube

(13) Types of Learning :: Learning with Different Input Space @ Machine Learning Foundations (機器學習基石) - YouTube

(14) Feasibility of Learning :: Learning is Impossible? @ Machine Learning Foundations (機器學習基石) - YouTube

(15) Feasibility of Learning :: Probability to the Rescue @ Machine Learning Foundations (機器學習基石) - YouTube

(16) Feasibility of Learning :: Connection to Learning @ Machine Learning Foundations (機器學習基石) - YouTube

(17) Feasibility of Learning :: Connection to Real Learning @ Machine Learning Foundations (機器學習基石) - YouTube

(18) Training versus Testing :: Recap and Preview @ Machine Learning Foundations (機器學習基石) - YouTube

(19) Training versus Testing :: Effective Number of Lines @ Machine Learning Foundations (機器學習基石) - YouTube

(20) Training versus Testing :: Effective Number of Hypotheses @ Machine Learning Foundations (機器學習基石) - YouTube

(21) Training versus Testing :: Break Point @ Machine Learning Foundations (機器學習基石) - YouTube

(22) Theory of Generalization :: Restriction of Break Point @ Machine Learning Foundations (機器學習基石) - YouTube

(23) Theory of Generalization :: Bounding Function: Basic Cases @ Machine Learning Foundations (機器學習基石) - YouTube

(24) Theory of Generalization :: Bounding Function: Inductive @ Machine Learning Foundations (機器學習基石) - YouTube

(25) Theory of Generalization :: A Pictorial Proof @ Machine Learning Foundations (機器學習基石) - YouTube

(26) The VC Dimension :: Definition of VC Dimension @ Machine Learning Foundations (機器學習基石) - YouTube

(27) The VC Dimension :: VC Dimension of Perceptrons @ Machine Learning Foundations (機器學習基石) - YouTube

(28) The VC Dimension :: Physical Intuition of VC Dimension @ Machine Learning Foundations (機器學習基石) - YouTube

(29) The VC Dimension :: Interpreting VC Dimension @ Machine Learning Foundations (機器學習基石) - YouTube

(30) Noise and Error :: Noise and Probabilistic Target @ Machine Learning Foundations (機器學習基石) - YouTube

(31) Noise and Error :: Error Measure @ Machine Learning Foundations (機器學習基石) - YouTube

(32) Noise and Error :: Algorithmic Error Measure @ Machine Learning Foundations (機器學習基石) - YouTube

(33) Noise and Error :: Weighted Classification @ Machine Learning Foundations (機器學習基石) - YouTube

(34) Linear Regression :: Linear Regression Problem @ Machine Learning Foundations (機器學習基石) - YouTube

(35) Linear Regression :: Linear Regression Algorithm @ Machine Learning Foundations (機器學習基石) - YouTube

(36) Linear Regression :: Generalization Issue @ Machine Learning Foundations (機器學習基石) - YouTube

(37) Linear Regression :: for Binary Classification @ Machine Learning Foundations (機器學習基石) - YouTube

(38) Logistic Regression :: Logistic Regression Problem @ Machine Learning Foundations (機器學習基石) - YouTube

(39) Logistic Regression :: Logistic Regression Error @ Machine Learning Foundations (機器學習基石) - YouTube

(40) Logistic Regression :: Gradient of Logistic Regression Error @ Machine Learning Foundations (機器學習基石) - YouTube

(41) Logistic Regression :: Gradient Descent @ Machine Learning Foundations (機器學習基石) - YouTube

(42) Linear Models for Classification :: Binary Classification @ Machine Learning Foundations (機器學習基石) - YouTube

(43) Linear Models for Classification :: Stochastic Grad. Descent @ Machine Learning Foundations (機器學習基石) - YouTube

(44) Linear Models for Classification :: Multiclass via Logistic @ Machine Learning Foundations (機器學習基石) - YouTube

(45) Linear Models for Classification :: Multiclass via Binary @ Machine Learning Foundations (機器學習基石) - YouTube

(46) Nonlinear Transformation :: Quadratic Hypotheses @ Machine Learning Foundations (機器學習基石) - YouTube

(47) Nonlinear Transformation :: Nonlinear Transform @ Machine Learning Foundations (機器學習基石) - YouTube

(48) Nonlinear Transformation :: Price of Nonlinear Transform @ Machine Learning Foundations (機器學習基石) - YouTube

(49) Nonlinear Transformation :: Structured Hypothesis Sets @ Machine Learning Foundations (機器學習基石) - YouTube

(50) Hazard of Overfitting :: What is Overfitting? @ Machine Learning Foundations (機器學習基石) - YouTube

(51) Hazard of Overfitting :: The Role of Noise and Data Size @ Machine Learning Foundations (機器學習基石) - YouTube

(52) Hazard of Overfitting :: Deterministic Noise @ Machine Learning Foundations (機器學習基石) - YouTube

(53) Hazard of Overfitting :: Dealing with Overfitting @ Machine Learning Foundations (機器學習基石) - YouTube

(54) Regularization :: Regularized Hypothesis Set @ Machine Learning Foundations (機器學習基石) - YouTube

(55) Regularization :: Weight Decay Regularization @ Machine Learning Foundations (機器學習基石) - YouTube

(56) Regularization :: Regularization and VC Theory @ Machine Learning Foundations (機器學習基石) - YouTube

(57) Regularization :: General Regularizers @ Machine Learning Foundations (機器學習基石) - YouTube

(58) Validation :: Model Selection Problem @ Machine Learning Foundations (機器學習基石) - YouTube

(59) Validation :: Validation @ Machine Learning Foundations (機器學習基石) - YouTube

(60) Validation :: Leave-One-Out Cross Validation @ Machine Learning Foundations (機器學習基石) - YouTube

(61) Validation :: V-Fold Cross Validation @ Machine Learning Foundations (機器學習基石) - YouTube

(62) Three Learning Principles :: Occam's Razor @ Machine Learning Foundations (機器學習基石) - YouTube

(63) Three Learning Principles :: Sampling Bias @ Machine Learning Foundations (機器學習基石) - YouTube

(64) Three Learning Principles :: Data Snooping @ Machine Learning Foundations (機器學習基石) - YouTube

(65) Three Learning Principles :: Power of Three @ Machine Learning Foundations (機器學習基石) - YouTube

-----

(01) Linear Support Vector Machine (SVM) :: Course Introduction @ Machine Learning Techniques (機器學習技法) - YouTube

(02) Linear SVM :: Large-Margin Separating Hyperplane @ Machine Learning Techniques (機器學習技法) - YouTube

(03) Linear SVM :: Standard Large-Margin Problem @ Machine Learning Techniques (機器學習技法) - YouTube

(04) Linear SVM :: Support Vector Machine @ Machine Learning Techniques (機器學習技法) - YouTube

(05) Linear SVM :: Reasons behind Large-Margin Hyperplane @ Machine Learning Techniques (機器學習技法) - YouTube

(06) Dual Support Vector Machine :: Motivation of Dual SVM @ Machine Learning Techniques (機器學習技法) - YouTube

(07) Dual Support Vector Machine :: Largange Dual SVM @ Machine Learning Techniques (機器學習技法) - YouTube

(08) Dual Support Vector Machine :: Solving Dual SVM @ Machine Learning Techniques (機器學習技法) - YouTube

(09) Dual Support Vector Machine :: Messages behind Dual SVM @ Machine Learning Techniques (機器學習技法) - YouTube

(10) Kernel Support Vector Machine :: Kernel Trick @ Machine Learning Techniques (機器學習技法) - YouTube

(11) Kernel Support Vector Machine :: Polynomial Kernel @ Machine Learning Techniques (機器學習技法) - YouTube

(12) Kernel Support Vector Machine :: Gaussian Kernel @ Machine Learning Techniques (機器學習技法) - YouTube

(13) Kernel Support Vector Machine :: Comparison of Kernels @ Machine Learning Techniques (機器學習技法) - YouTube

(14) Soft-Margin Support Vector Machine :: Motivation and Primal @ Machine Learning Techniques (機器學習技法) - YouTube

(15) Soft-Margin Support Vector Machine :: Dual Problem @ Machine Learning Techniques (機器學習技法) - YouTube

(16) Soft-Margin Support Vector Machine :: Messages @ Machine Learning Techniques (機器學習技法) - YouTube

(17) Soft-Margin Support Vector Machine :: Model Selection @ Machine Learning Techniques (機器學習技法) - YouTube

(18) Kernel Logistic Regression :: Soft-Margin SVM as Regularized @ Machine Learning Techniques (機器學習技法) - YouTube

(19) Kernel Logistic Regression :: SVM versus Logistic Regression @ Machine Learning Techniques (機器學習技法) - YouTube

(20) Kernel Logistic Regression :: SVM for Soft Binary @ Machine Learning Techniques (機器學習技法) - YouTube

(21) Kernel Logistic Regression :: Kernel Logistic Regression @ Machine Learning Techniques (機器學習技法) - YouTube

(22) Support Vector Regression :: Kernel Ridge Regression @ Machine Learning Techniques (機器學習技法) - YouTube

(23) Support Vector Regression :: Support Vector Regression Primal @ Machine Learning Techniques (機器學習技法) - YouTube

(24) Support Vector Regression :: Support Vector Regression Dual @ Machine Learning Techniques (機器學習技法) - YouTube

(25) Support Vector Regression :: Summary of Kernel Models @ Machine Learning Techniques (機器學習技法) - YouTube

(26) Blending and Bagging :: Motivation of Aggregation @ Machine Learning Techniques (機器學習技法) - YouTube

(27) Blending and Bagging :: Uniform Blending @ Machine Learning Techniques (機器學習技法) - YouTube

(28) Blending and Bagging :: Linear and Any Blending @ Machine Learning Techniques (機器學習技法) - YouTube

(29) Blending and Bagging :: Bagging (Bootstrap Aggregation) @ Machine Learning Techniques (機器學習技法) - YouTube

(30) Adaptive Boosting :: Motivation of Boosting @ Machine Learning Techniques (機器學習技法) - YouTube

(31) Adaptive Boosting :: Diversity by Re-weighting @ Machine Learning Techniques (機器學習技法) - YouTube

(32) Adaptive Boosting :: Adaptive Boosting Algorithm @ Machine Learning Techniques (機器學習技法) - YouTube

(33) Adaptive Boosting :: Adaptive Boosting in Action @ Machine Learning Techniques (機器學習技法) - YouTube

(34) Decision Tree :: Decision Tree Hypothesis @ Machine Learning Techniques (機器學習技法) - YouTube

(35) Decision Tree :: Decision Tree Algorithm @ Machine Learning Techniques (機器學習技法) - YouTube

(36) Decision Tree :: Decision Tree Heuristics in C&RT @ Machine Learning Techniques (機器學習技法) - YouTube

(37) Decision Tree :: Decision Tree in Action @ Machine Learning Techniques (機器學習技法) - YouTube

(38) Random Forest :: Random Forest Algorithm @ Machine Learning Techniques (機器學習技法) - YouTube

(39) Random Forest :: Out-of-bag Estimate @ Machine Learning Techniques (機器學習技法) - YouTube

(40) Random Forest :: Feature Selection @ Machine Learning Techniques (機器學習技法) - YouTube

(41) Random Forest :: Random Forest in Action @ Machine Learning Techniques (機器學習技法) - YouTube

(42) Gradient Boosted Decision Tree :: AdaBoost Decision Tree @ Machine Learning Techniques (機器學習技法) - YouTube

(43) Gradient Boosted Decision Tree :: Optimization of AdaBoost @ Machine Learning Techniques (機器學習技法) - YouTube

(44) Gradient Boosted Decision Tree :: Gradient Boosting @ Machine Learning Techniques (機器學習技法) - YouTube

(45) Gradient Boosted Decision Tree :: Summary of Aggregation @ Machine Learning Techniques (機器學習技法) - YouTube

(46) Neural Network :: Motivation @ Machine Learning Techniques (機器學習技法) - YouTube

(47) Neural Network :: Neural Network Hypothesis @ Machine Learning Techniques (機器學習技法) - YouTube

(48) Neural Network :: Neural Network Learning @ Machine Learning Techniques (機器學習技法) - YouTube

(49) Neural Network :: Optimization and Regularization @ Machine Learning Techniques (機器學習技法) - YouTube

(50) Deep Learning :: Deep Neural Network @ Machine Learning Techniques (機器學習技法) - YouTube

(51) Deep Learning ::Autoencoder @ Machine Learning Techniques (機器學習技法) - YouTube

(52) Deep Learning ::Denoising Autoencoder @ Machine Learning Techniques (機器學習技法) - YouTube

(53) Deep Learning :: Principal Component Analysis @ Machine Learning Techniques (機器學習技法) - YouTube

(54) Radial Basis Function Network :: RBF Network Hypothesis @ Machine Learning Techniques (機器學習技法) - YouTube

(55) Radial Basis Function Network :: RBF Network Learning @ Machine Learning Techniques (機器學習技法) - YouTube

(56) Radial Basis Function Network :: k-Means Algorithm @ Machine Learning Techniques (機器學習技法) - YouTube

(57) Radial Basis Function Network :: k-Means and RBFNet in Action @ Machine Learning Techniques (機器學習技法) - YouTube

(58) Matrix Factorization :: Linear Network Hypothesis @ Machine Learning Techniques (機器學習技法) - YouTube

(59) Matrix Factorization :: Basic Matrix Factorization @ Machine Learning Techniques (機器學習技法) - YouTube

(60) Matrix Factorization :: Stochastic Gradient Descent @ Machine Learning Techniques (機器學習技法) - YouTube

(61) Matrix Factorization :: Summary of Extraction Models @ Machine Learning Techniques (機器學習技法) - YouTube

(62) Finale :: Feature Exploitation Techniques @ Machine Learning Techniques (機器學習技法) - YouTube

(63) Finale :: Error Optimization Techniques @ Machine Learning Techniques (機器學習技法) - YouTube

(64) Finale :: Overfitting Elimination Techniques @ Machine Learning Techniques (機器學習技法) - YouTube

(65) Finale :: Machine Learning in Practice @ Machine Learning Techniques (機器學習技法) - YouTube

-----

References

[1] (79) Machine Learning Foundations (機器學習基石) - YouTube

https://www.youtube.com/playlist?list=PLXVfgk9fNX2I7tB6oIINGBmW50rrmFTqf


[2] (79) Machine Learning Techniques (機器學習技法) - YouTube

https://www.youtube.com/playlist?list=PLXVfgk9fNX2IQOYPmqjqWsNUFl2kpk1U2


[3] Hsuan-Tien Lin > MOOCs

https://www.csie.ntu.edu.tw/~htlin/mooc/

-----

[4] (14) 16. Learning: Support Vector Machines - YouTube

https://www.youtube.com/watch?v=_PwhiWxHK8o&t=6s


[5] Deep Learning Book

https://www.deeplearningbook.org/


[6] History DL。

Alom, Md Zahangir, et al. "The history began from alexnet: A comprehensive survey on deep learning approaches." arXiv preprint arXiv:1803.01164 (2018).

https://arxiv.org/ftp/arxiv/papers/1803/1803.01164.pdf

-----

延伸閱讀:

[7] The Star Also Rises: 深度學習論文研討(二):機器學習(二)

https://hemingwang.blogspot.com/2020/12/problem.html


[8] The Star Also Rises: 深度學習論文研討(三):深度學習(一)

https://hemingwang.blogspot.com/2020/11/hung-yi-lee.html

-----

生活(三):崎頂

生活(三):崎頂

2021/01/19

-----

星期天,跟一位朋友閒聊申請計畫後,立刻決定不做線下,搬回高雄,只做線上。就想說跟姊姊商量一下。中午去崎頂。姊姊建議我搭火車,想一想,就決定不騎機車,改搭火車。

口罩忘記拿出來,錯過一班公車。

第一次搭火車去崎頂,蠻快就到了。

火車站到姊姊家,有一小段。

一開始,就承認不再當賭徒,也就是凡事會考慮最差的情況。所以決定搬回高雄。

下午就是閒聊而已。

-----







----- 

Monday, January 18, 2021

生活(三):竹子湖

生活(三):竹子湖

2021/01/18

-----

海芋、七星山。都是多年多年多年之前,在陽明山竹子湖拍的。好久好久了啊!

-----




----- 

Thursday, January 14, 2021

人生(八)

人生(八)

2021/01/14

-----

看媽媽之前先去銀行辦事,結果耽擱了很久,但總之也是好事,把之前第三個工作的股票跟銀行存摺結清。該整理的東西,還是陸續整理。

老先生沒事,但看的出來還是漸漸衰退。記不得的事,他會編一個故事。總之,他還是記得我的善意。

去看媽媽還是好事,發現她的左手食指指甲斷裂,於是找護士幫忙整理。

晚上跟弟弟討論電腦硬體,預計一月底添購兩萬元的筆電,預算兩萬,基本上會追加到兩萬五。

-----

之前偶爾會更換上學路線。不同的路線,有不同的景致。喜歡看的東西,看過幾次,也就不會特別執著了。感覺疲乏?觀照、觀照!

-----




----- 

Wednesday, January 13, 2021

八字虛神與占星虛星—以虛雲和尚為例

八字虛神與占星虛星—以虛雲和尚為例

2021/01/13

八字虛神與占星虛星—以虛雲和尚為例

 

虛雲和尚現代人知道的大概不多了。講到虛雲和尚,可以順便複習一下中國近代史,因為他剛好出生於清道光二十年,西元1840年,也就是鴉片戰爭發生那一年。聽起來是很久以前的事,但你所不知的還在後頭。

 

後續歷經咸豐、同治、光緒、宣統,西元1912年,中華民國成立,虛雲73歲。西元1949年,政府撤退來台,虛雲110歲。西元1959年,台灣遇到「八七水災」,留在大陸的虛雲以120歲之高齡圓寂;此時弘一早已故去17年;星雲33歲,佛光山要8年後才會面世;證嚴23歲,還是帶髮的小姑娘王錦雲。

 

有關虛雲和尚出生日期尚有爭議,參考鐘義明‧《古今名人命運鑑賞》pp.373-381,他的八字為

 

甲戊甲庚

寅午申子

 

申子沖寅午,庚祿於申,甲祿於寅,是食神制殺的大格局,轉移到占星盤,如果套用虛神與虛星的理論,也許可以把海王星、木星或是北交點等轉到上升點或天頂就完成定盤。難道一定要靠占星才能精準論斷嗎?這樣未免小看八字了。

 

撇開虛神的辰戌沖不論,八字的技巧還有神煞。戊午日為甲寅旬,空亡在子丑,年支正財落空亡。出生富貴,卻棄俗就釋。光是年支逢空恐怕無以解釋虛雲會成為高壽的高僧,此日出生,人皆有空,但虛雲之空卻大大不同。

 

虛雲的母親為高齡產婦,根據書中記載:「虛雲和尚俗姓蕭,湖南湘鄉人,父玉堂,清舉人道光十八年官福建永春知州,母顏氏。父母年逾四十,憂無後,道光十九年母赴城外觀音寺祈子,見寺宇殘破,及東關橋樑失修,發願興建。父母同夢一長鬚青袍者,頂觀音跨虎而來,躍臥榻上,驚起互告,遂有娠。

 

翌年,父擢泉州府知府。虛雲生於府署,初墮地,為一肉團,母大慟,以今後無復望生子,氣悶而死。次日有賣草藥老翁剖開肉團,得一男嬰,由庶母王氏撫育。」

 

撇開雙胞胎不論,即使雙胞胎,還是可以經由長幼來區分,效果如何是另一回事。回復到古代,兩戶人家蕭姓與喬姓,分別拿著剛出生小朋友的八字來請你推算,蕭知府是朝廷的高官,夫人年逾四十。喬老大是山中的樵夫,相好二十出頭。同樣的八字,你批出來的終身命書,同或不同?也許你批出來的命書,蕭小朋友繼承父業,當上南院大王,喬小朋友浪跡江湖,成為丐幫幫主。

 

同樣的八字,殺、印、食、財俱旺,出身演藝世家的小朋友食神生財,當上少年得志的歌星,出身教育世家的小朋友殺印相生,成為大器晚成的博士。占星上看,前者太陽在上升點,早早成名,後者土星在天頂,一波數折。相對於占星,兩小時內的誤差有其限制;滿天星斗化成區區八字,卻另有以簡御繁的魅力。

 

關鍵在於俯視看不出高度。俯視的角度可以看到八個地基範圍,用途或為農林漁牧、軍警公教,卻看不到大樓實際的高度。跟胡適一樣的八字,只是藥店的小員工;跟施振容同樣的八字,經營中等規模的鐵工廠;跟陳水扁一樣的八字,盜用公款潛逃菲律賓,逍遙海外。從俯視的角度,你看到的印是同一個干支,側面看,有人的印是101,有人的印卻是九層塔。

 

實際的印有多高,從區區八個字是看不出來的,有些會差不多,譬如台大機械與成大電機。有些會差很多,譬如中研院院長與中藥店小開。印代表母親,所以命局印的力量,參考母親的八字得見分曉。母親的八字未必可得,對談之間,總是應該會問出足夠的資訊。

 

回到虛雲。虛雲的八字特徵是子午沖,財逢空,與印互沖。第一個參考點是母親為高齡產婦。通常孕婦年紀越大,胎兒八字中,印的成分越低。因此我們常見老大的命格是年上官印,反之老么的命格是財多身弱,甚至棄命從財。這個法則沒有一定,但符合家庭排行的刻板印象,也與八字的學理相符。

 

虛雲日主為戊土,到底午火正印的力量大不大,母為高齡印星力量應小,身為長子印星力量應大,唯一可知子的力量大於午,因為出生後母親即過世,印星被財星沖倒。虛雲成年後,父親幫他討了兩房媳婦,他沒有同房,後來還出家,捨棄他要繼承的家產,這時是午沖倒子。這就產生了矛盾。

 

較好的解釋是出生時空亡協助子水沖倒午,成年後空亡又協助午火沖倒子。母也空,妻財也空,出家為僧,唯有空亡不空。虛雲八字中,空亡的力量有多大,跟他同八字的人是無法比擬的。當他捨棄紅塵時,他的命運雖未蓋棺,大致已可論定,因為空亡的力量有多大我們已經掌握了。

 

以後虛雲成為一代高僧,相關事件不一一贅述。