Monday, January 25, 2021

深度學習論文研討(二):機器學習(二)

深度學習論文研討(二):機器學習(二)

2020/12/08

-----

前言:

機器學習,對於剛入門的人,會顯得比較複雜而難以理解。根據筆者的學習經驗,有一個簡單的替代概念,就是:機器學習,主要就是分群、分類、推薦系統,三大類演算法。

-----


https://pixabay.com/zh/photos/laundry-washing-machines-housewife-413688/

-----

Summary:

機器學習主要的應用場景是資料探勘 [1], [2]。資料探勘的專家,根據投票的結果,選出十篇重要的論文,依得票數排列 [2]。研讀這些論文之前,可以先選擇適合的線上課程暖身 [3]。

-----

說明:

本文分成十個階段,選擇約廿篇論文,主要為 ML,「簡述」十篇機器學習經典論文(k-Means、EM、Naive Bayes、kNN、SVM、C4.5、CART、AdaBoost、Aprioi、PageRank)要解決的問題、如何解決,以及延伸的研究。部分論文由於不容易找到線上的文件,所以以同一個主題的其他論文作為替代。

由於依照票數排列,比較凌亂而難以掌握,因此筆者依照分類、分群、推薦系統,加以重新排列,並且十篇經典論文之外,又推薦了十篇相關的論文。

值得一提的是,k-Means 可應用於 CapsNet v1。EM 可應用於 CapsNet v2。PageRank 可用於 PPRGo。

-----

Machine Learning(ML)

-----

一(分群)。經典論文:k-Means。延伸主題:BIRCH。

二(分群)。經典論文:EM。延伸主題:MLE。

三(分類)。經典論文:Naive Bayes。延伸主題:MAP。

四(分類)。經典論文:kNN。延伸主題:TCFP。

五(分類)。經典論文:SVM。延伸主題:SMO。

六(分類)。經典論文:C4.5。延伸主題:LightGBM。

七(分類)。經典論文:CART。延伸主題:Random Forests。

八(分類)。經典論文:AdaBoost。延伸主題:XGBoost。

九(推薦系統)。經典論文:Aprioi。延伸主題:FP Tree。

十(推薦系統)。經典論文:PageRank。延伸主題:HITS。

-----

# k-Means。被引用 29439 次。

MacQueen, James. "Some methods for classification and analysis of multivariate observations." Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. Vol. 1. No. 14. 1967.

https://www.cs.cmu.edu/~bhiksha/courses/mlsp.fall2010/class14/macqueen.pdf


# BIRCH。被引用 6068 次。

Zhang, Tian, Raghu Ramakrishnan, and Miron Livny. "BIRCH: an efficient data clustering method for very large databases." ACM sigmod record 25.2 (1996): 103-114.

https://dsf.berkeley.edu/cs286/papers/birch-sigmod1996.pdf

-----

# EM。被引用 63074 次。

Dempster, Arthur P., Nan M. Laird, and Donald B. Rubin. "Maximum likelihood from incomplete data via the EM algorithm." Journal of the Royal Statistical Society: Series B (Methodological) 39.1 (1977): 1-22.

http://groups.csail.mit.edu/drl/journal_club/papers/DempsterEMAlgorithm77.pdf


# MLE。被引用 1601 次。

Myung, In Jae. "Tutorial on maximum likelihood estimation." Journal of mathematical Psychology 47.1 (2003): 90-100.

https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.74.671&rep=rep1&type=pdf

-----

# Naive Bayes。被引用 989 次。

Hand, David J., and Keming Yu. "Idiot's Bayes—not so stupid after all?." International statistical review 69.3 (2001): 385-398.

https://www.researchgate.net/profile/David_Hand/publication/229731942_Idiot's_Bayes_Not_So_Stupid_after_All/links/569d4f9708aed27a702fa0a3.pdf


# MAP。被引用 36 次。

Bassett, Robert, and Julio Deride. "Maximum a posteriori estimators as a limit of Bayes estimators." Mathematical Programming 174.1-2 (2019): 129-144.

https://arxiv.org/pdf/1611.05917.pdf

-----

# kNN。被引用 1220 次。

Hastie, Trevor, and Robert Tibshirani. "Discriminant adaptive nearest neighbor classification." IEEE transactions on pattern analysis and machine intelligence 18.6 (1996): 607-616.

https://web.stanford.edu/~hastie/Papers/dann_IEEE.pdf


# TCFP。被引用 16 次。

Ko, Youngjoong, and Jungyun Seo. "Text categorization using feature projections." COLING 2002: The 19th International Conference on Computational Linguistics. 2002.

https://www.aclweb.org/anthology/C02-1074.pdf

-----

# SVM。被引用 12734 次。

Boser, Bernhard E., Isabelle M. Guyon, and Vladimir N. Vapnik. "A training algorithm for optimal margin classifiers." Proceedings of the fifth annual workshop on Computational learning theory. 1992.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.3818&rep=rep1&type=pdf


# SMO。被引用 3405 次。

Platt, John. "Sequential minimal optimization: A fast algorithm for training support vector machines." (1998).

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-98-14.pdf

-----

# C4.5。被引用 2181 次。

Bagging, Boosting, and C4.5

https://www.aaai.org/Papers/AAAI/1996/AAAI96-108.pdf


# LightGBM。被引用 1721 次。

Ke, Guolin, et al. "Lightgbm: A highly efficient gradient boosting decision tree." Advances in neural information processing systems. 2017.

https://papers.nips.cc/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf

-----

# CART。被引用 48458 次。

Breiman, Leo, et al. Classification and regression trees. CRC press, 1984.


# CART。被引用 1377 次。

Loh, Wei‐Yin. "Classification and regression trees." Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1.1 (2011): 14-23.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.364.9647&rep=rep1&type=pdf


# Random Forests。被引用 67773 次。

Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32.

https://biostat.wisc.edu/~kbroman/teaching/statgen/2004/refs/forests.pdf

-----

# AdaBoost。被引用 20591 次。

Freund, Yoav, and Robert E. Schapire. "A decision-theoretic generalization of on-line learning and an application to boosting." Journal of computer and system sciences 55.1 (1997): 119-139.

https://www.ee.columbia.edu/~sfchang/course/svia-F03/papers/freund95decisiontheoretic-adaboost.pdf


# XGBoost。被引用 8675 次。

Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016.

https://arxiv.org/pdf/1603.02754.pdf

-----

# Aprioi。被引用 26276 次。

Agrawal, Rakesh, and Ramakrishnan Srikant. "Fast algorithms for mining association rules." Proc. 20th int. conf. very large data bases, VLDB. Vol. 1215. 1994.

https://www.it.uu.se/edu/course/homepage/infoutv/ht08/vldb94_rj.pdf


# FP Tree。被引用 9198 次。

Han, Jiawei, Jian Pei, and Yiwen Yin. "Mining frequent patterns without candidate generation." ACM sigmod record 29.2 (2000): 1-12.

https://www2.cs.duke.edu/courses/cps296.1/spring02/papers/HPY-SIGMOD2000.pdf

-----

# PageRank。被引用 20380 次。

Brin, Sergey, and Lawrence Page. "The anatomy of a large-scale hypertextual web search engine." (1998).

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/334.pdf


# HITS。被引用 10413 次。

Kleinberg, Jon M. "Authoritative sources in a hyperlinked environment." Journal of the ACM (JACM) 46.5 (1999): 604-632.

https://eecs.ceas.uc.edu/~annexsfs/Courses/cs690/auth.pdf

-----

備註:

-----

k-Means(初始)可應用於 CapsNet v1。

EM(精確)可應用於 CapsNet v2。

-----

MLE 與 MAP 可以一起讀。

-----

TCFP、SMO、LightGBM 是快速版本。

-----

CART 到 Random Forests 是弱集成強。

AdaBoost 到 XGBoost 是弱集成強。

-----

最後兩個,Aprioi 與 PageRank 屬於推薦系統。

-----

References


[1] Top 10

Wu, Xindong, et al. "Top 10 algorithms in data mining." Knowledge and information systems 14.1 (2008): 1-37.

http://www.realtechsupport.org/UB/CM/algorithms/Wu_10Algorithms_2008.pdf


[2] ICDM:数据挖掘十大算法|Little Stone - Huan Li's Blog

https://longaspire.github.io/blog/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E5%8D%81%E5%A4%A7%E7%AE%97%E6%B3%95/


[3] The Star Also Rises: 深度學習論文研討(一):機器學習(一)

http://hemingwang.blogspot.com/2020/12/hsuan-tien-lin.html

-----

No comments: