AI 從頭學(二五):AlphaGo
2017/05/24
以四勝一負在2016年擊敗李世乭的 AlphaGo [1],在2017/5/23,再度以1/4目之差,小勝持黑的柯潔 [2]。AlphaGo 背後的靈魂人物,說是 Aja Huang 也不為過 [1]。
-----
Fig. 1. 黃士傑與AlphaGo對弈李世乭 [1]。
Fig. 2. 第 24 手「大飛」,第 54 手「斷」[2].
-----
Aja Huang 是台師大資工博士,碩士班跟博士班的題目都是圍棋 [1]。看完與柯潔的對奕之後,我特地找了他的博士論文來看 [3],參考文獻裡看似只有一篇跟深度學習有關 [4],其餘多屬強化學習的 MCTS [3]。
不過這篇 backpropagation [4] 並非我們熟悉的 BP 演算法 [5]。回過頭來再看 2016 年 DeepMind 發表的論文 [6],在 Huang 專門的 MCTS 之上,導入近年來最熱的深度學習 [7],Policy Network、Value Network、MCTS 三缺一不可,才是致勝的關鍵。
用 CNN 來下圍棋並非 DeepMind 首創 [8],早在1996年,即有學者提出用類神經網路下圍棋的概念 [9]。
[6]、[7]、[8]、[10] 一路追下去,[10] 這篇應該可以算是 AlphaGo alpha 版,裡面 CNN、TD、MCTS 都有。還不到十年,棋王就已不敵...
更早一點的研究,還有 [11]-[14]。
-----
References
[1] 創造AlphaGo的台灣「土博士」,他們眼中的黃士傑 _ 端傳媒 Initium Media
https://theinitium.com/article/20170116-taiwan-AlphaGo/
[2] 柯潔為何說「輸得沒脾氣」?8 個問題解讀人機大戰第一局 - INSIDE 硬塞的網路趨勢觀察
https://www.inside.com.tw/2017/05/23/analyzing-alphago-versus-ke-jie-round-1
[3] 應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法 SC Huang - 臺灣師範大學資訊工程研究所學位論文, 2011
[4] 2009_Backpropagation modification in Monte-Carlo game tree search
[5] AI從頭學(九):Back Propagation
http://hemingwang.blogspot.tw/2017/02/aiback-propagation.html
[6] 2016_Mastering the game of Go with deep neural networks and tree search
[7] 2015_Move evaluation in Go using deep convolutional neural networks
[8] 2014_Teaching deep convolutional neural networks to play Go
[9] 1996_The integration of a priori knowledge into a Go playing neural network
[10] 2008_Mimicking go experts with convolutional neural networks
[11] 2003_Local move prediction in Go
[12] 2003_Evaluation in Go by a neural network using soft segmentation
[13] 1996_The integration of a priori knowledge into a Go playing neural network
[14] 1994_Temporal difference learning of position evaluation in the game of Go
No comments:
Post a Comment