Thursday, November 16, 2017

AI從頭學(目錄)

AI從頭學(目錄)

2016/12/08

1. 新-AI從頭學
2. Big Data(目錄)
3. Cloud(目錄)




新-AI從頭學(一):文獻回顧

新-AI從頭學(二):Popular Deep Learning Software Tools

新-AI從頭學(三):Popular Deep Learning Hardware Tools

-----

AI從頭學(代序):The Road to Deep Learning 

AI從頭學(一):文獻回顧

AI從頭學(二):Popular Deep Learning Software Tools

AI從頭學(三):Popular Deep Learning Hardware Tools

AI從頭學(四):AD and LeNet

AI從頭學(五):AD and Python

AI從頭學(六):The Net

AI從頭學(七):AD and Python from Jason

AI從頭學(八):The Net from Mark

AI從頭學(九):Back Propagation

AI從頭學(一0):Automatic Differentiation

AI從頭學(一一):A Glance at Deep Learning

AI從頭學(一二):LeNet

AI從頭學(一三):LeNet - F6

AI從頭學(一四):Recommender

AI從頭學(一五):Deep Learning,How?

AI從頭學(一六):Deep Learning,What?

AI從頭學(一七):Shallow Learning 

AI從頭學(一八):Convolutional Neural Network

AI從頭學(一九):Recurrent Neural Network

AI從頭學(二0):Deep Learning,Hot 

AI從頭學(二一):A Glance at Deep Reinforcement Learning 

AI從頭學(二二):Azure Machine Learning - Clustering

AI從頭學(二三):CNN - Kernel Training

AI從頭學(二四):CNN - Kernel Visualizing

AI從頭學(二五):ZFNet

AI從頭學(二六):AlphaGo

AI從頭學(二七):AlexNet

AI從頭學(二八):Network in Network 

AI從頭學(二九):GoogLeNet

AI從頭學(三0):Conv1

AI從頭學(三一):Inception

AI從頭學(三二):DPM

AI從頭學(三三):Weight Decay

AI從頭學(三四):Complete Works

-----

FB社團:AI 

-----

1.1. LeNet實作團(目錄)
1.2. DRL實作團(目錄)
1.3. Lab DRL(目錄)
1.4. 每天來一點 Deep Learning(目錄)
1.5. Python Spark ML(目錄)
1.6. AI創業日記(目錄)

AI創業日記(目錄)

AI創業日記(目錄)

2017/08/10
 
-----


-----

(一):音樂生理學

(二):市場調查

(三):商業模式

(四):商業模式的討論  

(五):團隊介紹

Saturday, November 11, 2017

AI創業日記(五):團隊介紹

AI創業日記(五):團隊介紹

2017/11/11

前言:

本篇介紹一下我們的 AI創業團隊成員,共三位。目前預計將 co-founder(s) 增加到五人。誠徵具 AI、Big Data、Cloud 背景的技術高手加入,共同打造夢幻團隊!

首先簡介一下目前成員的背景,然後再仔細說明我為什麼要做這個「音樂生理學」的服務。 


Fig. 1. Top 7 Best One Piece Characters *.

----


員工 No. 1.

王惠民(Marcel Wang),國立交通大學電控工程研究所博士 [1]-[3]。相關簡歷請參考 LinkedIn [4],也歡迎您加為連結。Facebook 的帳號是 [5]。

有關我寫的技術文章與創業心得,請參考 [6], [7]。

-----

員工 No. 2.

第二位加入的隊友是我在東海資科的室友,美國賓州州立大學資工碩士。曾服務於 Qualcomm 與趨勢科技。他在 Qualcomm 時做的是跨州貨櫃車追蹤的介面,使用 MFC。回國後在趨勢科技做的則是 BIOS 的防毒軟體,使用 x86 assembly。

目前我們的 proto-type,從 Android、iOS 到 MEAN Stack (MongoDB, Express, AngularJS, and Node) 與 LAMP Stack (Linux, Apache, MySQL, and PHP),由他一手包辦,是全方面的程式高手。

-----

員工 No. 3.

第三位加入的隊友是同為交大電控 PhD 的學弟。他的專長是 EEG、ECG 信號分析與 Machine Learning / Deep Learning。目前在某科技公司擔任資料科學家。

學弟雖然年紀很輕,但企圖心很強。由於我認為創業初期,核心的資料分析可以由他一個人完成,所以極力邀請他加入。 他有非常好的工作背景,但由於還在其他公司上班,所以不適合透露太多。

-----

有關「音樂」

音樂的部分可以從國中說起,我國中跟高中在樂隊中擔任了五年的小號手。大學時則短暫參加過熱音社,「玩」了一陣子的電吉他。聽的部分則比較廣泛,我從高中開始聽古典音樂,高中跟大學聽西洋流行音樂與搖滾樂、重金屬。碩士班後又加入了爵士樂。

CD 收藏則以古典樂跟爵士樂為主,大約是古典 900 張與爵士 600 張。雖然不到收藏家等級,不過涵蓋還蠻全面的,從較早的巴洛克時期到二十世紀的無調性音樂都有。我偏好的曲式是弦樂四重奏,偏好的音樂家則是普契尼跟馬勒。爵士樂也是涵蓋整個歷史。John Coltrane 跟 Miles Davis 是眾所推崇的,但我可以另外舉出一個很厲害的,Andrew Hill。

「所以」我退伍後的第一個工作是 CD-ROM 的韌體工程師,第二個是 MP3、第三個是 DSC。除了第四個是無線通訊之外,基本上是離不開影音多媒體的。

後來我到交大唸博士班的時候,還選修樂理,配合我的研究,可以從聲波的頻率、音符、腦神經生理學、自主神經系統等層面分析音樂對人體有何影響 [2]。

-----

有關「生理學」

高中時其實我對生物興趣不高,所以高一升高二時我就轉組了。考大學時我只填數學跟資訊兩種科系。

一直到在電子業被操翻了之後,那時我朋友國防役畢業到交大當助理教授做生醫電子,我則是休息中,想說接下來做這個應該不錯,然後學弟碩論這個題目很有意思,我就到交大唸博士班把這個題目做完,然後創業還是這個題目。

我入學時,學弟們就做了一個系統,還得到龍騰微笑的名次,時到今日,串流音樂、穿戴式裝置、大數據、AI,都很成熟了,所以整合也是水到渠成的趨勢,只是這裡面牽涉到的專業學門很多,要整合很不容易。剛好我都懂一些,所以可以找真正的專家一起來完成,比方說室友跟學弟。

-----

有關「系統」

由於我的工作背景是 F/W,也就是在 micro-controller 上寫程式,然後博士班研究 ECG,所以穿戴式裝置怎麼運作還難不倒我。Android 的部分,我寫了一個小的音樂播放器之後,室友接手過去做了。他還寫了一個可以從藍牙心跳帶收心跳的 App,分析自然是我做,現在也改成學弟做了。串流的部分在我研究過協定之後 [8],目前室友正在把上面的所有技術做一個 proto-type,準備跟之前談過的上游的唱片業者、下游的穿戴式業者、以及創投 demo。

博班時我的重心主要放在音樂生理學 [2],畢業後因創業需要才開始碰大數據 [9],AI 我先做了一陣子 [7],到想出用 DQN [10] 來解的時候,從博士班就一直做 AI 的學弟也在這時加入了。

所謂做「系統」的,就是什麼都碰一點。以上我自己都先做了,做的也還可以,但我想我最大的優勢應該是整合。我的目標是希望提供一個環境讓專家可以充分發揮所長!

-----

結論:

所以目前我們最希望增加的隊友是 Big Data 與 Cloud 的專家,同時懂 AI 是最好。目的是希望創投融資後也可以因應快速擴張業務的技術領導人。

若對此服務有興趣者,非常歡迎您跟我聯絡 [4], [5],謝謝!

失眠的人口很多,不用安眠藥而好睡,我想這意義是非比尋常的。

-----

Note.

* Japana-Seven  The 7 best One Piece anime filler arcs
https://www.japanator.com/japana-seven-the-7-best-one-piece-anime-filler-arcs-34036.phtml
 
-----

References

[1] 音樂節奏影響心率變異性:演算法,模型,與應用__臺灣博碩士論文知識加值系統
http://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd=ivNet2/record?r1=4&h1=0 

[2] AI創業日記(一):音樂生理學
http://hemingwang.blogspot.tw/2017/09/blog-post.html 

[3] Hui-Min Wang _ ResearchGate
https://www.researchgate.net/profile/Hui-Min_Wang2

[4] Marcel Wang _ LinkedIn
https://www.linkedin.com/in/marcel-wang-3a988b7a/

[5] Marcel Wang _ Facebook
https://www.facebook.com/marcel.wang  

[6] AI從頭學(目錄)
http://hemingwang.blogspot.tw/2016/12/ai_20.html 

[7] AI創業日記(目錄)
http://hemingwang.blogspot.tw/2017/08/blog-post_10.html

[8] Cloud(目錄)
http://hemingwang.blogspot.tw/2017/06/cloud.html

[9] Big Data(目錄)
http://hemingwang.blogspot.tw/2017/08/big-data.html

[10] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.
http://www.davidqiu.com:8888/research/nature14236.pdf

Friday, November 10, 2017

AI創業日記(四):商業模式的討論

AI創業日記(四):商業模式的討論

2017/11/10

前言:

謝謝 台灣「人工智慧」社團 幾位朋友的提問,簡單回答如下。

-----

Part I

Q1:獲利模式
Q2:市場規模
Q3:音樂授權與生理訊號
Q4:白噪音
Q5:Target Audience
Q6:阿爾法波

Part II

Q1:ECG貼片

-----



Fig. 1. the $1.5 billion U.S. insomnia market [10].

-----

Part I

Q1:Jack Cheng:請問這個商業模式的獲利是直接來自於產品/服務? 還是會套用Nest 之類的資料獲利模式?

A1:有關獲利,來自服務或來自大廠收購。都是可能的。賣給 Google [1]-[5],也許是最好的結局(或開始)。

事實上,如果用戶持續上升到一個門檻,KKBOX、Spotify、Google、Apple,這些公司,就會進場,這個議題很大,也很遠(?)。Spotify 之前就推過類似的產品,但沒有很成功 [6]。Apple 是最有能力推服務與硬體整合的,不過以 Apple Watch 目前待機的時間並不適合,PPG 的綠光也不適合夜間使用。不過我想這些對 Apple 都不是問題的。

-----

Q2:陳洛:醫療行為價值最高的都是攸關生死的,尋找適合客戶生理的音樂 - 這個故事會不會客群太小?有估過市場的規模嗎?

A2:參考圖1。若以安眠藥市場的百分之一粗估,已經是很驚人的規模。有關美國與台灣安眠藥市場有多大,請參考前一篇的市場調查 [8]。

事實上,應用並不侷限於失眠,但有此問題者較能願意掏錢買一個硬體,以及使用比目前串流業者服務稍高的收費。

-----

Q3:謝皇廷:提幾個關鍵問題:1.要商業化的東西不免要音樂授權,據我所知這塊不好解決。2.生理訊號不免PPG或者ECG,您是打算用哪個呢?

A3.1:音樂授權,目前已有來源,請參考 [9]。

A3.2:ECG 當然是較理想的來源。至於這兩個來源 RR-intervals 再轉 HRV,到底差異有多大,在之前的文獻回顧中,並沒有決定性的差別 [7](文獻很多,並沒有特別放在 [7] 裡面)。

-----

Q4:葉家豪:想請問一下,我是一個很難入眠的人,但已透過白噪音的方法獲得很大的改善。想請教這個方法比白噪音好的概念大概是?

A4:這是一個很好的問題,我準備多一點再回答,謝謝!

有關我們想做的音樂生理學服務與白噪音的差別,在此簡單先說明一下。第一,我們有導入大數據推薦,可以把推薦最好的音樂。第二,後續的AI則可針對個人提供即時推薦。第三,聽音樂娛樂性高。

----

Q5:Hung-yi Chen Interesting. Who'd be your consumer TAs?

A5:長期來說,由於穿戴式裝置會越來越便宜,甚至用送的。所以 TA 就是現有串流音樂的人口。但初期要驗證效果(商業化 vs. 論文),所以也會跟醫院合作。下游有廠商其 ECG solution 已通過 FDA 認證。所以早期的 TA 是醫院的失眠患者,以及覺得這個服務很炫的先驅使用者。這個部分會跟穿戴式裝置的業者討論,因為業務會一起跑。

-----

Q6:MaoYang Chien:請問一下有比較過這個產品嗎 [11]?最近看了不少跟助眠的廣告,但不知道實際效果如何?

A6:官方的說法是:FitSleep 利用一系列頻率為 1-13Hz 的波,在用戶休息時,對用戶身體對不同波的反應進行掃描。這些波利用生物反饋調節生命體徵,影響用戶的神經系統。一旦 FitSleep 發現用戶身體與哪些波最契合,FitSleep 就會將發射的波限定為特定頻率,利用經過調製的阿爾法腦波讓用戶平靜下來併入睡 [11]。

謝謝這個訊息。阿爾法波與白噪音,經研究後會再專文回應。

-----

Part II

Q1:謝皇廷:有考慮到人們對於ECG貼片的接受程度嗎?因為其實並不是很舒服,根據我自己貼的經驗。

A1:目前穿戴式裝置的 ECG 手環已不需要心電圖貼片了。 

-----

本文張貼於:
https://www.facebook.com/groups/Taiwan.AI.Group/permalink/1927844644204634/

-----

References

[1] Google完成32億美元的Nest收購案 _ iThome
https://www.ithome.com.tw/node/85174

[2] 物聯網來得又急又猛(上) ── Google 為何併購 Nest?|數位時代
https://www.bnext.com.tw/article/31020/BN-ARTICLE-31020

[3] 物聯網來得又急又猛(下)── 當一切都在網上,如何安全賺錢?|數位時代
https://www.bnext.com.tw/article/31126/BN-ARTICLE-31126

[4] Google 收購 Nest 兩年,斥資 32 億美元完全沒帶來任何優勢 _ TechNews 科技新報
http://technews.tw/2016/03/28/google-is-reportedly-building-an-amazon-echo-rival/

[5] 被 Google 收購的 Nest 表現失色,創辦人 Tony Fadell 下台一鞠躬 _ TechNews 科技新報
https://technews.tw/2016/06/04/nest-chief-fadell-out-after-tumultuous-two-years-at-google/

[6] 和碩、神念合推「腦波藍牙耳機」 _ 蘋果日報
https://tw.finance.appledaily.com/daily/20160615/37269011/

[7] AI創業日記(一):音樂生理學
http://hemingwang.blogspot.tw/2017/09/blog-post.html 

[8] AI創業日記(二):市場調查
http://hemingwang.blogspot.tw/2017/09/ai.html

[9] AI創業日記(三):商業模式
http://hemingwang.blogspot.tw/2017/11/aibusiness-model.html

[10] Bird, Lucy. "Inflammation: To sleep, perchance to DREAM." Nature Reviews Immunology 14.3 (2014): 139-139.

[11] 科學解決失眠一步到位 FitSleep睡佳體驗報告 - 每日頭條
https://kknews.cc/zh-tw/tech/ynqzyj.html

Thursday, November 09, 2017

AI創業日記(三):商業模式

AI創業日記(三):商業模式

2017/11/09

前言:

在繼續招募創業伙伴之前,先來介紹一下我們的商業模式。

簡單地說,我們的服務是類似 Spotify + Garmin,也就是串流音樂加上穿戴式裝置 [1]。目標在於用音樂讓你好睡(容易進入睡眠)、而且睡的好(睡眠品質提升) [2]。關鍵技術在於用 AI [3] 分析音樂訊號以及生理訊號,進而提供你適當的音樂幫助睡眠。

-----

Outline

以下分九項來說明:

1. Key Partners (關鍵合作夥伴)
2. Key Activities (關鍵活動)
3. Key Resources (關鍵資源)
4. Value Provided (價值主張)
5. Customer Relationships (顧客關係)
6. Channels (通路)
7. Customers (目標客層)
8. Costs (成本結構)
9. Revenues and Benefits (收入與好處)

-----



Fig. 1. Business Model [4].

-----

1. Key Partners (關鍵合作夥伴)

A. 上游廠商

我們的音樂來源是台灣某唱片代理商,音樂數量大約是某串流音樂業者的十分之一。目前合作條件暫訂是系統開發期間不用支付版權費用。其他音樂來源則會等 proto-type 完成後繼續爭取。

B. 下游廠商

下游廠商是穿戴式裝置業者。由於我們的營運模式有 B2B 與 B2C 兩種。初期會以 B2B 進行。也就是,穿戴式裝置業者向我們購買服務,再搭配手環等賣給特定客戶。此模式也可搭配手機與電信業者。這部分也已拜訪過系統廠與 design house。

C. 雲端廠商

經過一些考量,暫訂選用 AWS [5]。

-----

2. Key Activities (關鍵活動)

提供串流音樂 [5],並同時蒐集生理訊號 [1]。再利用 AI 投遞音樂 [3]。初期的推薦系統會先用大數據 [6]、再進入 AI [7],然後才是即時的音樂推薦 [3]。

-----

3. Key Resources (關鍵資源)

團隊成員目前有工程師三人。同學負責手機與伺服器程式。學弟負責 ABC(AI、Big Data、Cloud)。在學弟把我的工作接手後,目前暫時由我負責財務與業務。團隊成員下次會仔細介紹。

創投業者,小型與大型皆有接觸過,此處從略。目前還是先以建立團隊、開發產品為主。

-----

4. Value Provided (價值主張)

利用音樂提供優質的睡眠品質 [1]-[3]。

主要是目前串流音樂業者並未監控睡眠,而穿戴式業者雖可量測睡眠品質,但對於失眠並無 solution。本團隊特點即為整合兩者的橋樑。

-----
 
5. Customer Relationships (顧客關係)

透過生理訊號,用音樂跟使用者對話。

-----

6. Channels (通路)

目前通路即為合作的穿戴式裝置業者。

-----

7. Customers (目標客層)

失眠者 [2],以及想提升睡眠品質者,以及想「真實」知道音樂有多少改善睡眠者。

-----

8. Costs (成本結構)

初期最主要還是研發人力的投入。除了一般營運成本外,音樂版權費用與雲端設備的使用費用會是大宗。

-----

9. Revenues and Benefits (收入與好處)

請參考之前的研究報告 [2]。

-----

結論:

本文簡單介紹本團隊的商業模式。由於個人是研發出身,在初期還是以完成系統為目標。

很歡迎有財務與業務專長的專家們不吝賜教。也歡迎未來想要使用此服務的先驅使用者提供寶貴的意見。非常謝謝大家!

-----

Note.

本文張貼於:
https://www.facebook.com/groups/Taiwan.AI.Group/permalink/1927309567591475/

本文的迴響回應於:
https://www.facebook.com/groups/Taiwan.AI.Group/permalink/1927844644204634/

-----

References

[1] AI創業日記(一):音樂生理學
http://hemingwang.blogspot.tw/2017/09/blog-post.html 

[2] AI創業日記(二):市場調查
http://hemingwang.blogspot.tw/2017/09/ai.html

[3] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.
http://www.davidqiu.com:8888/research/nature14236.pdf

[4] 描繪專屬你的商業模式圖!9大構成要素一次看|數位時代
https://www.bnext.com.tw/article/46023/business-model-you

[5] Cloud(目錄)
http://hemingwang.blogspot.tw/2017/06/cloud.html 

[6] Big Data(目錄)
http://hemingwang.blogspot.tw/2017/08/big-data.html

[7] The Star Also Rises  AI從頭學(一四):Recommender
http://hemingwang.blogspot.tw/2017/03/ai.html

Wednesday, November 08, 2017

Spark Core

Spark Core

2017/10/27

施工中...


-----

Spark Core
Spark and Hadoop
DAG
Spark Core Programming 

-----

Apache Spark 為 in-memory 和分散式計算提供了快速且通用的解決方案,其 APIs 可用 Scala、Java、Python 和 R 語言完成。

Spark 的特別之處在於它提供了一組基於主要功能(稱為 Spark Core)的高級框架,用於執行結構化與基於 SQL 的資料處理(Spark SQL),機器學習(MLlib 和 SparkML),圖形處理 GraphX)和串流處理(Spark Streaming)。

雖然坊間有許多解決方案可以單獨執行上述功能,但 Spark 的特點在於它能讓你整合這些框架來達成你要的目的。例如,你可以用 Spark Streaming 寫一個串流應用程式,內部卻使用 SQL 查詢(由 Spark SQL 支援)來進行資料處理 [1]。

-----


Fig. 3b. Spark [3].

-----

References

[1] Big Data(四):Spark
http://hemingwang.blogspot.tw/2017/08/big-dataspark.html

[2] Spark is unique in how it lets you combine the frameworks to achieve your goals.

[3] 10 Things I Wish I Knew Before Using Apache SparkR - The Databricks Blog
https://databricks.com/blog/2016/12/28/10-things-i-wish-i-knew-before-using-apache-sparkr.html

[4] 談談基於 Spark 的數據分析
https://www.etusolution.com/index.php/tw/news/blog/97-blog/technical-point-of-view/552-20150601
 
[5] Zaharia, Matei, et al. "Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing." Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation. USENIX Association, 2012.
https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf

[6] 与 Hadoop 对比,如何看待 Spark 技术? - 知乎
https://www.zhihu.com/question/26568496 

[7] Spark可以完全替代hadoop吗? - 知乎
https://www.zhihu.com/question/51378885 

[8] Spark与Hadoop对比 _ Geosmart's Notes
http://geosmart.github.io/2017/10/12/Spark%E4%B8%8EHadoop%E5%AF%B9%E6%AF%94/ 

[9] 橫向對比三大分散式機器學習平台:Spark、PMLS、TensorFlow-中國新聞網
https://www.xcnnews.com/kj/161329.html

[10] 演算法筆記 - Directed Acyclic Graph
http://www.csie.ntnu.edu.tw/~u91029/DirectedAcyclicGraph.html

[11] Apache Spark Core Programming
https://www.tutorialspoint.com/apache_spark/apache_spark_core_programming.htm

跑步(一0七):6圈

跑步(一0七):6圈

2017/11/08

熱身1,跑(2*3)。

-----

熱身。
慢慢、快慢、慢慢。

Monday, November 06, 2017

Big Data(八):ML Pipelines

Big Data(八):ML Pipelines

2017/10/23






-----

References



MLlib  Main Guide - Spark 2.2.0 Documentation
http://spark.apache.org/docs/latest/ml-guide.html 

ML Pipelines - Spark 2.1.1 Documentation
https://spark.apache.org/docs/2.1.1/ml-pipeline.html
 
blogs_Introduction to MLlib Pipeline.md at master · JerryLead_blogs · GitHub
https://github.com/JerryLead/blogs/blob/master/BigDataSystems/Spark/ML/Introduction%20to%20MLlib%20Pipeline.md
ML Pipelines  A New High-Level API for MLlib - The Databricks Blog
https://databricks.com/blog/2015/01/07/ml-pipelines-a-new-high-level-api-for-mllib.html 

ML Pipelines:Spark 1.2中一个用于MLlib的High-Level API-CSDN.NET
http://www.csdn.net/article/2015-01-21/2823637

Spark Streaming

Spark Streaming

2017/10/27

施工中...

「Spark Streaming 充分利用 Spark 核心的快速排程能力來執行串流分析。它擷取小批次的資料並對之執行 RDD 轉換。這種設計使串流分析可在同一個引擎內使用同一組為批次分析編寫而撰寫的應用程式代碼 [1]。」



-----

References

[1] Apache Spark - 維基百科,自由的百科全書
https://zh.wikipedia.org/wiki/Apache_Spark 

[2] Spark Streaming实时计算框架介绍 -大数据-火龙果软件
http://www.uml.org.cn/bigdata/201705033.asp

[3] Spark Streaming · Spark 編程指南繁體中文版
https://taiwansparkusergroup.gitbooks.io/spark-programming-guide-zh-tw/spark-streaming/

Spark SQL

Spark SQL

2017/10/27

施工中...



-----







-----





-----

References

[1] [Arch] SparkSQL Internals – Part 1  SQLContext _ Nhat HOANG
https://hxquangnhat.com/2015/04/10/sparksql-internals-part-1-sqlcontext/

[2] [Arch] SparkSQL Internals – Part 2  SparkSQL Data Flow _ Nhat HOANG
https://hxquangnhat.com/2015/04/14/arch-sparksql-internals-part-2-sparksql-data-flow/

[3] secfree - Spark SQL 入门
http://secfree.github.io/blog/2015/04/18/spark-sql-introduction.html

[4] Flare Gives Spark SQL a Performance Boost
https://www.nextplatform.com/2017/04/05/flare-gives-spark-sql-performance-boost/

[5] Spark SQL · Spark 編程指南繁體中文版
https://taiwansparkusergroup.gitbooks.io/spark-programming-guide-zh-tw/spark-sql/

Database Schema

Database Schema

2017/10/27

資料庫綱要

施工中...

前言:


-----

Summary:

Schema 這個單字,若與資料庫相關時 [1],是指表格結構 [2],一般翻譯成「綱要」[3]。Schema(綱要)有三層,分別是 external schema (外部綱要)、conceptual schema(概念綱要)、以及 internal schema(內部綱要)[4]。更多關於 schema 的說明,可以參考 [5]。

-----

Outline

一、Database Schema(資料庫綱要)
二、Schema-on-read vs. Schema-on-write(搜模式 vs. 索模式)

  
-----

「The database schema of a database system is its structure described in a formal language supported by the database management system (DBMS).

The term "schema" refers to the organization of data as a blueprint of how the database is constructed (divided into database tables in the case of relational databases).

The formal definition of a database schema is a set of formulas (sentences) called integrity constraints imposed on a database. These integrity constraints ensure compatibility between parts of the schema [1].」

-----

「在系統分析或資料庫架構設計時,Schema 是指表格結構 [2]。」

-----

「在資料庫管理系統看到的資料是儲存在資料庫的資料,除了資料本身外,還包含描述資料的定義,稱為「綱要」 (Schema)。所謂「資料庫綱要」(Database Schema)是指整個資料庫的描述,即描述整個資料庫儲存資料的定義資料 [3]。」

-----


Fig. 1a. Database Schema [3]。



Fig. 1b. Schema Mapping [4].

-----

「使用的Hadoop包括 Spark)作為數據湖有很多原因。它利用低總成本的商業硬件來進行水平拓展,允許讀時模式(schema-on-read有模式上讀取)(用於接收高可變的數據),開源 ,並且包含了SQL和通用語言的分佈式處理層 [1]。




-----


Fig. 2a.


Fig. 2b.

-----

References

[1] Database schema - Wikipedia
https://en.wikipedia.org/wiki/Database_schema 

[2] 有關SCHEMA 名詞 問題請教
https://social.msdn.microsoft.com/Forums/zh-TW/dbe9c0b6-75c1-40ec-b98b-80e6d4082164/schema-?forum=240 

[3] Database Schema 

[4] Schema Mapping

[5] 第1章 資料庫系統
http://slidesplayer.com/slide/11539852/ 

---

[6] Hadoop  What you need to know - O'Reilly Media
https://www.oreilly.com/learning/hadoop-what-you-need-to-know

[7] Datalake Architecture
https://www.slideshare.net/techyugadi/datalake-architecture-67514274

[8] Fred 豢養的雲中象  企業資料經濟第二講:為企業打造一座生態豐富的 Data Lake,給 Data Team
http://fredbigdata.blogspot.tw/2015/04/data-team.html 

[9] 大数据架构的未来 _ MongoDB中文社区
http://www.mongoing.com/blog/post/the-future-of-big-data-architecture 

[10] The Future of Big Data Architecture _ MongoDB
https://www.mongodb.com/blog/post/the-future-of-big-data-architecture

新-AI從頭學(三):Popular Deep Learning Hardware Tools

新-AI從頭學(三):Popular Deep Learning Hardware Tools

2017/11/06

前言:

前面介紹了 LeNet 的理論與深度學習框架,這次介紹 GPU。

-----


Fig. 1. 1080 [5].



Fig. 2. Nvidia 1080 [5].

-----

Summary:

當我對 Deep Learning 還非常不瞭解的時候,就開始到 FB 的 台灣「人工智慧」社團 發表心得了,參考 [1], [2] 的舊版本。好處就是引來高手的指導,然後我就開始做功課了,參考文末補充資料。這份補充資料有兩個重點。第一,要有 GPU。第二,才能調參數。

所以,當你瞭解 LeNet-5 的架構 [1],也選定了框架(譬如 Caffe) [2],那你可以先用 Python 跑一下(使用一般 NB 即可)[3]。但是如果你想跑 LeNet 之後的經典 CNN 模型 [4],那麼建議是 1080 [5]。

-----

結論:

Deep Learning / AI 入門並不太難 [1],但如果你是認真的,那麼 [2]-[5] 的投資則是必要的!

-----

References

[1] 新-AI從頭學(一):文獻回顧
http://hemingwang.blogspot.tw/2017/10/ai_27.html

[2] 新-AI從頭學(二):Popular Deep Learning Software Tools
http://hemingwang.blogspot.tw/2017/10/aipopular-deep-learning-software-tools.html

[3] LeNet實作團(目錄)
http://hemingwang.blogspot.tw/2017/04/lenet.html

[4] Lab DRL(目錄)
http://hemingwang.blogspot.tw/2017/06/lab-drl.html

[5] 為您隆重介紹 GeForce GTX 1080  十全十美,玩勝遊戲 _ GeForce
https://www.geforce.com.tw/whats-new/articles/introducing-geforce-gtx-1080

-----

舊版:

AI從頭學(三):Popular Deep Learning Hardware Tools

2016/12/08

引用臉書資料:

Mark Chang :我覺得門檻高的原因不是弄懂理論,理論可以解釋的其實都很簡單,Deep Learning難的是那些理論無法解釋的,例如為何learning rate要0.001,lambda要0.5,諸如此類的參數組合。因為這些參數為什麼是這些值,都是要浪費很多時間去嘗試,跑各種組合跑出來的,而且就 算跑過很多組合,還不一定能跑出結果。

Mark Chang :金錢也是另一門檻,一般人一定買不起DGX-1,差一點的,像是M40也很難買得起,就算是買TitanX也得花掉不少錢。可是你設備不夠好,你就跑不 快,跑不快就無法嘗試那些無法解釋的參數組合,那就跑不出結果。跑不出結果,懂再多理論也做不出東西,所以這才是門檻最高的地方。

Jason Tsai :錢不會是大問題!公司和學校(學術)單位如果連這種設備的小錢都不願投資,那說要搞人工智慧真是笑死人了!開一顆 SoC 加光罩的錢都要上億台幣了,花幾百萬的錢算得了什麼?新創公司如果募不到足夠的錢購置設備,那表示不被看好,創業成功的機率非常低。

Mark Chang :要有錢,就是要有人願意投資,但可惜台灣投資Deep Learning的企業太少,想做的人不見得擠得進去那些企業。

Changrong Ko :順便問一下樓上 1070 跑得動 VGG16嗎 感覺不太夠力

Mark Chang :VGG很耗記憶體,但如果把batch弄小一點應該是可以...

Ton Ton Hsien-De Huang :現在大家在哀的差不多都是都在哀沒錢沒資源 ? 但其實沒錢有沒錢的做法,並不是只有當臺幣戰士才能做出東西,畢竟這也不是真的砸錢了就能有效果;業界還是要能變現,學界就是要有論文要有計畫 ... 最重要的當然還是要有數據 !

所以一開始就用時間換取空間吧,先小規模實驗,一張 1080 甚至 960 再搞幾台主機,即便是個人分次弄也不會是太大壓力 ... 至少我自己就是這樣開始的 ...

至於另一個引人注意的門坎就是會的人,以學界來講,我想要花時間去搞懂理論這不會是太大的問題而業界的話,先能搞個實際應用到產品,後續我想也不至於完全無法跨進這道窄門 ....

結論是:只要有心,人人都是食神 ,趕快做就對了,不做永遠都沒結果,雖然做了也不見得有啦 !!!

Changrong Ko :要重複別人開源的東西不難,我覺得比較難的是原創的方向或應用,首先我們也不太可能去比benchmark 拼辨識率拼不過大陸人的,比較適合的方向是開創一個新的有痛點的應用。不過現在重兵集結,國外跟大陸進展很快⋯

Jason Tsai :別說輸大陸了,就連和曾經同為亞洲四小龍的南韓相比,咱們大有為的政府預計每年投入人工智慧的經費只有南韓政府投入數字的零頭!一個韓國人為主的 FB Deep Learning 社團已經要第16次 meetup 了,而我們的 Deep Learning 101 meetup 才剛開始。

Mark Chang :CNN和RNN做supervised learning已經是兩三年前的東西了,現在應該要研究Generative model或 RL之類的,才跟得上時代。

Mark Chang :Btw, deep learning的meetup,很容易流團,我去年就見識過了

Jason Tsai :呵,這是完全可以理解的。光只是有興趣是遠遠不夠的!這需要極大的熱情、毅力、加上足夠的底子。 Meetup 如果有近十位左右能撐到最後全書K完,我就覺得台灣在這一塊上仍然有救的。

Mark Chang :其實我沒K過跟你們meetup讀的那本書,因為我翻個十頁就會睡著。但它最後一章講的東西,我早就都會了,而且我也都實作過了。我是由實作來學習的。 親自實作過,就會發現,Deep Learning難的不是搞懂那些數學公式,而是要找出能跑出結果的參數組合,相較之下,搞懂原理是非常簡單的。

Mark Chang :這就好比說你想藉由看書來學習打籃球,你看再多籃球的書籍,你投籃還是投不進。要真的上場跟人打球,才會知道被人防守之下要投進有多難。

Jason Tsai :理論和實作是相輔相成的,光搞理論或只在乎實作都無法集大成,就好像類比於武術的內功和外功。

Mark Chang :Jason Tsai 的確是這樣,理論也很重要,所以為什麼職業球隊還要請教練來指導戰術,並不是一直狂練投籃就可以每場都打贏。

Mark Chang :通常只看書沒實作的,都會流團,我看過沒流團的例子,那團是高手很多,有大學教授,美國名校畢業的,而且大家都認真參與實作的,才維持了好幾個月。

Jason Tsai :呵呵,就看看 Deep Learning 101 可以持續多久囉!

Mark Chang :Jason Tsai 加油吧~祝你們順利

-----

DGX-1

Nvidia發布超級計算機DGX-1 售價超80萬元- 今日頭條 big5.jinri-toutiao.com/id/337559.html 2016年4月7日 - 它配備了7TB固態硬盤,8塊Tesla P100顯卡和2塊英特爾Xeon處理器——如此的配置也給起帶來了超高的處理性能(170萬億次浮點運算/秒), ...

http://big5.jinri-toutiao.com/id/337559.html

NVIDIA在今年的GTC大會上推出了包括GPU晶片Tesla P100(基於全新Pascal平台架構上打造)、DRIVE PX2(用於自動駕駛汽車的開發平台)和用於深度學習研究的超級計算機DGX-1(使用Tesla P100晶片建造,運算速度可達170萬億次)在內的一系列新技術和新產品。

https://read01.com/dxj7Le.html

-----

M40

如果只有深度學習的訓練,NVIDIA的Tesla M40/M4雖然不便宜,但企業或者機構購買還是比較合適的(百度的深度學習研究院就用的這一款),相對於K40單精度浮點運算性能是4.29Tflops,M40可以達到7Tflops。

https://read01.com/dxj7Le.html

-----

Titan X

NVIDIA 新一代卡王,US$1,200 一張的Titan X 現身 - Engadget 中文版 chinese.engadget.com/2016/.../nvidias-new-top-end-graphics-card-is-the-1-200-titan-... 2016年7月22日 - 如果你剛買了張NVIDIA GTX 1080,正在享受擁有地表最快的桌機遊戲顯卡的快感的話,那... 壞消息告訴你,GTX 1080 已經被新一代的Titan X 踢到 ...

http://chinese.engadget.com/2016/07/22/nvidias-new-top-end-graphics-card-is-the-1-200-titan-x/

-----

1070

最強顯示卡現身! NVIDIA 推出GTX 1080、GTX 1070 | 自由電子報3C科技 3c.ltn.com.tw/news/24282 2016年5月7日 - NVIDIA 終於正式推出了新一代顯示卡王者GTX 1080、GTX 1070,作為取代目前GTX 980 和GTX 970 的產品。這兩張顯示卡採用Pascal 架構, ...

http://3c.ltn.com.tw/news/24282

-----

VGG16

關於圖像語義分割的總結和感悟- IT閱讀 www.itread01.com/articles/1476698476.html 2016年10月17日 - 卷積化即是將普通的分類網絡,比如VGG16,ResNet50/101等網絡丟棄全連接層,換上對應的卷積層即可。如下圖: 這裏寫圖片描述 ...

http://www.itread01.com/articles/1476698476.html

前沿| 二值神經網絡:催生手腕上的AlphaGo : 歌穀穀 www.gegugu.com/2016/04/04/5056.html 2016年4月4日 - 後續的VGG-16網絡相比AlexNet提高瞭預測準確率,卻更是一個網絡大小超過500M,單圖片浮.計算量超過280億次的龐然大物。人們對預測準確率 ...

Wednesday, November 01, 2017

Python Spark ML(九):Hadoop 基本功能介紹

Python Spark ML(九):Hadoop 基本功能介紹

2017/11/01

本次作業:

請自行完成 [2] 的六、七章:有關 Hadoop 的 HDFS 與 MapReduce 的講解與操作。講解可參考之前我發表的文章 [3], [4]。

-----


Fig. 1. HDFS and MapReduce [1].


Fig. 2. HDFS and MapReduce [2].

-----

References

[1]A Beginners Guide to Hadoop
https://blog.matthewrathbone.com/2013/04/17/what-is-hadoop.html

[2] 書名:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰,ISBN:9864341537,作者:林大貴,出版社:博碩,出版日期:2016-10-03.
http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html 

[3] Big Data(五):HDFS
http://hemingwang.blogspot.tw/2017/08/big-datahdfs.html  

[4] Big Data(六):MapReduce
http://hemingwang.blogspot.tw/2017/10/big-datamapreduce.html