The Star Also Rises: NLP（二）：Seq2seq

NLP（二）：Seq2seq

2019/01/02

施工中...

-----

說明：

Seq2seq 的核心觀念是：整句讀完再翻譯。

-----

[2]。

-----

◎ 一、Seq2seq 的動機

動機在於若以矩陣的方式處理文字，則字數必須是固定的。以 RNN 形式，則句子的長度才有彈性。

「要知道，在以往的很多模型中，我們一般都說輸入特徵矩陣，每個樣本對應矩陣中的某一行，就是說，無論是第一個樣本還是最後一個樣本，他們都有一樣的特徵維度。但是對於翻譯這種例子，難道我們要讓每一句話都有一樣的字數嗎，那樣的話估計五言律詩和七言絕句又能大火一把了，哈哈。但是這不科學呀，所以就有了 seq2seq 這種結構。」[8]。

-----

◎ 二、Seq2seq 的架構

架構是編碼器解碼器。先將輸入句壓縮成單向量，再把單向量重組為想要的輸出。

「Sequence to Sequence 是由 Encoder 與 Decoder 兩個 RNN 構成，它的運作原理其實與人類的思維很相似，當我們看到一段話時，會先將這句話理解吸收，再根據我們理解的內容說出回覆，Sequence to Sequence 就是在模擬這個過程。」[9]。

-----

◎ 三、Seq2seq 的範例

翻譯、對話、摘要、創作，都可以用 Seq2seq 完成。

「輸入一句英文，輸出一句法文，就寫好了一個翻譯系統。
輸入一個問題，輸出一句回覆，就架好一個聊天機器人。
輸入一篇文章，輸出一份總結，就構成一個摘要系統。
輸入幾個關鍵字，輸出一首短詩，就成就了一名詩人。」[9]。

-----

◎ 四、Seq2seq 的作法

端看訓練的資料集而定。

「而 Seq2seq 靈活的架構，也讓這個模型被廣泛地應用到各種不同的任務上：例如 Chatbot、Google Inbox 的 Auto-Reply。只要你有一個配對好的文本集（問與答、信件與回覆、圖片與描述），就可以把資料餵進模型裡訓練產生一個 Seq2seq 系統。」[10]。

-----

◎ 五、Seq2seq 的不足

多向量可以比單向量更精細地執行任務，所以 Seq2seq 的單向量模型之後，又有 Attention 的多向量模型被開發出來。

「現在我們具備 RNN/LSTM 的知識，可以發現 Seq2seq 中，Decoder 的公式和 RNN 根本就是同一個模子出來的，差別在於 Decoder 多了一個 C，這個 C 是指 context vector/thought vector。context vector 可以想成是一個含有所有輸入句訊息的向量，也就是 Encoder 當中，最後一個 hidden state。簡單來說，Encoder 將輸入句壓縮成固定長度的 context vector，context vector 即可完整表達輸入句，再透過 Decoder 將 context vector 內的訊息產生輸出句。」[11]。

「為什麼要用 attention model？The attention model 用來幫助解決機器翻譯在句子過長時效果不佳的問題。這種新的架構替輸入句的每個文字都創造一個 context vector，而非僅僅替輸入句創造一個從最終的 hidden state得來的 context vector，舉例來說，如果一個輸入句有 N 個文字，就會產生 N 個 context vector，好處是，每個 context vector 能夠被更有效的解碼。」[11]。

-----

論文圖一，Seq2seq 的架構 [1]。

-----

[1]

-----

[1]

-----

[1]

-----

[1]

-----

[1]

-----

[1]

-----

Appendix

# Hidden state

「For vanilla recurrent neural networks and GRU’s, the output is the hidden state. When you see both an output and a hidden state represented as two different variables, usually the output is something that ran through some sort of activation like softmax for classification.」[7]。

隱藏狀態跟輸出的差異在於通常輸出會比隱藏狀態多一個激活函數，例如 Softmax，以用來分類。

-----

References

◎ 論文

[1] Seq2seq - using LSTM

Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014.

http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

-----

◎ 英文

[2] Forecasting with Neural Networks - An Introduction to Sequence-to-Sequence Modeling Of Time Series – Joseph Eddy – Data scientist, teacher, debate coach

https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/

# 1.6k claps
[3] Word Level English to Marathi Neural Machine Translation using Encoder-Decoder Model
https://towardsdatascience.com/word-level-english-to-marathi-neural-machine-translation-using-seq2seq-encoder-decoder-lstm-model-1a913f2dc4a7