Wednesday, September 29, 2021

高雄小旅行(八):大寮 - 南 - 台 25

高雄小旅行(八):大寮 - 南 - 台 25

-----

2021/09/29 

騎車(登山車)

今天早上是排定的運動時間。

-----


2021/10/15

-----

雲層有點厚,有點要下雨的感覺。不過濕度不大,氣象預報也是連日晴天,所以就還是出門。台 25 南段,街景比較單調,或者說單純。路旁以工廠為主。到新厝路時右轉,就可以上大坪頂。是一個小坡,而且一下子就到頂了。

大坪頂開發的並沒有很成功,所以預定的捷運站也沒有動工。山頂可以看到小港、八五大樓、以及壽山。景致算是不錯的。下坡後沿著高松路以及高鳳路走一段,就回到 188 縣道。

轉由鳳頂路回家,因為之前都是走 188。旁邊是預校的側牆,延伸的非常遠,表示預校的腹地還蠻大的。

台 25,也就是鳳林路,鳳山到林園的主要道路。之前查了一下鳳山為何叫鳳山?主要是因為鳳山南方,小港跟大寮之間,林園之北,有鳳山丘陵,其間有鳳山如鳳展翅,因而得名。鳳山就在台 25 旁。只是今天走大坪頂,鳳山還在大坪頂之南。兩次的台 25 到此告一段落。有運動到就好。

--

88、台25、新厝路、大平路、高松路、高鳳路、鳳頂路。

-----

2021/09/27 

跑步

跑步的路線總算敲定了。沿著鳳山運動公園到衛武營,原則是草坪、大樹下、寬敞的地方。今天兩點出門,跑第一趟後發現回家可能太早,於是多補一趟,結果回家時是五點,剛好。

-----

Sunday, September 26, 2021

Paragraph2vec(五):Lab

 Paragraph2vec(五):Lab

2021/09/13

 -----


https://pixabay.com/zh/photos/notebook-pen-the-work-course-work-2637757/

-----

References


# official Doc2Vec

[1] Doc2vec tutorial | RARE Technologies

https://rare-technologies.com/doc2vec-tutorial/


# wiki reference

[2] Doc2Vec tutorial using Gensim. The official Doc2Vec is great… | by Andreas Klintberg | Medium

https://medium.com/@klintcho/doc2vec-tutorial-using-gensim-ab3ac03d3a1


# 應用

[3] Understand how to transfer your paragraph to vector by doc2vec | by Edward Ma | Towards Data Science

https://towardsdatascience.com/understand-how-to-transfer-your-paragraph-to-vector-by-doc2vec-1e225ccf102


# 應用

[4] nlp/nlp-embeddings-document-doc2vec.ipynb at master · makcedward/nlp · GitHub

https://github.com/makcedward/nlp/blob/master/sample/embeddings/nlp-embeddings-document-doc2vec.ipynb

-----

Paragraph2vec(四):Appendix

Paragraph2vec(四):Appendix

2021/09/07

 -----


# C&W v2。

-----

References


# C&W v2。被引用 6841 次。本篇論文闡釋了從 Word2vec 繼續發展 Paragraph2vec 的必要性。

Collobert, Ronan, et al. "Natural language processing (almost) from scratch." Journal of machine learning research 12.ARTICLE (2011): 2493-2537.

https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

-----

Paragraph2vec(三):Illustrated

 Paragraph2vec(三):Illustrated

2021/08/27

-----


https://pixabay.com/zh/photos/chart-trading-courses-analysis-1942060/

-----


Figure 1: Our model reads an input sentence “ABC” and produces “WXYZ” as the output sentence. The model stops making predictions after outputting the end-of-sentence token. Note that the LSTM reads the input sentence in reverse, because doing so introduces many short term dependencies in the data that make the optimization problem much easier.

圖 1:我們的模型讀取輸入句子“ABC”並生成“WXYZ”作為輸出句子。 模型在輸出句尾標記後停止進行預測。 請注意,LSTM 反向讀取輸入句子,因為這樣做會在數據中引入許多短期依賴關係,從而使優化問題變得更加容易。

# Seq2seq 1

說明:

將 ABC<EOS> 這個詞向量序列壓縮成一個向量(句向量),再將此向量解壓縮成 WXYZ<EOS> 這個詞向量的序列。

-----


Figure 1: The skip-thoughts model. Given a tuple (si-1; si; si+1) of contiguous sentences, with si the i-th sentence of a book, the sentence si is encoded and tries to reconstruct the previous sentence si-1 and next sentence si+1. In this example, the input is the sentence triplet I got back home. I could see the cat on the steps. This was strange. Unattached arrows are connected to the encoder output. Colors indicate which components share parameters. <eos> is the end of sentence token.

圖 1:跳過思考模型。 給定一個連續句子的元組 (si-1; si; si+1),其中 si 是一本書的第 i 個句子,句子 si 被編碼並嘗試重建前一句 si-1 和下一句 si+1 . 在這個例子中,輸入是我回到家的句子三元組。 我可以看到台階上的貓。 這很奇怪。 未附加的箭頭連接到編碼器輸出。 顏色指示哪些組件共享參數。 <eos> 是句尾標記。

# Skip-thought。

說明:

Seq2seq 的加強版。預測前後的句子。同樣要將輸入句先壓縮成一個句向量。

-----



Figure 1. A framework for learning word vectors. Context of three words (“the,” “cat,” and “sat”) is used to predict the fourth word (“on”). The input words are mapped to columns of the matrix W to predict the output word.

圖 1. 學習詞向量的框架。 三個詞(“the”、“cat”和“sat”)的上下文用於預測第四個詞(“on”)。 輸入詞映射到矩陣 W 的列以預測輸出詞。

# Paragraph2vec

說明:

CBOW。

-----


# C&W v2。

說明:

主要用於 SRL。輸入為句子,用上了一維卷積,可以理解為 ConvS2S 的基礎。

https://www.cnblogs.com/qinzhuy/p/12643277.html

「Window Approach 能夠完成絕大部分自然語言處理任務,但是在 SRL 上表現不佳。因此,SENNA 提出了 Sentence Approach 用於適應 SRL。Sentence Approach 採用的卷積網路結構,除了線性層和 HardTanh 層外,還有一個卷積層和一個 Max 層。」

https://blog.csdn.net/hlang8160/article/details/78047676

-----

POS 詞性標記

part-of-speech (POS) tagging

「依據字詞在句法結構或語言形態上扮演的角色,經由詞性分類賦予語句中每個字詞適當之詞性符號或標記的過程,則稱為詞性標記(part-of-speech tagging,或稱 POS ...」

「VBG 為動名詞或現在分詞,BEZ 代表 is,AT 為冠詞,NN 為名詞,IN 為介係詞,CC 為連接詞,DT 為限定詞,PP$ 為所有格,JJ 為形容詞。」

https://terms.naer.edu.tw/detail/1678982/

-----

CHUNK 組塊分析

「組塊分析是從非結構化文本中提取短語的過程。相對於 POS-Tagging 來說,POS-Tagging 返回了解析樹的最底層,就是一個個單詞。但是有時候你需要的是幾個單詞構成的名詞短語,而非個個單詞。」

「組塊分析是可以接着詞性標註工作繼續完成,它使用詞性標註作爲輸入,並提供分析好的組塊做爲輸出。與詞性標註的標籤類似,它也有一組標準的組塊標籤,如名詞短語(np)、動詞短語(vp)等。」

https://blog.csdn.net/Sirow/article/details/89306934

-----

NER 命名實體識別

Named Entity Recognition

「組塊分析是可以接着詞性標註工作繼續完成,它使用詞性標註作爲輸入,並提供分析好的組塊做爲輸出。」

「與詞性標註的標籤類似,它也有一組標準的組塊標籤,如名詞短語(np)、動詞短語(vp)等,當你想從諸如位置,人名等文本中提取信息時,分塊是非常重要的。在 NLP 中,稱爲命名實體識別,舉個例子‘李雷的杯子’是分塊分出的一個短語,而抽取’李雷’這個人名,就是命名體識別。所以,組塊分析也是命名體識別的基礎。」

https://blog.csdn.net/Sirow/article/details/89306934

-----

SRL 語義角色標註

Semantic Role Labeling (SRL) is defined as the task to recognize arguments for a given predicate and assign semantic role labels to them.

「語義角色標註的任務就是以句子的謂詞為中心,研究句子中各成分與謂詞之間的關係,並且用語義角色來描述他們之間的關係。

例:歐巴馬昨晚在白宮發表了演說。

這個句子中包括:謂詞“發表”、施事“歐巴馬”、受事“演說”、時間“昨晚”、地點“在白宮”。」

https://zhuanlan.zhihu.com/p/35789254

-----

NER Deep Learning


# NER

說明:

POS、CHUNK、NER、SRL,都可使用 Word Embedding 後,以 LSTM 進行 Supervised 的訓練,來完成。

--

BIO 與 BIOES。

「B,即 Begin,表示開始。I,即 Intermediate,表示中間。E,即 End,表示結尾。S,即Single,表示單個字符。O,即 Other,表示其他,用於標記無關字符。」

「將“小明在北京大學的燕園看了中國男籃的一場比賽”這句話,進行標註,結果就是:

[B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O]」

https://zhuanlan.zhihu.com/p/88544122

-----


# Word2vec 1。

說明:

w:window。此處 window 大小為 5。CBOW 是以周邊的字預測中間應該出現什麼字。Skip-gram 是以中間的字預測周邊應該出現什麼字。

-----

CBOW 周圍的字預測中間的單字


# Word2vec 3。

說明:

所有 context 字的 one hot 先乘以共享的 VxN 矩陣,得到的每個向量相加求平均,作為隱藏層的向量。

https://blog.csdn.net/WitsMakeMen/article/details/89511764

-----


https://zhuanlan.zhihu.com/p/27234078

-----


Figure 2. A framework for learning paragraph vector. This framework is similar to the framework presented in Figure 1; the only change is the additional paragraph token that is mapped to a vector via matrix D. In this model, the concatenation or average of this vector with a context of three words is used to predict the fourth word. The paragraph vector represents the missing information from the current context and can act as a memory of the topic of the paragraph.

圖 2. 學習段落向量的框架。 該框架類似於圖 1 所示的框架; 唯一的變化是通過矩陣 D 映射到向量的附加段落標記。在這個模型中,這個向量與三個詞的上下文的串聯或平均值用於預測第四個詞。 段落向量表示當前上下文中缺失的信息,可以作為段落主題的記憶。

# Paragraph2vec

說明:

類似 CBOW。

Paragraph Matrix

「In our Paragraph Vector framework (see Figure 2), every paragraph is mapped to a unique vector, represented by a column in matrix D and every word is also mapped to a unique vector, represented by a column in matrix W.」

在我們的段落向量框架(見圖 2)中,每個段落都映射到一個唯一的向量,由矩陣 D 中的一行表示,每個詞也映射到一個唯一的向量,由矩陣 W 中的一行表示。

--



「In summary, the algorithm itself has two key stages: the unsupervised training to get word vectors W, the inference stage to get paragraph vectors D. The third stage is to turn D to make a prediction about some particular labels using a standard classifier such as a logistic classifier or support vector machines.」

綜上所述,算法本身有兩個關鍵階段:無監督訓練得到詞向量 W,推理階段得到段落向量 D。 第三階段是轉 D 使用標準分類器對某些特定標籤進行預測,例如邏輯分類器或支持向量機。

--



一、訓練階段可以得到所有詞向量與句向量。

二、推論階段還是要隨機初始化新的句向量,然後用隨機梯度下降訓練權重,只是詞向量不用重新訓練。

--

「訓練完了以後,就會得到訓練樣本中所有的詞向量和每句話對應的句子向量,那麼 Doc2vec 是怎麼預測新的句子 Paragraph vector 呢?其實在預測新的句子的時候,還是會將該 Paragraph vector 隨機初始化,放入模型中再重新根據隨機梯度下降不斷迭代求得最終穩定下來的句子向量。不過在預測過程中,模型裡的詞向量還有投影層到輸出層的 softmax weights 參數是不會變的,這樣在不斷迭代中只會更新 Paragraph vector,其他參數均已固定,只需很少的時間就能計算出帶預測的 Paragraph vector。」

https://zhuanlan.zhihu.com/p/36886191

-----

Skip-Gram 中間的單字預測周圍的字



# Word2vec 3。

說明:

Input layer:以 skip-gram 為例,是 V 維的 one-hot encoding,非 0 的輸入神經元到隱藏層的權重,極為該單詞的詞向量。

Hidden layer:隱藏層。

Output layer:輸出層。

V-dim:輸入層的維度。

N-dim:隱藏層的維度。

CxV-dim:輸出層的維度。

W VxN:VxN 的矩陣。將輸入層的 V 維資料,轉成 N 維的隱藏層資料。

W' NxV:NxV 的矩陣。輸出為字彙表裡面,每個字的機率。先將隱藏層轉成 V 個值,再把這 V 個值做 Softmax 輸出。我們希望 context 裡的字,其機率越高越好。

xk:index。

hj:index。

y Cj:C 代表 context。target 代表 window 中間的字,context 代表 window 中,target 之外的其他字。CBOW 是 context 預測 target,skip-gram 則是 target 預測 context。

-----


Figure 3. Distributed Bag of Words version of paragraph vectors. In this version, the paragraph vector is trained to predict the words in a small window.

圖 3. 段落向量的分佈式詞袋版本。 在這個版本中,段落向量被訓練來預測小窗口中的單詞。

# Paragraph2vec

說明:

類似 Skip-gram。

Paragraph Matrix

「Another way is to ignore the context words in the input, but force the model to predict words randomly sampled from the paragraph in the output. In reality, what this means is that at each iteration of stochastic gradient descent, we sample a text window, then sample a random word from the text window and form a classification task given the Paragraph Vector.」

另一種方法是忽略輸入中的上下文詞,但強制模型預測從輸出中的段落中隨機採樣的詞。 實際上,這意味著在隨機梯度下降的每次迭代中,我們對一個文本窗口進行採樣,然後從該文本窗口中採樣一個隨機單詞,並在給定段落向量的情況下形成一個分類任務。

「In our experiments, each paragraph vector is a combination of two vectors: one learned by the standard paragraph vector with distributed memory (PV-DM) and one learned by the paragraph vector with distributed bag of words (PV-DBOW). PV-DM alone usually works well for most tasks (with state-of-art performances), but its combination with PV-DBOW is usually more consistent across many tasks that we try and therefore strongly recommended.」

在我們的實驗中,每個段落向量是兩個向量的組合:一個是通過具有分佈式內存的標準段落向量 (PV-DM) 學習的,另一個是通過具有分佈式詞袋 (PV-DBOW) 的段落向量學習的。 PV-DM 單獨通常適用於大多數任務(具有最先進的性能),但它與 PV-DBOW 的組合通常在我們嘗試並因此強烈推薦的許多任務中更加一致。

-----


Table 1. The performance of our method compared to other approaches on the Stanford Sentiment Treebank dataset. The error rates of other methods are reported in (Socher et al., 2013b).

表 1. 我們的方法與斯坦福情緒樹庫數據集上的其他方法相比的性能。 (Socher et al., 2013b) 中報告了其他方法的錯誤率。

# Paragraph2vec

說明:

Positive / Negative:SST-2 or SST binary。

fine-grained:The corpus with all 5 labels is referred to as SST-5 or SST fine-grained.

--

「The Stanford Sentiment Treebank is a corpus with fully labeled parse trees that allows for a complete analysis of the compositional effects of sentiment in language. The corpus is based on the dataset introduced by Pang and Lee (2005) and consists of 11,855 single sentences extracted from movie reviews. It was parsed with the Stanford parser and includes a total of 215,154 unique phrases from those parse trees, each annotated by 3 human judges.」

斯坦福情感樹庫是一個帶有完全標記的解析樹的語料庫,可以對語言中情感的構成效應進行完整的分析。 該語料庫基於 Pang 和 Lee (2005) 引入的數據集,包含從電影評論中提取的 11,855 個單句。 它使用斯坦福解析器進行解析,包括來自這些解析樹的總共 215,154 個獨特的短語,每個短語由 3 位人類判斷進行註釋。

「Each phrase is labelled as either negative, somewhat negative, neutral, somewhat positive or positive. The corpus with all 5 labels is referred to as SST-5 or SST fine-grained. Binary classification experiments on full sentences (negative or somewhat negative vs somewhat positive or positive with neutral sentences discarded) refer to the dataset as SST-2 or SST binary.」

每個短語都被標記為消極、有點消極、中性、有點積極或積極。 具有所有 5 個標籤的語料庫被稱為 SST-5 或 SST 細粒度。 完整句子的二元分類實驗(否定或有點否定 vs 有點肯定或肯定,丟棄中性句子)將數據集稱為 SST-2 或 SST 二進制。

https://paperswithcode.com/dataset/sst

-----


Table 2. The performance of Paragraph Vector compared to other approaches on the IMDB dataset. The error rates of other methods are reported in (Wang & Manning, 2012).

表 2. 與 IMDB 數據集上的其他方法相比,段落向量的性能。 其他方法的錯誤率在 (Wang & Manning, 2012) 中報告。

# Paragraph2vec

說明:

有兩種類型的標籤:正面和負面。

--

「Dataset: The IMDB dataset was first proposed by Maas et al. (Maas et al., 2011) as a benchmark for sentiment analysis. The dataset consists of 100,000 movie reviews taken from IMDB. One key aspect of this dataset is that each movie review has several sentences.」

數據集:IMDB 數據集首先由 Maas 等人提出。 (Maas et al., 2011) 作為情感分析的基準。 該數據集包含來自 IMDB 的 100,000 條電影評論。 該數據集的一個關鍵方面是每個電影評論都有幾個句子。

「The 100,000 movie reviews are divided into three datasets: 25,000 labeled training instances, 25,000 labeled test instances and 50,000 unlabeled training instances. There are two types of labels: Positive and Negative. These labels are balanced in both the training and the test set. The dataset can be downloaded at http://ai.Stanford.edu/amaas/data/sentiment/index.html」

100,000 條影評分為三個數據集:25,000 個標記訓練實例、25,000 個標記測試實例和 50,000 個未標記訓練實例。 有兩種類型的標籤:正面和負面。 這些標籤在訓練和測試集中都是平衡的。 數據集可以在 http://ai.Stanford.edu/amaas/data/sentiment/index.html 下載

# Paragraph2vec

-----


Table 3. The performance of Paragraph Vector and bag-of-words models on the information retrieval task. “Weighted Bag-of-bigrams” is the method where we learn a linear matrix W on TF-IDF bigram features that maximizes the distance between the first and the third paragraph and minimizes the distance between the first and the second paragraph.

表 3. Paragraph Vector 和 bag-of-words 模型在信息檢索任務上的表現。 “Weighted Bag-of-bigrams”是我們在 TF-IDF bigram 特徵上學習線性矩陣 W 的方法,該矩陣使第一段和第三段之間的距離最大化,並使第一段和第二段之間的距離最小化。

# Paragraph2vec

說明:

「tf-idf(英語:term frequency–inverse document frequency)是一種用於資訊檢索與文字挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。」

https://zh.wikipedia.org/wiki/Tf-idf

-----

# Paragraph2vec。被引用 6763 次。

Le, Quoc, and Tomas Mikolov. "Distributed representations of sentences and documents." International conference on machine learning. 2014.

http://proceedings.mlr.press/v32/le14.pdf

-----

# Word2vec 1。被引用 18991 次。

Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).

https://arxiv.org/pdf/1301.3781.pdf


# Word2vec 2。被引用 23990 次。

Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.

https://papers.nips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf


# Word2vec 3。被引用 645 次。

Rong, Xin. "word2vec parameter learning explained." arXiv preprint arXiv:1411.2738 (2014).

https://arxiv.org/pdf/1411.2738.pdf


# C&W v1。被引用 5099 次。

Collobert, Ronan, and Jason Weston. "A unified architecture for natural language processing: Deep neural networks with multitask learning." Proceedings of the 25th international conference on Machine learning. 2008.

http://www.cs.columbia.edu/~smaskey/CS6998-Fall2012/supportmaterial/colbert_dbn_nlp.pdf


# C&W v2。被引用 6841 次。本篇論文闡釋了從 Word2vec 繼續發展 Paragraph2vec 的必要性。

Collobert, Ronan, et al. "Natural language processing (almost) from scratch." Journal of machine learning research 12.ARTICLE (2011): 2493-2537.

https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf


# Seq2seq 1。被引用 12676 次。

Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014.

http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf


# Skip-thought。

Kiros, Ryan, et al. "Skip-thought vectors." arXiv preprint arXiv:1506.06726 (2015).

https://arxiv.org/pdf/1506.06726.pdf


# NER

Yadav, Vikas, and Steven Bethard. "A survey on recent advances in named entity recognition from deep learning models." arXiv preprint arXiv:1910.11470 (2019).

https://arxiv.org/pdf/1910.11470.pdf

-----

Paragraph2vec(二):Overview

Paragraph2vec

2020/12/22

-----


https://pixabay.com/zh/photos/attorney-law-text-of-the-law-lawyer-2730812/

-----

◎ Abstract

-----

◎ Introduction

-----

本論文要解決(它之前研究)的(哪些)問題(弱點)? 

-----


# Word2vec 1。

說明:

Word Embedding 之後,可以把詞向量加上標籤,進行自然語言常見的任務如 POS、CHUNK、NER、SRL 等任務。

-----


# C&W v2。

說明:

C&W v1 這個詞向量演算法,在進行 POS、CHUNK、NER、SRL 這四個 NLP 任務時,只有 SRL 表現較差,因此 C&W v2 把 window approach 改為 sentence approach,從而改進 SRL 的表現。

https://www.cnblogs.com/qinzhuy/p/12643277.html

「Window Approach 能夠完成絕大部分自然語言處理任務,但是在 SRL 上表現不佳。因此,SENNA 提出了 Sentence Approach 用於適應 SRL。Sentence Approach 採用的卷積網路結構,除了線性層和 HardTanh 層外,還有一個卷積層和一個 Max 層。」

https://blog.csdn.net/hlang8160/article/details/78047676

-----

◎ Method

-----

解決方法? 

-----


# Paragraph2vec。

Sentence(Paragraph、Document)Embedding。

-----

具體細節?

https://hemingwang.blogspot.com/2021/08/paragraph2vecillustrated_27.html

-----

◎ Result

-----

本論文成果。 

-----

◎ Discussion

-----

本論文與其他論文(成果或方法)的比較。 

-----

成果比較。 

-----

方法比較。 

-----

◎ Conclusion 

-----

◎ Future Work

-----

後續相關領域的研究。 

-----

後續延伸領域的研究。

-----

◎ References

-----

# Paragraph2vec。被引用 6763 次。

Le, Quoc, and Tomas Mikolov. "Distributed representations of sentences and documents." International conference on machine learning. 2014.

http://proceedings.mlr.press/v32/le14.pdf

-----

# Word2vec 1。被引用 18991 次。

Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).

https://arxiv.org/pdf/1301.3781.pdf


# Word2vec 2。被引用 23990 次。

Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.

https://papers.nips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf


# Word2vec 3。被引用 645 次。

Rong, Xin. "word2vec parameter learning explained." arXiv preprint arXiv:1411.2738 (2014).

https://arxiv.org/pdf/1411.2738.pdf


# C&W v1。被引用 5099 次。

Collobert, Ronan, and Jason Weston. "A unified architecture for natural language processing: Deep neural networks with multitask learning." Proceedings of the 25th international conference on Machine learning. 2008.

http://www.cs.columbia.edu/~smaskey/CS6998-Fall2012/supportmaterial/colbert_dbn_nlp.pdf


# C&W v2。被引用 6841 次。本篇論文闡釋了從 Word2vec 繼續發展 Paragraph2vec 的必要性。

Collobert, Ronan, et al. "Natural language processing (almost) from scratch." Journal of machine learning research 12.ARTICLE (2011): 2493-2537.

https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

-----

The Star Also Rises: Paragraph2vec

https://hemingwang.blogspot.com/2020/08/paragraph2vec.html

-----

Paragraph2vec

Paragraph2vec

2020/08/19

-----


https://pixabay.com/zh/photos/attorney-law-text-of-the-law-lawyer-2730806/

-----

「本文的意義在於提出了一個無監督的 paragraph 向量表示模型,無監督的意義非常重大。有了 paragraph 級別的高效表示模型之後,解決類似於句子分類,檢索,問答系統,文本摘要等各種問題都會帶來極大地幫助。」

// Distributed Representations of Sentences and Documents - 知乎

-----

References

◎ 英文

[1] Paragraph2vec
Le, Quoc, and Tomas Mikolov. "Distributed representations of sentences and documents." International conference on machine learning. 2014.
http://proceedings.mlr.press/v32/le14.pdf

# 3.9k claps
A gentle introduction to Doc2Vec. TL;DR | by Gidi Shperber | Wisio | Medium
https://medium.com/wisio/a-gentle-introduction-to-doc2vec-db3e8c0cce5e

# 174 claps
A simple explanation of document embeddings generated using Doc2Vec | by Amar Budhiraja | Medium
https://medium.com/@amarbudhiraja/understanding-document-embeddings-of-doc2vec-bfe7237a26da

# 139 claps
Understand how to transfer your paragraph to vector by doc2vec | by Edward Ma | Towards Data Science
https://towardsdatascience.com/understand-how-to-transfer-your-paragraph-to-vector-by-doc2vec-1e225ccf102

# 376 claps
Doc2Vec tutorial using Gensim. The official Doc2Vec is great… | by Andreas Klintberg | Medium
https://medium.com/@klintcho/doc2vec-tutorial-using-gensim-ab3ac03d3a1

Doc2vec tutorial | RARE Technologies
https://rare-technologies.com/doc2vec-tutorial/

Meanings are Vectors - Seeking Wisdom
http://sanjaymeena.io/tech/word-embeddings/

Deep Learning in Recommender Systems - RecSys Summer School 2017
https://www.slideshare.net/balazshidasi/deep-learning-in-recommender-systems-recsys-summer-school-2017

-----

◎ 簡中

一周论文 | Word2Vec 作者Tomas Mikolov 的三篇代表作
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650719175&idx=3&sn=6e9354461991c00ff21e29bc544fd6fc&chksm=871b07b9b06c8eafa111720a7eec96231706c527a18c68ada11c578517abc333252844434c0c&scene=0

Distributed Representations of Sentences and Documents - 知乎
https://zhuanlan.zhihu.com/p/21242559

用 Doc2Vec 得到文档/段落/句子的向量表达 - 简书
https://www.jianshu.com/p/854a59b93e09

使用paragraph2vec学习文章特征 - 簡書
https://www.jianshu.com/p/d34d61188ab5

Paragraph2vec(段向量)-------基于《Distributed Representations of Sentences and Documents》_cpluss的博客-CSDN博客_distributed representations of sentences and docum
https://blog.csdn.net/cpluss/article/details/81355923

# 227 人贊同
深度学习在推荐系统上的应用 - 知乎
https://zhuanlan.zhihu.com/p/33214451

-----

◎ 繁中

# 145 claps
讀paper之心得:word2vec 與 doc2vec. word2vec與doc2vec 分別為2篇paper,都是由Tomas… | by Eating | Medium
https://medium.com/@ddoo8059/%E8%AE%80paper%E4%B9%8B%E5%BF%83%E5%BE%97-word2vec-%E8%88%87-doc2vec-5c8b8daa7f12

-----

Friday, September 24, 2021

高雄小旅行(七):大寮 - 北 - 台25

高雄小旅行(七):大寮 - 北 - 台25

2021/09/24

鎖定週間跑步,週末騎車。

星期五一早,天氣不錯,決定出門。免得週末不一定有機會運動。

-----


2021/10/15

-----

09/22 跑步

最大圈草地可以開始增加圈數。

-----

09/24 騎車(登山車)

沿著 88 快速道路,到 台 25 時向北。

是一般的省道,省道旁比較熱鬧,再遠一點,就是農田。

路上車不少,並不是一段適合運動的道路。

值得一提的是路過捷運大寮站(差幾百公尺)。

進入鳳山後,沿著官校、步校、預校、六度素食,然後回家。

往裡面騎也許有一些較好的路線。再看看。

下次目標也是台 25,往南,大坪頂。

然後是光明路北南。然後是台 29 北南。

這樣也要一個月。

冬天時再往屏東進行一天的行程。

夏天(秋天)就是早上騎一下就好。

今天是八點半騎到十點十分,路程稍短一點。

-----

Tuesday, September 21, 2021

高雄小旅行(六):萬丹 - 竹田

高雄小旅行(六):萬丹 - 竹田

2021/09/23

中秋連假的第三天,我去拜訪住在萬丹的高中同學,午餐後,騎著單車到竹田火車站旁的「驛前大和頓物所咖啡」坐了一下午,然後傍晚前回萬丹吃「王品羊肉爐」,用完餐後回家。

-----



-----

原本預計九點半出發,十一點約萬丹國小門口,應該蠻有餘裕的,結果早上回一個訊息,延到九點五十出門,有點趕,但幾乎趕上了。

一、文字門

繞過萬丹紅豆餅(黃),來到文字門。賣水果的阿姨問我找什麼,我說在大門等同學,她說大門還要再過去,我才知道文字門不是大門。我們在玄關碰面,小聊一陣後,同學建議先去參觀萬惠宮。

二、萬惠宮

萬惠宮供奉媽祖,因此入殿後先看到千里眼跟順風耳。同學引導我觀看兩邊分別由台灣跟唐山的技師比賽的不對稱設計,之後到外面參觀媽祖手接的炸彈。聊了好一陣,不過主要是聊另一位同學的風風雨雨,令人感慨,在此不提。

三、鼎昌號

由於到萬丹時已近中午,同學帶我到鼎昌號吃拉麵,主要的好處是,有冷氣。鼎昌號在屏東、萬丹、潮州都有分店。拉麵的量還好,算好吃,套餐的甜點跟紅茶也不錯。比較有意思的是有個小朋友問我跟朋友是不是住在這間店裡面,大約是因為看我們穿著車衣很怪異吧。我們在鼎昌號聊什麼呢?就是閒聊,還是以享受美食為主。出門時腳踏車沒倒,但快拆卻鬆掉了,應該是被推倒過。但快拆鬆掉我覺得還是很可疑的,因為原來快拆很緊。

四、大學路

餐後同學建議到竹田火車站參觀池上一郎文庫,我現在終於想起來這是午餐的話題之一。萬丹繼續深入內陸主要有兩條路線,大學路東北往竹田、內埔。縣 189 東南往潮州。下次到潮州應該是 88 轉 189。路右手邊路過墳地有許多墓碑,比較特別的是上面還有記錄第幾世,客家人的習慣。大學路是因為之前據說之前輔英科技大學本來要遷校,後來沒有,但路名已經改了,地圖上是看不到有大學在此的。

五、泰美親子圖書館

快到竹田火車站時,會先路過特殊建築物,純藍的泰美圖書館,我問泰美跟泰國有沒有關係?或者跟原住民有沒有關係,其實後來查了一下原先紀念捐贈者的父母親,後來改成紀念捐贈者夫婦泰先生跟美女士。裡頭館藏還有巴洛克與蕭邦,比較特殊。這個只有路過沒有進去。

六、池上一郎文庫

日文藏書很豐富,是之前網路上查到,竹田一開始吸引我的地方。可惜當天只開放到早上。另外據說已經沒什麼人在借日文書,上萬冊的日文書能看的老先生老太太越來越少,很可惜。已經變成景點而不是原來的圖書館功能了。

七、驛前大和頓物所咖啡

改建的咖啡廳頗特別。有點像溫室,不過溫室裡面放冷氣讓人喝咖啡,溫室外的熱帶植物還是享受太陽。竹田站在連假第三天觀光客不多,但咖啡廳卻是坐滿人,還好剛好有位子,我們在裡面坐了很久。同學就聊起他高中、大學、退伍後開補習班、後來到萬丹國小教書廿年,帶學生參加比賽、管教學生的原則。有全班讀書心得比賽第一名去跟吳寶春先生吃飯,台北到台大比賽找不到計程車等趣事。退休後要找一些朋友自己辦一個養生社區等事。接近傍晚時,我們決定離開,先往南看看能不能沿著高架鐵路下的路線騎到潮州車站。

八、如記食品

騎一段後,鐵路下已經不能騎。往前是小路往右較寬,我們決定往右,馬上看到此路不通的標記。其實我後來看地圖,往前是有路的。繞了一小段,經過如記食品,同學也是第一次路過,他說不少年輕人會在此處打工。「主要產品為米血糕,目前也是國內唯一米血糕經 CAS 認證的廠商」是查到的資料。旁邊確實有看到養鴨場。

九、阿國臭豆腐

我念念不忘的是排名第二的阿國臭豆腐。因為第一的萬丹紅豆餅幾天前吃過了。我們聊一下泡菜,我家後面巷子有一家賣臭豆腐的,我看過他們製作泡菜的過程,很恐怖。跟同學討論後,決定還是去品嚐一下。路過一家三合院,年代不是太久,維持的還是相當好。阿國臭豆腐平常都是爆滿,我們運氣不錯,等我們離開時,人潮已經多了起來。大比小划算。不過我們稍後晚餐是王品羊肉爐,所以點小吃個氣味而已。

十、王品羊肉爐

四點半開始,我們到時,排隊外帶的人已經不少了。由於稍後我還要騎車回高雄,所以晚餐早一點吃。由於有過註冊糾紛,王品的品,在招牌上已經看不見了。這間羊肉爐還有特別之處,羊是自己牧場養的,目前牧場由女婿退回去經營,店裡面則是老闆的小兒子三十歲左右負責現場的接待。同學很熱情地點了很多,不一一介紹,只能說都很好吃,是我吃過最新鮮最好吃的羊肉爐,最後也沒吃完,同學打包帶回家。就這樣,排名前三的萬丹美食,都經歷過了。

-----

回到家前,又開始飄雨,回到家後,雨勢大了起來。由於一天下來的訊息量實在超多,難以消化成文章,隔了幾天,最後以先記下地點,然後流水帳的方式記錄了一個比較特別的中秋節假期。

萬丹之旅到此告一段落。目前繼續安排的是潮州,只是潮州大概都要一天才能來回,排週末登山車比較適合。週間若要騎車運動,也許就是大寮鄉北段跟大寮鄉南段,上午兩小時的公路車。

繼續動吧!

-----

文字門 萬惠宮 鼎昌號 大學路 泰美親子圖書館 池上一郎文庫 驛前大和頓物所咖啡 如記食品 阿國臭豆腐 王品羊肉爐

萬丹(三):王品羊肉爐

 萬丹(三):王品羊肉爐

2021/09/21

-----


https://pixabay.com/zh/photos/avenue-trees-series-wanderer-away-4287306/

-----


-----

References


[1] 王羊肉爐】萬丹人氣爆棚咖哩羊肉爐,屏東冬天天冷吃羊肉爐首選就是他!

https://etaiwan.blog/913-hot-pot-02/

-----

Saturday, September 18, 2021

高雄小旅行(五):萬丹紅豆餅(黃)

高雄小旅行(五):萬丹紅豆餅(黃)

2021/09/18

一大早公路車上路,回程上演一段驚魂記,還好有驚無險。

-----




-----

上個月冒險前往萬丹四次。第一次到高屏溪就停了,第二次蹺班去吃素食,第三次越過高屏溪,第四次入鄉探路。說是冒險,其實是誇大了。不過,騎著沒有快拆的腳踏車,帶備胎也沒有用,萬一爆胎,也是個麻煩。

前天整理好公路車,今天一大早上路。太久沒騎,雖然還記得怎麼騎,但是支撐身體的肌肉都已經跟經常騎的狀態不同了,去程還好,回程不僅屁股很痛,也覺得全身快散了。

沒有特別努力騎,但公路車就是讓人輕鬆不了,腳要不停的踩,速度稍慢就有要失去平衡的感覺。不知這是不是錯覺。好處是彎腰騎腳踏車的時候,看路邊的視野又不同了。路邊是高屏,跟新竹雖然差很多(其實都還是在台灣),但有一種在新竹騎公路車的熟悉感。所以比買菜車(一般登山車)稍快的速度,很快抵達台 25 線萬丹的入口。同時看到一位車友右轉往東港方向。應該是條好路線。

八點半出門,到萬丹國小還不到十點。聞名已久的萬丹紅豆餅(黃)假日九點開始營業。「完全」還沒有人潮。所以立刻買到五種口味:紅豆、奶油、芋頭、芝麻花生、豆奶(紅豆奶油雙餡)。料好實在,餡咬下去就爆漿了。確實是吃過的紅豆餅數一數二好吃的。跟竹北那間,有的比吧。

萬丹適合當公路車路線的中繼站,因為有紅豆餅作為補給。鄉入口處也有加油站可以上廁所。如果跟同學問到飲水機,就更理想了。話說回來,地圖上看到不少廟,廟其實也都有廁所跟飲水機吧。紅豆餅雖然好吃,不知為何,覺得膩了,也許是因為一口氣吃了五個吧?總之,不同店家的紅豆餅,可以作為補給,等熟悉後,中繼站也許可以延伸到潮州或東港或屏東。

回程一路看到不少車友,也許他們都是一早更早就出發,目的地?很好奇。不過在過高屏溪,萬大大橋,快下橋處,碰到伸縮縫,不小心就爆胎了。因為快下橋了,有加油站,我就牽到加油站自行救援。備胎有帶,打氣筒買車時有一起買,之前雖然也只用過一兩次,但就是有備無患。我在加油站折騰了一陣子,還好前天已經練習過換胎,雖然迷你打氣筒沒有辦法打的很飽,但可以支持到回家就可以了。回程快到家時還遇到下雨,還好只有幾滴,到家後雨才大了起來。

水壺跟備胎都要重新準備了!

-----

Friday, September 17, 2021

高雄小旅行(四):萬丹 - 社皮

高雄小旅行(四):萬丹 - 社皮

2021/09/17

因應中秋節拜訪在萬丹的高中同學,本週先到萬丹的鄉間晃了一下。

-----


-----

一週兩次的運動,配合下雨,逮到時間就出門動一下。衛武營的跑步,本週是第二次,總算找到大部分是草地的路線,可以草地去,草地回。草地比較不傷腳,但如果速度不是太快,其實怎樣的地形都還好。但草地的地面起伏不定,比較有運動效果是真的。

另外中秋連假,其中一天約好同學進行腳踏車的半日遊。同學是在地人,究竟會帶我享受怎樣的美食?很令人期待。我先做了功課,紅豆餅、臭豆腐,是最有名的兩個。其實各一份,午餐大概就飽了。久沒見面的同學見了面聊聊天,才是重點。至於紅豆餅跟臭豆腐,一小時的腳踏車程,每次運動都可以順便一下的。

不過萬丹的探路之行還是出了點狀況,看路標提早就進入萬丹,然後繞路要到萬丹國小又遇到修路封閉。眼看在鄉間已經花了三十分鐘,所以回程就是三十分鐘加上原先經過大寮的一小時,九點從鳳山出發,回到家時已經是十二點了。

回家後,一時興起,終於將塵封已久的公路車與登山車換上備胎,然後出門繞繞。肌肉的記憶還在,讓我想到前一陣子看的韓劇,學芭蕾舞也是要用身體記憶的。只是真的已經太久沒騎公路車,彎腰下去的時候,背部覺得有些僵硬。

至於為何這麼久沒騎公路車,原因大概可以說是都在跑步吧。用到的肌肉沒有完全一樣。接下來週間的計畫是公路車跟跑步各一次。時間不用太長。週末則是可以騎登山車,以較悠閒的方式在屏東與高雄的鄉間晃一整天。

直接騎公路車一整天也是可以的,不過先探探路,還是比較保險的。

-----

Wednesday, September 15, 2021

萬丹(二):阿國臭豆腐

 萬丹(二):阿國臭豆腐

2021/09/15

-----


https://pixabay.com/zh/illustrations/random-rectangle-pattern-2403426/

-----

「萬丹在地的紅豆餅,其中最出名的就是【黃萬丹紅豆餅】,除了紅豆餅外,【王羊肉爐】、甜點店【走走甜點】、【阿國臭豆腐】。」[1]。


「芋頭、芝麻和奶油口味的也是飽滿,冷了後還是很好吃。現在因為塑化劑我都不敢說那到底是不是真的什麼材料了,但是我想這家應該也沒必要偽裝口味吧!」[2]。


「這間比較不像是很臭的臭豆腐,就是炸豆腐加上台式泡菜。不過醬油淋上去還是讓人回想起之前都會在巷弄叫賣的臭豆腐攤販,那油炸的味道和邊邊酥酥的口感。」[2]。


「阿國臭豆腐所使用的豆腐完全沒有經過發酵,所以不會有臭味,雖然聞不到臭豆腐該有的臭味,吃起來卻無敵美味。」[3]。


「我無法分出到底是阿國臭豆腐最好吃,還是花蓮玉里橋頭臭豆腐最好吃,兩家真的都超棒的,會令人想念的等級喔!」[4]。


「行程是這樣的:任家涼麵、阿國臭豆腐、萬丹紅豆餅、潮州燒冷冰。 」[5]。冠成四川成記涼麵。

-----


References

[1] 阿國臭豆腐】萬丹不能錯過的在地人氣美食,只有台灣人才懂得臭香好滋味!

https://etaiwan.blog/913-stinky-tofu/


[2] 【食記】阿國臭豆腐 @ 高雄食記大冒險 - 尋找在地高雄美食 :: 隨意窩 Xuite日誌

https://m.xuite.net/blog/ca062/blog/30575149


[3] 屏東-萬丹紅豆餅/阿國臭豆腐 @ 多肉動物-以食物為座標的女人 :: 痞客邦 ::

https://sunyat.pixnet.net/blog/post/34129975


[4] 【屏東美食】萬丹阿國臭豆腐/外酥脆、內軟嫩保證一吃就上癮的銅板美食 | Follow me to trip

https://followmetotrip.com/pingtung-aguo-choudoufu/


[5] [食記]屏東-萬丹 阿國臭豆腐專賣 一吃成主顧 @ 小米Love World :: 痞客邦 ::

https://queen7627me.pixnet.net/blog/post/322254176

-----

Monday, September 13, 2021

萬丹(一):紅豆餅

 萬丹(一):紅豆餅

2021/09/13

說明:

屏東是台灣的農業大縣,除水稻外,紅豆是主要的經濟作物 [1]。50 年代開始,屏東開始種植台灣原生種紅豆 [2],後續又開發出 5、8、9、10 號 [3]. [4]。紅豆餅以萬丹紅豆餅(黃)評價最高 [5]。

-----


https://pixabay.com/zh/photos/cookies-macarons-sweetness-dessert-4053771/

https://zh.wikipedia.org/wiki/%E9%A6%AC%E5%8D%A1%E9%BE%8D

備註:法國馬卡龍,台灣紅豆餅。

-----

一、水稻、紅豆

「地形主要以平原為主,肥沃的土壤和豐沛的地下水源,使本鄉成為屏東縣境內的農產之鄉,像是水稻、紅豆、毛豆、苦瓜、絲瓜等,都是萬丹鄉農特產品的最大宗,廣闊肥沃的平原,翠綠的農作物覆蓋著美麗的大地,藍天綠野構成本鄉優雅純樸的景緻。」[1]。

二、台灣原生種

「屏東縣種植紅豆始於民國 50 年代,當時所播種的紅豆是台灣原生種,種子為來自嘉義阿里山的再來種紅豆,萬丹鄉民正式田間試種成功,不到三年,紅豆成為萬丹地區二期稻作後之裡作主要經濟作物,由花麗豆、十石(黃豆)、地瓜改種紅豆;因產量高、品質優,適於糕餅內餡,商機大,加上蓬萊米取代在來米,生長日數縮短,裡作期間長,更加適合種植紅豆。」[2]。

三、高雄 5 號、高雄 8、9 號

「高雄改良場為了使紅豆豆夾成熟整齊,豆葉要收成時能掉光以利機械採收,甚至改良顆粒大一點的紅豆,就由任職改良場的徐錦泉自日本引進顆粒較大的紅豆,和本土的原生種交配,變成高雄 5 號的紅豆,徐先生退休後就由興安村人陳萬得(民國 17 年次),義務自日本引進優質紅豆供改良場雜交之用,遂培育出高雄 8 號、9 號的新品種,也就是當下紅豆的主力品種。」[3]。

四、高雄 10 號

「紅豆屬秋冬作物,一般 9 月底進行定植,直到 2 月初收成後,可接續種植 1 期與 2 期稻作,但陳安茂寧願捨棄 2 期稻的收成,種植綠肥作物──田菁,休耕養地3個月之久。田菁的根系富含氮素,能增加土壤的氮肥與有機質。」[4]。

「陳安茂的自家紅豆有一個響亮名稱──久盛「鮮」紅豆,是少見的紅玉(高雄 10 號)品種,其豆子大、種皮薄、無豆澀味,最重要的是它活性高。相對地,煮熟速度快,且半年內豆子毋須泡水直接烹煮即可。」[4]。

五、萬丹紅豆餅

第一家:「老李」紅豆餅。

第二家:「萬丹市場」(陳) 紅豆餅。

第三家:「萬丹紅豆餅」(黃)。

第四家:新開張的「采風社」。

以上是 2011 年的資訊,不過在 2021 年這四家紅豆餅都還正常營業,訊息應略有更新。其中最受眾人推薦的是第三家「萬丹紅豆餅」(黃)。「萬丹出名的除了紅豆餅,其實還有另外二樣,一是阿國臭豆腐,一是王品現宰羊肉。」[5]。

-----

References


[1] 屏東縣萬丹鄉農會 -- 本會簡介

http://www.pwfa.org.tw/front/bin/ptlist.phtml?Category=7


[2] 屏東縣萬丹鄉農會 -- 紅豆產業簡介

http://www.pwfa.org.tw/front/bin/ptlist.phtml?Category=16


[3] 紅豆的故鄉-萬丹

http://chi.prhs.ptc.edu.tw/0_DATA/%E6%96%87%E5%AD%97%E7%85%A7%E7%89%87/102.11.4%E6%88%B4%E7%AB%B9%E7%AD%A0/101%E6%96%87%E5%8F%B2/101%E5%84%AA%E8%B3%AA%E5%8C%96/101%E5%84%AA%E8%B3%AA%E5%8C%96%E5%A0%B1%E5%B0%8E%E6%96%87%E5%AD%B8(%E3%84%A7%E5%B9%B4)/101%E5%A0%B1%E5%B0%8E%E6%96%87%E5%AD%B8%E5%BE%B5%E6%96%87%E6%AF%94%E8%B3%BD(%E3%84%A7%E5%B9%B4)/%E7%AC%AC%E4%B8%89%E5%90%8D-%E7%B4%85%E8%B1%86%EF%BC%91.doc


[4] 屏東久盛「鮮」紅豆 ,休耕養土,讓每一顆都頭好壯壯 - 主婦聯盟生活消費合作社 - 微笑台灣 - 用深度旅遊體驗鄉鎮魅力

https://smiletaiwan.cw.com.tw/article/2290


[5] 萬丹紅豆餅哪家最好吃? @ 莎士比豬的部落格 :: 痞客邦 ::

https://qwb612.pixnet.net/blog/post/291580748

-----

Saturday, September 11, 2021

高雄小旅行(三):萬丹

高雄小旅行(三):萬丹

2021/09/11

多年前的九一一,我在台北工作,當天還在加班工作吧,副總進來叫大家打開電視,電視上是雙子星大樓倒塌 ...

-----



-----

星期六早上下雨,沒有出門騎車,還好一週的運動計畫之前已經提前達成,騎一次、跑一次。

週間一天早上,還是決定出門騎一下腳踏車,是第二次出遠門,裝備多了袖套,避免曬傷,第一次的時候沒準備,有點曬傷。考慮了不少路線,最後還是原路線,沿著東西向 88 號下方的縣道 188,越過高屏溪,多騎了一點點,到了萬丹。

-----

萬丹真的是鄉下,一過高屏溪,就聞到濃濃的豬舍味道。高中有位同學要從萬丹來上學,並不確定他是否在學校附近租屋。特別有印象的原因是因為後來他也是大學的同校同學,畢業時還考上台大電機的研究所。同樣是高中同學又是大學同學的另一位則是申請到哈佛,後來成了有名的建築師。以上就是萬丹引起的一點回憶。地圖上我注意到的是萬丹紅豆餅,或許下次騎進「市區」碰碰運氣。

另一項運動是跑步。疫情關係附近的高中並不開放,好不容易等到微解封,真的是微解封,開放時間很短,已經不大適合運動。我只好就近在衛武營跑步。衛武營跑步這也是第二次,上次是一大圈,但是後半部沒有草地可跑,所以這一次是跑一半,還是沿著草地跑回程。至於草地,原則上草地(泥土)是最棒的,其次是 PU 跑道,其次是柏油路,最不適合的是水泥。這項訊息是參考之前的神人「小岡」的文章,以前我在清大跑操場時,經常會遇到小岡跑外圈的草地。其實去年還常常看到他。

疫情改變了很多人的生活,但還是一樣,面對疫情、接受疫情、處理疫情、放下疫情。疫情一直在,運動也還是一直要做的。不想出門帶著口罩運動,最終也還是變成出門帶著口罩運動了!

讓我想起另一句話,山不向你走來,你就向山走去!

-----

Tuesday, September 07, 2021

高雄小旅行(二):六度素食

高雄小旅行(二):六度素食

2021/09/07

上個星期六,法鼓山的果仁師兄,藉由回屏東之便,順道來高雄看我,我們原先約了在衛武營藝術中心小聚,不過行程有些耽擱,後來改成晚餐一起在六度素食,餐後聊到了九點才結束這次的聚會。

-----


2021/09/04

-----

果仁師兄是聖嚴法師的皈依弟子,經常會轉發法師的法語,我很喜歡看聖嚴法師的傳記,所以經常會過去按讚,這是我們前一段時間的互動方式。

這次師兄南下拜訪我,除了是一般的朋友聚會,主要還是義務幫忙生涯規劃諮詢。說是諮詢有點過於嚴肅,其實就是分享他的人生心得而已。

講了非常多的正面觀念,但核心就還是大家所熟知的,找到自己最想做的事。此外,從核心衍伸出來的,則是如何圓融自己的人生。圓融的部分,就有意思了。看似常見的時間管理,但作法上很有意思。工作、家庭、交友、健康運動、心靈、進修,這些常見的面向,他只問,一週花多少小時,自己滿不滿意。以上的時間,如果加上吃飯睡覺等基本的事,一週是否達到 168 小時。如果你很滿意的達到 168 小時,那你的人生也可以 168。如果離 168 小時很遠,那表示生命在空轉。簡單說,就是檢視自己的想法跟作法是不是一致。

六度素食地點在鳳山步校門口,老闆很性格,老闆娘廚藝很好。兩個人四菜一湯,價位在千元左右。不能算是很便宜的價位,不過素食很精緻很好吃。菜名也很有意思,一道苦瓜,叫做苦盡甘來。

-----

九點我們結束了第一次的會面。果仁師兄是個很棒的人,也是很平凡的佛教弟子。我從他身上學到的事情是,沒有完美的人,你多看人的好處,對方就展現出他好的一面。你經常挑剔對方的缺點,對方或許就也一直找你麻煩。我們兩人的交集可以說是聖嚴法師,因此我們的互動也就從欣賞對方的優點開始,是一個很好的緣起。

Sunday, September 05, 2021

Seq2seq(三):Illustrated

 Seq2seq(三):Illustrated

2021/08/13

-----


https://pixabay.com/zh/photos/stock-trading-monitor-business-1863880/

-----


Figure 1: Our model reads an input sentence “ABC” and produces “WXYZ” as the output sentence. The model stops making predictions after outputting the end-of-sentence token. Note that the LSTM reads the input sentence in reverse, because doing so introduces many short term dependencies in the data that make the optimization problem much easier.

圖 1:我們的模型讀取輸入句子“ABC”並生成“WXYZ”作為輸出句子。 模型在輸出句尾標記後停止進行預測。 請注意,LSTM 反向讀取輸入句子,因為這樣做會在數據中引入許多短期依賴關係,從而使優化問題變得更加容易。

# Seq2seq 1

說明:

重點在,「LSTM 反向讀取輸入句子,因為這樣做會在數據中引入許多短期依賴關係。」

-----


The Recurrent Neural Network (RNN) [31, 28] is a natural generalization of feedforward neural networks to sequences. Given a sequence of inputs (x1, . . . , xT ), a standard RNN computes a sequence of outputs (y1, . . . , yT ) by iterating the following equation:

ht = sigm(Whxxt +Whhht−1)

yt = Wyhht

The RNN can easily map sequences to sequences whenever the alignment between the inputs the outputs is known ahead of time. However, it is not clear how to apply an RNN to problems whose input and the output sequences have different lengths with complicated and non-monotonic relationships.

循環神經網路 (RNN) [31, 28] 是前饋神經網路對序列的自然推廣。 給定輸入序列 (x1, . . . , xT ),標準 RNN 通過迭代以下等式來計算輸出序列 (y1, . . . , yT ):

ht = sigm(Whxxt +Whhht−1)

yt = yt = Wyhht

只要提前知道輸入和輸出之間的對齊,RNN 就可以輕鬆地將序列映射到序列。 然而,目前尚不清楚如何將 RNN 應用於輸入和輸出序列具有不同長度且關係複雜且非單調的問題。

說明:

本段說明 RNN 無法處理複雜且長度不同的輸入輸出句。

-----


說明:

v 為輸入句壓縮成的向量,以此向量配合已輸出的 y,得到目標字。

-----


說明:

最大化目標函數。

兩個 S 符號不大相同,一個是來源句,一個是訓練集。

https://marssu.coderbridge.io/2020/11/21/sequence-to-sequence-model/

-----


3.3 Reversing the Source Sentences

說明:

假定預測的正確率與距離成反比。來源句與目標句、反轉來源句與目標句,其平均距離相等。但反轉來源句的翻譯效能比來源句的翻譯效能要好,因其短期依賴較多。

-----

beam search


說明:

B = 1 時,選取每個機率最大的字。

B = 2 時,選取兩個機率最大的字,兩個分支再繼續選機率最大的字。最後以機率總和較高者當成結果。

https://blog.csdn.net/guolindonggld/article/details/79938567

https://blog.csdn.net/dupei/article/details/104837244

https://hackernoon.com/beam-search-a-search-strategy-5d92fb7817f

-----


# BLEU

-----

Bilingual Evaluation Understudy 雙語評估替補。understudy 在戲曲界指的是候補演員。

一、modified n-gram(Pn)統計預測句的 n-gram 出現在參考句中的次數,但每個 gram 的次數不得超出參考句該 gram 的次數。舉例,輸出句有 7 個 the,參考句有 2 個 the,輸出句只能算 2 個正確,不能算 7 個正確。。

二、BP:短句比較容易得高分,所以加一個懲罰項。

-----


-----

BLEU 計算範例

candidate:Going to play basketball this afternoon ?(含標點符號字數為 7)

reference:Going to play basketball in the afternoon ?(含標點符號字數為 8)

P1 = 6/7 = 0.857...(Going to play basketball afternoon ?)

P2 = 4/6 = 0.666...(Going to, to play, play basketball, afternoon ?)

P3 = 2/5 = 0.4(Going to play, to play basketball)

P4 = 1/4 = 0.25(Going to play basketball)

r = 8

c = 7

BLEU = 0.423

-----

https://www.cnblogs.com/by-dream/p/7679284.html

https://blog.csdn.net/qq_42067550/article/details/105957469

https://tw.answers.yahoo.com/question/index?qid=20080619000016KK03830

-----


Table 1: The performance of the LSTM on WMT’14 English to French test set (ntst14). Note that an ensemble of 5 LSTMs with a beam of size 2 is cheaper than of a single LSTM with a beam of size 12.

表 1:LSTM 在 WMT'14 英語到法語測試集 (ntst14) 上的性能。 請注意,具有大小為 2 的光束(用來定向搜尋)的 5 個 LSTM 的集成比具有大小為 12 的光束的單個 LSTM 更便宜。

Table 2: Methods that use neural networks together with an SMT system on the WMT’14 English to French test set (ntst14).

表 2:在 WMT'14 英語到法語測試集 (ntst14) 上使用神經網路和 SMT 系統的方法。

說明:

statistical machine translation (SMT)。

--

ensemble:不同的初始參數設定,再將結果投票。

https://medium.com/allenyummy-note/nlp-seq2seq-2014-7c9c5a9841db

https://stackoverflow.com/questions/42837829/creating-ensemble-for-sequence-to-sequence-seq2seq-tensorflow-models

-----


Figure 2: The figure shows a 2-dimensional PCA projection of the LSTM hidden states that are obtained after processing the phrases in the figures. The phrases are clustered by meaning, which in these examples is primarily a function of word order, which would be difficult to capture with a bag-of-words model. Notice that both clusters have similar internal structure.

圖 2:該圖顯示了處理圖中短語後獲得的 LSTM 隱藏狀態的二維 PCA 投影。 短語按含義聚類,在這些示例中,含義主要是詞序的函數,這很難用詞袋模型捕獲。 請注意,兩個集群具有相似的內部結構。

說明:

LSTM 優於詞袋模型之處,是句子順序(內在結構)可以分辨出來。

左圖:Encoder 對字的順序與關係敏感。

右圖:Encoder 對被動式不大敏感(?)。

https://medium.com/allenyummy-note/nlp-seq2seq-2014-7c9c5a9841db

-----


Table 3: A few examples of long translations produced by the LSTM alongside the ground truth translations. The reader can verify that the translations are sensible using Google translate.

表 3:LSTM 生成的長翻譯和基準真相翻譯的一些示例。 讀者可以使用谷歌翻譯驗證翻譯是否合理。

說明:

一些長句的翻譯例子。

-----


Figure 3: The left plot shows the performance of our system as a function of sentence length, where the x-axis corresponds to the test sentences sorted by their length and is marked by the actual sequence lengths. There is no degradation on sentences with less than 35 words, there is only a minor degradation on the longest sentences. The right plot shows the LSTM’s performance on sentences with progressively more rare words, where the x-axis corresponds to the test sentences sorted by their “average word frequency rank”.

圖 3:左圖顯示了我們系統作為句子長度的函數的性能,其中 x 軸對應於按長度排序的測試句子,並由實際序列長度標記。 少於35個詞的句子沒有降級,最長的句子只有輕微降級。 右圖顯示了 LSTM 在越來越少見的詞的句子上的表現,其中 x 軸對應於按“平均詞頻等級”排序的測試句子。

說明:

左圖:大部分句子越長翻譯的越好。右圖:越不常出現的字翻譯的越差。

-----


# Seq2seq 2。

說明:

與 Seq2seq 1 不同之處在於 Seq2seq 2 在每個輸出都多參考了 context 向量 c。此外 Seq2seq 2 使用簡化的 LSTM,也就是 GRU。

-----


# Seq2seq 2。

說明:

ht 參考了 ht-1、yt-1、c 的資訊。

-----

References

# RCTM。被引用 1137 次。

Kalchbrenner, Nal, and Phil Blunsom. "Recurrent continuous translation models." Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013.

https://www.aclweb.org/anthology/D13-1176.pdf


# Seq2seq 1。被引用 12676 次。

Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014.

http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf


# Seq2seq 2。被引用 11284 次。

Cho, Kyunghyun, et al. "Learning phrase representations using RNN encoder-decoder for statistical machine translation." arXiv preprint arXiv:1406.1078 (2014).

https://arxiv.org/pdf/1406.1078.pdf


# BLEU

Papineni, Kishore, et al. "BLEU: a method for automatic evaluation of machine translation." Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 2002.

https://www.aclweb.org/anthology/P02-1040.pdf

-----