NN系機械翻訳の調査 - 1488078436

20：karino2：2017/02/28(火) 21:56:41: そろそろTensowflowとは何かを学んでおくか、という事で公式のGetting started読み始め。

https://www.tensorflow.org/get_started/get_started

別に使う気は無くてattentionモデルがどの位分散しそうかが理解出来るようになるのが目的なので、計算モデルのあたりに集中して調べたい。
21：karino2：2017/02/28(火) 22:46:03: 軽く眺めたらだいたい分かったからもういいや、という気持ちになった。
という事でついに最初の論文、 >>2 に戻る事にする。
22：karino2：2017/02/28(火) 23:28:23: 4の冒頭くらいまで読んでみた。さすがに大分理解度は増している。
3のstacked layerの解説の所で[31]は読んだ方が良さそう。
3.1の最後の方でresidualなコネクションがレイヤー数増やすのに有効という話が[45]であるらしい。
これもDeep Learningとか勉強するなら読む価値はある気がする。

4のWordpiece Modelは結構大切そうなので[35]を読むのが良さそう。[38]でそのNMTへの応用の話があるらしいのでこちらも見ても良いかも。
先に進む前に[35]を読むかな。
23：karino2：2017/03/01(水) 19:32:32: うーむ、[35]の論文読んでたが、全然分からん。
word inventoryを作ってる所の操作あたりから何をやってるのかいまいちしっかり書いていない気がする。

あとから説明が出てくるのかなぁ、と少し読み進めたがそのまま先に進んでしまっているし。
似ているとの記述がある[38]の方読むかなぁ。

[38]
https://arxiv.org/abs/1508.07909
Neural Machine Translation of Rare Words with Subword Units
24：karino2：2017/03/02(木) 01:48:24: いまいちBPEのアルゴリズムを正確に理解した、とは言い切れないが、だいぶ[35]よりは分かった。
unknownな単語は何らかの方法でsub wordに分割して翻訳する訳だ。
どう分割するかはいろいろあるが、ようするに語源とかを元に意味を類推するのに近いのだろう。

sub wordをトレーニング時に作るのかとかはいまいち良く分からなかったが、その辺は最終的なシステムがどうなっているのかを見る時に調べられるからいいか。
25：karino2：2017/03/02(木) 02:02:18: >>2 の論文に戻って5のTraining Criteriaまで読んだ所で、objective functionが単なる尤度では無いという話が。
良く分からないが[34]に書いてあるらしい。読むか。

[34] https://arxiv.org/abs/1511.06732
Sequence Level Training with Recurrent Neural Networks
26：karino2：2017/03/03(金) 01:41:25: 3.2.1くらいから全然分からないなぁ。
これは強化学習を別途学んでおく必要がありそう。

ただ、単語一つを生成してトレーニングするのではなく文を生成させてBLEUでロス関数を作らないとまずい、という主張は良く分かる。
ちょうど以前似たようなトレーニングと実際の問題設定の違いでリコメンドがうまく行かない、という現象に実務でぶちあたった事があるので。
27：karino2：2017/03/03(金) 01:44:39: 元のGoogleTranslateに戻ると、（8）は理解出来るようになっていた。
rはBLEUとかのスコアで求める報酬だね。
GoogleTranslateではGLUEという変形した物を使っているとか。
まぁそこは重要では無かろう。

と言う訳で5は理解出来るようになっていた。
これで十分か。6に進もう。
28：karino2：2017/03/03(金) 02:16:31: 6、LSTMのc の精度を絞る！
これは細かいチューニングだなぁ。
いかにもプロダクションらしい良い話だね。

7章の枝狩りとかも面白いね。全部理解出来た訳でも無いが、cpで翻訳漏れをなくすのと、尤度が長いセンテンスほど低くなるのでなんかノーマライズしたい、というのは理解出来るから、まぁいいか。

8章は読まなくてよかろう。
29：karino2：2017/03/03(金) 02:19:04: 以上で一通り基本的な部分は理解出来た気がする。
まだ実際のニューラルネットのアーキテクチャというかどう多層化してるか、とかはそんなにしっかり消化出来てる気はしないが、まぁそこは些細な問題だろう。

大分GoogleTranslate世代の翻訳は理解出来た気がする。
なかなか面白いね。2015年あたりから一気に進んだなぁ。
30：karino2：2017/03/13(月) 20:53:26: word embeddingsのその後のレビュー的なブログ。

http://sebastianruder.com/word-embeddings-1/index.html
On word embeddings - Part 1

詳しく書けていて素晴らしい。