雑談 - 1436278236 - したらば掲示板

雑談

1：karino2：2015/07/07(火) 23:10:36: 雑談スレッドです。要望、その他なんでも。
2：karino2：2015/07/14(火) 13:05:58: リンクが多すぎると「NGワードが含まれています」と出て書き込み出来ない模様。
3：karino2：2017/08/09(水) 20:24:12: 対応するスレが無いのでここで。

次は
Learning Cross-modal Embeddings for Cooking Recipes and Food Images を読む。
4：karino2：2017/08/09(水) 20:26:11: 3.1 ingredientの扱い、bi directional LSTMでlogistic 回帰するって具体的には何をやるのだろう？
5：karino2：2017/08/09(水) 20:29:19: skip thoughtって知らないなぁ。あとで9は読まないとなぁ。
テキスト側はいまいち具体的に何やってるか分からんなぁ。
6：karino2：2017/08/09(水) 20:52:49: 4章の方が具体的な事が書いてあるな。
ingridientsをbi directional LSTMでエンコードする、とある。
auto encoderで自身の材料を生成してあてるのかな。
画像は普通のVGG16やResNetのbottleneckでベクトル化するっぽい。

そしてこの2つのベクトルをそれぞれ別のWで一回線形変換かませて、2つのベクトルのcos距離が小さくなるようにWを学習する。
そしてペアが一致してない時はcosをなるべく大きくするように学習する。
一致しない側はn^2個ある気がするんだが、どうするのかは良く分からんな。適当にサンプリングするのか。

レシピ側のembedの計算方法はいまいち具体的には理解出来てないが、joint embedの所は何をやってるかは理解した。
7：karino2：2017/08/09(水) 20:57:34: 読む前から思ってたが、これなら同時確率じゃなくてCRF的な条件付き確率を直接生成させる方が良い気がするなぁ。
我々は幸いそういうデータ持ってる訳だし。
8：karino2：2017/08/09(水) 21:06:11: 5章の序盤は良くわからんが、次ページのClassificationの所に具体的な事が書いてある。
Lregの具体的な形書いてよ、ともおもうが、カテゴリカルクロスエントロピーとかその辺だろう。

トレーニングの所でc_rとc_vをどう回すかが良く分からんなぁ。
なんか全体的に肝心の所が書いて無くていまいちな論文に思うのだが…

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）