したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

NNの画像関係の調査

74karino2:2017/07/31(月) 22:31:14
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
https://arxiv.org/abs/1609.04802

SISRのGANを使った版。SRGANという略称をつけてる。
ロスとしてはstyle transferを参考に、ネットワークの途中のフィーチャーのl2ノルムと、GANのdescriminatorを騙せなかった度合いの対数尤度(かな?6)の和をロスとする。

ネットワークは2.1に書いてある(generatorの方も2.1に書いてある)。
fig 4がそれ。

生成側はfeed forwardネットワークとしてVGGを使うと書いてあるが、res block解かskip connection がついているからResNetの亜種では無かろうか?
33, 24, 32, 28, 48の寄せ集めという感じで個々の論文見ないと良く分からないが、まぁコード読ませてもらう方が早そうな気もする。
まぁいい。

で、descriminatorも44に基本的にはしたがって49のカーネルも足してあるとか。

どちらもFig.4を見る限りは結構シンプルに見える。

75karino2:2017/07/31(月) 22:38:34
SRResNetというのが出て来るが、この元論文はどれじゃろ?実装の場所は分かるが、論文がどれか良く分からん…

76karino2:2017/07/31(月) 22:42:37
1.2. contributionを読むと、SRResNetも自分たちの貢献と言ってるからこの論文で作った物なのかなぁ。
これがどういう物なのか、いまいちちゃんと記述されてないが。

77karino2:2017/08/05(土) 14:30:28
次はSRGANの論文から参照されていた、Perceptual Losses for Real-Time Style Transfer and Super-Resolution を読む。
リンクは後で貼る。

78karino2:2017/08/05(土) 15:17:25
perceptual lossって単なる分類問題のボトルネックのユークリッド距離かよ!
そんなの普段からめっさ普通に使ってるやん…

79karino2:2017/08/05(土) 15:33:17
ロス関数以外はNNを使った普通のSuper-ResolutionとかStyle Transferの問題。
違うのはロス関数用に別のトレーニング済みモデルを使う所。
VGG16を使ってこっちはトレーニングはしない。
このモデルはfeature extractorとして使って、このfeatureのl2距離をロスとする。

シンプルだが汎用的なアイデアね。

80karino2:2017/08/06(日) 12:55:01
この論文はSISRとstyle transferの両方をカバーしている。
とりあえずSISRに絞ってメモをしていく。

SISRでは、普通のSRCNNでは最初にbicubiqでupsampleしてからsarpenしてたのを、このupsamplerもresblock並べてlog2f covolutionつなげた物を代わりに使うとの事。
確かにここも学習する方が良さそうだが、その場合low resのトレーニングデータはどう作るか良く分からんな。

81karino2:2017/08/06(日) 13:06:02
perceptual lossでVGG16を使うのは何故だろう?
style transferのケースでは間のレイヤー使いたいのでinceptionモジュールが都合悪い、というのは分かるが、SISRなら別にinception v3で良いんじゃないか?
3.2を読んでもいまいち理由が書いてない。

82karino2:2017/08/06(日) 13:18:22
>>81 4.2を見ると、relu2_2を使うらしい。
最後を使う訳じゃないのね。
これではinception v3じゃダメな訳だ。
Fig.2. でrelu3_3を使うのだと誤解してた。

83karino2:2017/08/06(日) 14:49:46
frobenius normは、要素の二乗和か。

https://ja.m.wikipedia.org/wiki/%E8%A1%8C%E5%88%97%E3%83%8E%E3%83%AB%E3%83%A0

84karino2:2017/08/06(日) 15:10:10
low resの作り方が一回ガウシアンかけてからbicubicする所がSRCNNと違うね。

85karino2:2017/08/06(日) 15:11:37
ネットワークの構造は良く分からんが、ダウンサンプラー以外はSRCNNと一緒かね。
トレーニングデータは大分多そうだが。
実装を確認してみたい所だが、割と簡単に試せそうなのでやってみたい気もする。

86名無しさん:2017/08/06(日) 15:58:12
>>77 論文のurl。
https://arxiv.org/abs/1603.08155

87karino2:2017/08/06(日) 19:28:43
次はこの Image Super-Resolution via Deep Recursive Residual Networkを読む。
https://twitter.com/yohei_kikuta/status/894107330760933377

>>74 もRes blockと同じweightのrecursionを使ってた気がするが。

88karino2:2017/08/07(月) 21:42:16
この論文はネットワーク構造が詳しく載ってて良いね。
実装出来そうな気がする。
ロスはpixel wiseな自乗誤差か。
画像は291枚ということでSRCNNよりちょっと多いが似たようなもの。

で、トレーニングは4日かかる、との事なのでこれもSRCNNと同じ感じやね。

89karino2:2017/08/07(月) 21:54:02
読み終わった。
全体的にSRCNNのネットワーク構造変えただけでセッティングはほとんど一緒ね。
試すのは簡単そうだけど、4日トレーニングにかかるからpercepual lossの方がいいかなぁ。

90karino2:2017/08/09(水) 22:11:44
>>74 をもうちょっとしっかり読み直し。
ジェネレータはRecursiveにはしてないResBlock重ねた物で、>>87 から参照されてた奴に見える。
で、最終的にはトレーニングしたジェネレータを使う訳ね。
LR版のパッチは拡大せずそのまま食わせるっぽい。
content lossはpeceptual loss。
discpiminaterは普通のCNNに見えるが、44に従ってるとか。

44はUnsupervised representation learning with deep convolutional generativa adversarial networks だそうで。
これは後で読もう。

91名無しさん:2017/08/09(水) 23:15:42
>>90 これ、オリジナルのDCGANの論文じゃん。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板