したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

NNの画像関係の調査

1karino2:2017/03/05(日) 22:04:03
お絵描きアプリとかで使うのに役に立ちそうな事を中心に読んで行こうかな、と。

まずはサーベイから。
https://arxiv.org/abs/1512.07108
Recent Advances in Convolutional Neural Networks

2karino2:2017/03/06(月) 01:14:10
途中まで読んだ所で、せっかくかった以下の本

https://www.amazon.co.jp/dp/B01B768QJW

の5章でCNNがあったのを思い出し、こちらを先に読む事に路線変更。

3karino2:2017/03/06(月) 12:40:56
5.2.3まで読んでCNNの基本を理解。
ガウシアンフィルタとかをGPGPUで計算するのはお仕事でやってたので、この辺の話は見れば分かる。
人生何が役に立つか分からんね。

5.2.4はまぁいいか。
で、5.2.5の学習もちらっと見た所普通のニューラルネットと同じだから読まなくても良さそうかなぁ。
5.2.6の入力画像の正規化の話はどういう正規化があるかだけななめ読み。

4karino2:2017/03/06(月) 13:03:11
5.3の画像識別の具体的な話は素晴らしい。
5.3.2でBoF表現にする、とあるが、これBoWと同じなら順番は気にしない訳だよね。
そんなのでオブジェクト認識が出来る、というのは非常に信じがたいが。
今ならword embedding的な手法になっていたりしないのかしら?

5karino2:2017/03/06(月) 13:48:37
5.3を一通り読んだが、けっきょくCNNで自分でこの問題解けるほど理解出来たか?というと出来ていないなぁ。
ただ、それでも結構理解は進んだ。
5.4も軽く眺めるくらいはしておくかなぁ。

6karino2:2017/03/06(月) 15:09:44
5.5.1の、教師無しの話がなかなか興味深い。
スパース自己符号化という物も理解しておく。
これで何か本質的な特徴のような物を学習しているように見える、というのは、word embeddingと似た話に思えるね。

7karino2:2017/03/06(月) 15:16:41
とりあえず基本は理解出来た気がするので、>>1 のサーベイ論文に戻ろう。

8karino2:2017/03/06(月) 16:41:56
3.2.2のmixed poolingでdrop outの話が出てきたので、教科書の方でdrop outを読む(4.4)
で、3.2.3あたりでpoolingは飽きてきたので名前だけ眺めて先に進む事に。
activationも名前だけ眺めて先に進む。

9karino2:2017/03/07(火) 00:59:43
バッチ正規化の話があったので、いい機会と本家の論文を軽く眺める。

https://arxiv.org/abs/1502.03167

地味にちょっと苦戦している。
2の前半でダメな例がダメなのは分かるのだが、バッチ正規化はこれをどう解決しているのだろうか?
2の前半でも正規化はしている訳で。

10karino2:2017/03/07(火) 01:20:52
よく分からなくなってきたので1からちゃんと読み直す。

11karino2:2017/03/07(火) 02:05:42
3の偏微分の式を見ると、シグマやミューの微分も計算しているな。
これが母集団全体によるヤコビアンの効果に相当しているんじゃないか。

https://youtu.be/gYpoJMlgyXA?list=PLkt2uSq6rBVctENoVBg1TpCC7OQi31AlC&t=3078

でもこちらの動画を見ると、単にネットワークを挟んでいるだけに見えるなぁ。
バッチ事に平均とかはずれるから、デルタbの効果が完全に消失してしまう事は無い気もするが。

やっぱり良く分からないな。
デルタbの効果が消えてしまう問題はある気がする。
分からない、という事をここに記して先に進もう。

12karino2:2017/03/07(火) 02:23:44
3.6.5のResNetは正確に理解はしてないが、まぁだいたいイメージは掴めるので必要になったら読めばよかろう。

で、4は4.2くらいで飽きてくる。
この辺は眺めるくらいで必要になったら読むでいいかなぁ。

5も興味ある所だけでいいかなぁ。

13karino2:2017/03/07(火) 02:27:36
5.4のpose estimationは下塗り自動生成とかやりたい時に参考になりそうで少し真面目に読む。
CRFとかMRFとつなげる話はだいたい想像がつくが、あんまり精度良く無さそうだなぁ。

5.7のaction recognitionは高度な中割自動生成をやりたくなった時には参考になりそう。
この辺は一通り読んでおいてもいいかもしれない。

14karino2:2017/03/07(火) 02:44:47
幾つか飛ばしたが一応読み終わり。
大分知識のアップデートは進んだ。

次はGAN周辺かなぁ。

15karino2:2017/03/07(火) 02:49:32
まずは原典から。

https://arxiv.org/abs/1406.2661

Generative Adversarial Networks

16karino2:2017/03/07(火) 02:51:43
adversarial 敵対的な

17karino2:2017/03/07(火) 21:16:26
4.1の(3)が分からない。

https://gist.github.com/karino2/7fe94db32b19d74b01707a00d1242cbf

とりあえず先に進むか。

18karino2:2017/03/07(火) 21:33:06
分かったヽ(´ー`)ノ

https://gist.github.com/karino2/af893b200a46bc72a56ceff1d25be477

19karino2:2017/03/07(火) 22:04:01
ようやくGANが何をやっているのか理解した。

1. p_dataは分からない
2. 適当な既知の事前分布p_zと、ニューラルネットGを用いて、
z〜p_z なzに対してG(z)の分布(これこそがp_g)がp_dataを近似するようにGをトレーニングする

こうして得られたGがあれば、p_zと併せてp_dataを近似したp_gが得られる訳だ。
いやー、こういう事か。全てが分かった。

20karino2:2017/03/07(火) 22:13:10
実際に画像を生成する所は良く分からないが、単純にピクセル数分だけoutputを用意するのかなぁ。
ここから先は実際に作ってみる方が早そうなので、とりあえずこの位にしてDeep版を読むか。

21karino2:2017/03/07(火) 23:58:18
ではお次はDCGANでしょう。

https://arxiv.org/abs/1511.06434
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

22karino2:2017/03/08(水) 00:30:06
3 APPROACH AND MODEL ARCHITECTURE
の所のSecond、が良く分からなかったので、リンク先を読む事にする。

https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html

23karino2:2017/03/08(水) 01:06:37
>>22 読んだし面白かったが…全然違う内容じゃね?

24karino2:2017/03/08(水) 01:33:55
少し論文の最後の方を眺めていたらword2vecっぽい事をやっているので、ここらでいい加減word2vec勉強するか、と思い始める。
確かこの前買った深層学習の本に載ってたよな。

25karino2:2017/03/08(水) 20:10:22
DCGAN読み終わり。応用がいろいろ興味深いが、モデルとしてはうまく行く寄せ集めを見つけた、という程度に見える。
それほど突飛な組み合わせでも無いので、同じ組み合わせを真似して使っておけばいいかな、とは思う。

26karino2:2017/03/08(水) 22:10:10
さて、一通り基本的な事は理解した。次はどうしよう?
とりあえず中割自動生成の路線を考えてみよう。

最初に読んだCNNのサーベイ論文にあった動画学習系の論文を読むと良さそう。

ただその前に、以前twitterとかに流れてた、静止画からちょっと先を生成する論文を読んでみるかな。

http://web.mit.edu/vondrick/tinyvideo/
Generating Videos with Scene Dynamics

これか。

27karino2:2017/03/11(土) 21:05:01
datasetはFlickerから取ってるのかぁ。
youtubeから出てるラベル済みデータセットの方が良さそうな気もするが。

そして結構前処理が面倒そうだなぁ。

28karino2:2017/03/11(土) 21:55:57
temporarlな要素は次元を一つ足して三次元静止画のように扱う、ネットワークはただのDCGANみたいなもの、という所。
将来のイメージの生成は中割自動生成とかなり近いので、loss functionは参考になる。
ただあまり新しい要素は無いですね。

29karino2:2017/03/11(土) 22:27:05
いい機会なので自動彩色も見てみるか。

初心者がchainerで線画着色してみた。わりとできた。
http://qiita.com/taizan/items/cf77fd37ec3a0bef5d9d

線画着色webサービスPaintsChainerを公開してみた
http://qiita.com/taizan/items/7119e16064cc11500f32

前者の方が中身の理解には良い。
ソースはトレーニング回りは公開されてないので、その辺は自分でやらないとダメそう。

https://github.com/pfnet/PaintsChainer

それにしてもびっくりする程そのまんまの構造で割とちゃんと動いていてびっくりするな。
モデルを使っている所はここっぽい。(バージョンは見てた時の最新版。深い意味は無い)。

https://github.com/pfnet/PaintsChainer/blob/df87c3f13a7857ce3314d4a906f66edbe13a0190/cgi-bin/paint_x2_unet/cgi_exe.py

img2imgDataset.pyとかは随分遅そうなコードだが、まぁデモなんでやっつけなんだろう。
色指定をどう組み込んでいるのか見たくて少しコードを見ていたが、どこか良く分からなかった。
もうちょっとしっかり読まないとダメか。

30karino2:2017/03/11(土) 22:43:57
少し読んでみたが、今そこまで真面目に読む事も無いかなぁ、という気がしてきた。
だいたい分かったし、別のに進むか。

31karino2:2017/03/11(土) 22:46:53
次は評判の良いTensorflowのコースの資料でも見てみるか(動画は無いらしい)。

CS 20SI: Tensorflow for Deep Learning Research
http://web.stanford.edu/class/cs20si/index.html

32karino2:2017/03/12(日) 03:59:53
Week2のスライドの半分くらいまで読んだが、素晴らしい。
numpy使いがハマりそうな所や類似点などをもとにスライドが作られているので、凄い良く分かる。
本家のGetting Startedよりもこっちの方がすぐ自分のやりたい事に取り掛かれる感じがする。

33karino2:2017/03/12(日) 18:01:11
2日目のスライド見終わり。

PlaceHolderとVariableの違いはいまいち良く分からなかった。
他はだいたい分かった。

次のLinear Regressionに進むかなぁ。

34karino2:2017/03/12(日) 20:11:28
これ、スレ分けるか。

35karino2:2017/04/26(水) 13:02:20
6月からGAN関連のバイトをする事になったので、その前に読んどけ、と先方に言われた論文とその周辺を読んで行く事に。
まずはW-GAN

https://arxiv.org/abs/1701.00160

これは結構話題を見るね。

36karino2:2017/04/26(水) 13:03:48
FBから自分の感想を転載。

W-GAN論文、一晩置いたら大分理解が進む。
criticはdiscriminatorになるのね。
一番違いを浮き立たせるような関数の期待値を求めて、その差を分布の距離とみなす。
その距離を最小にするように生成器を学習する、と交互に進める訳だ。
イメージとしては一次元に射影するなら、両者の違いがもっとも大きくなるような直線を探してそこへの射影の期待値、つまり射影の重心の距離を分布の距離とし、この直線にそってgeneratorを動かす訳だ。
これで平行の直線みたいな例で既存の距離がうまく行かない場合でも、Waserstein距離は一番大きく違いが見える所から見るから普通に距離が分かるというExampleの話も理解出来る。
Lipscitz constraintsを満たす為にwをクリッピングする、というくだりは関数解析やらんと分からんだろうが、他はだいたい理解出来たと思う。

37karino2:2017/04/26(水) 13:05:12
次はBEGANらしいが、

https://arxiv.org/abs/1703.10717

ちらっと読んだ所、この前にEBGANを知っておく方が良さそう。(ややこしい)
これかな。

https://arxiv.org/abs/1609.03126

38karino2:2017/04/26(水) 15:35:34
ざっとエネルギー周辺の話を見てBEGANに戻ってきた。
3.1の話は何を言っているか全然ついていけないな。
Lの定義はまぁいい。

中心極限定理がどうたらでimage-wiseなロスが正規分布になる、というのが分からない。
image-wiseというのはピクセルワイズなロスの総和って事?

そして多次元正規分布同士のWasserstein距離が論文の通りになる、とかも分からん。
なりそうな気もするけれど。

39karino2:2017/04/26(水) 15:42:47
Lというのはauto-encoderと元の値とのL1 normだ。
で、こいつを正規分布と仮定するとするという事かなぁ。

L(G(z))はG(z)で生成したピクセルをauto-encoderで自己符号化してG(z)とのL1 normをとる、という事か?
これらのL1 normが別々の正規分布に従う時、そのWasserstein距離の近似としてm1とm2の距離を使う、と言っているように見える。

なんか全然分からないな。

40karino2:2017/04/26(水) 16:40:17
だいたい分かった。
auto-encoderのパラメータをthetaDとした時に、このauto-encoderの学習を自己符号化の誤差を最小化するように学ぶ訳「では無い」というのがポイントだね。
auto-encoderは「実データと生成器のデータの自己符号化の誤差のWasserstein距離」を最大化するように学習する。
これが何を学習しているかはやや微妙だが、出来上がった物はある種のdiscriminatorとして使えるような自己符号化器な訳だ。

これが単にdiscriminatorを学習するより良いか?と言われると直感的には良く分からないな。
ただ、自己符号化器は生成器のデータ単体に適応出来て、実データ単体に適応した場合と誤差を比較する事で、auto-encoderと生成器のどちらが改善が必要かを判断出来る、という所が既存手法より優れている。
この評価により、どちらの学習を進めるべきかを定量的に判断出来る。

41karino2:2017/04/26(水) 16:46:23
お次はこれ。

https://arxiv.org/abs/1703.10593

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

42karino2:2017/04/28(金) 12:17:25
pix2pixはそのうち読んだ方が良いかもなぁ。

43karino2:2017/04/28(金) 12:52:54
次はちょっと入門に戻ってGANのチュートリアル

https://arxiv.org/abs/1701.00160

ここらでベースラインを上げておこうかな、と。

44karino2:2017/04/28(金) 13:59:57
iGANとか可能性を感じるな。

45karino2:2017/05/01(月) 11:35:37
3.2.1で練習問題7.1を解け、といわれて少し考えたが全然分からんかった。
うぅ、関数解析力が足りない…

https://gist.github.com/karino2/b489a3795588965a33555e26d0cf16c6

46karino2:2017/05/01(月) 13:48:12
3.2.3で生成器のコスト関数が13になるくだりが良く分からない。
最初に言ってるのは、識別器が賢くなりすぎると生成器が何を工夫しても完全に見分けてられてしまうのでgradが消失するから改善出来ない、という事だよな。
それは分かる。

…と次のページに解説があった。
なるほど、識別器が正解になる確率を最小化するのではなく、識別器の誤りの期待値を最大化するのか。

47karino2:2017/05/03(水) 15:04:46
さて、練習問題まで来た。
7.1は教えてもらってだいたい理解する。
7.2は回答を理解出来た。
7.3は32を微分する所が分からない。
期待値の為のpの方だけがthetaに依存するのだろうけれど、logはどこから来た?という。
たぶん積分変数をlog pとかに置換するんだよなぁ。

48karino2:2017/05/03(水) 15:14:27
出来たヽ(´ー`)ノ
https://imgur.com/AbCtBup.jpg

49karino2:2017/05/03(水) 15:30:23
GANチュートリアル読み終わり
お次はDeep Photo Style Transfer

https://arxiv.org/abs/1703.07511

50karino2:2017/05/06(土) 15:51:10
アフィン変換の項をコスト項としてはさむ事で線が歪んだりする事を防ぐ事で実写っぽくする、という事かな。
なんか改善してる場所が少ないので、あまり実装についての説明も無く、コード読め、という感じに見える。

とりあえず必要になったら読めば良さそうなので、まずは先に進もう。

51karino2:2017/05/06(土) 15:53:05
お次は超解像度。

https://arxiv.org/abs/1501.00092

52karino2:2017/05/07(日) 17:17:10
3.1を読んでるが、non-linear mappingといいつつどの辺がnon-linearか分からんな。
(2)式は線形に見えるが。

53karino2:2017/05/08(月) 10:38:24
3層のネットワークで割とシンプルでありながら結構な結果が出る、との事で、これは良い気がするな。
難しい事は大して無し。

54karino2:2017/05/08(月) 10:41:00
お次も超解像度。

Rapid and Accurate Image Super Resolution (RAISR)
https://arxiv.org/abs/1606.01299

55karino2:2017/05/08(月) 15:06:03
へぇ、これは省メモリと高速なのが売りか。
珍しいけど用途を考えるといいかも。

56karino2:2017/05/08(月) 15:14:09
超解像度は教師データが簡単に用意出来る所がいいね。
使いやすそう。

57karino2:2017/05/12(金) 19:56:58
sharpeningあたりで飽きてきたので一旦中断。
そろそろ実際に手を動かすかなぁ。

58karino2:2017/06/03(土) 08:23:54
流れてきたので貼っておく。読むかも。

Cramer GAN
https://arxiv.org/abs/1705.10743

59karino2:2017/06/04(日) 21:20:36
RAISRでも実装してみようか、と元の論文読み直してるが、いざ実装しようとかんがえると結構分かってない所あるなぁ。
ローカルのgrad出せるか少し不安。

機械学習のアルゴリズムの実装は、何をやるのかを理解してしまえば、それをやること自体は簡単なのだが、理解するのが大変なのだよな。
実際に実装する所までだけを見て「難しい数学とかいりません!」というのは、結局実務で自分で理解しないといけない時に困る事になるので、やっぱり嘘なんじゃないか。

TensorflowってpinvとかSVDとかあるのかしら?まぁあるか。

60karino2:2017/06/04(日) 21:41:53
お仕事の練習として、簡単そうな >>51 の方からやろうと思う。
ベンチマークとしても価値はあるだろうし。

61karino2:2017/06/04(日) 23:10:13
RAISRはlocal gradの話はこちらの論文を読む必要がありそう。

Multiscale Principal Components Analysis for Image Local Orientation Estimation (2002)
http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.12.9013

62karino2:2017/06/05(月) 21:32:23
全然理解出来ないが、理解出来ない所は結構絞られてきた。

1. local grad(G)の具体的な計算。
2. Wなんなの?

Gはようするに各ピクセルでのgradだから周辺のピクセルとの差か?平均値の定理みたいな感じで求まるもので良いのかもしれない。

Wは対角行列との事なので、なんだか知らんが大したものではなさそう。
separable normalized Gaussian kernelって何なんだろう…

63karino2:2017/06/06(火) 08:58:00
Wは対角成分しか無くて、対角成分がガウス分布だ、という事だよな。
separableというのは共分散が無いということで、非対角成分がゼロってだけか。
分布と言っても何を学習するのかいまいち分からんが。
muとシグマ?でもxが無いじゃん。

64karino2:2017/06/06(火) 09:05:30
分かった。対角成分がガウシアンフィルタになってればいいのか。つまりまんなかが大きくて両端が小さい定数。
シグマがいくつかは知らんが、まぁ適当でいいんだろう。

65karino2:2017/06/06(火) 09:28:08
一晩たったら意外とわかるようになってるな。
例えば5x5の周囲のピクセルを見て、差分の平均でgradを定義する。とりあえず結果は3x3で良いか。
するとnは9だよな。

で、どう並べるかは分からないがこれを一列に並べて、まんなかが中心になるようにしたのがG_kか。
これにガウスフィルタかまして積をとって、SVDする。
結果出た固有ベクトルの大きい方の角度がシータ。
固有値ラムダから(9)で定義されたmuが出て、これでハッシュのキーが出来る。

お、分かった気がする。

66karino2:2017/06/10(土) 11:37:39
最近実務で使うので、inceptionとres netの原典は読んでおくか、という気になる。

InceptionはGoing Deep with Convolutions.
https://arxiv.org/abs/1409.4842

67karino2:2017/06/10(土) 11:39:39
ResNetはこちら。

Deep Residual Learning for Image Recognition
https://arxiv.org/abs/1512.03385

最初に読んだサーベイ論文も見直してもいいかもね。

68karino2:2017/06/10(土) 13:25:24
Cramer GANの論文で紹介されてた、この本は良さそう。

http://www.springer.com/us/book/9781461448686
The Methods of Distances in the Theory of Probability and Statistics

この本やるかなぁ。

69karino2:2017/06/17(土) 08:49:48
上記本はあまりにも難しすぎて、とりあえず挫折。

関係ないがMobileNetsというのが話題になってたので軽く読むかなぁ。
https://arxiv.org/abs/1704.04861

70karino2:2017/06/17(土) 09:04:28
depthwise convolutionと1x1 convolutionをビルディングブロックとして、ハイパーパラメータでサイズを選べる、というのが売りらしい。
1x1 convolutionはInceptionのと同じと思われるが、depthwise convolutionとはなんぞや?

71karino2:2017/06/17(土) 09:15:54
depthwise convolutionは、式(3)を見ると単にチャンネル方向に一枚だけ適用していくフィルタに見える。
フィルタ数はチャンネル数に一致する時しか定義出来ないので、これをかました結果のチャンネル数は同じになる。

これではチャンネル同士の相互作用が拾えないが、それは1x1で拾う、という事らしい。

この2つを合わせて、depthwise separable convolutionというらしい。

72karino2:2017/06/17(土) 09:20:20
im2col要らない、とかはGoogleらしいな(笑)

73karino2:2017/06/17(土) 09:30:06
アルファの比率でチャンネル側の次元を削減する、とあるが、どうやって減らすのだろう?
3次元を二次元にする、とかは、線形補間かな?

74karino2:2017/07/31(月) 22:31:14
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
https://arxiv.org/abs/1609.04802

SISRのGANを使った版。SRGANという略称をつけてる。
ロスとしてはstyle transferを参考に、ネットワークの途中のフィーチャーのl2ノルムと、GANのdescriminatorを騙せなかった度合いの対数尤度(かな?6)の和をロスとする。

ネットワークは2.1に書いてある(generatorの方も2.1に書いてある)。
fig 4がそれ。

生成側はfeed forwardネットワークとしてVGGを使うと書いてあるが、res block解かskip connection がついているからResNetの亜種では無かろうか?
33, 24, 32, 28, 48の寄せ集めという感じで個々の論文見ないと良く分からないが、まぁコード読ませてもらう方が早そうな気もする。
まぁいい。

で、descriminatorも44に基本的にはしたがって49のカーネルも足してあるとか。

どちらもFig.4を見る限りは結構シンプルに見える。

75karino2:2017/07/31(月) 22:38:34
SRResNetというのが出て来るが、この元論文はどれじゃろ?実装の場所は分かるが、論文がどれか良く分からん…

76karino2:2017/07/31(月) 22:42:37
1.2. contributionを読むと、SRResNetも自分たちの貢献と言ってるからこの論文で作った物なのかなぁ。
これがどういう物なのか、いまいちちゃんと記述されてないが。

77karino2:2017/08/05(土) 14:30:28
次はSRGANの論文から参照されていた、Perceptual Losses for Real-Time Style Transfer and Super-Resolution を読む。
リンクは後で貼る。

78karino2:2017/08/05(土) 15:17:25
perceptual lossって単なる分類問題のボトルネックのユークリッド距離かよ!
そんなの普段からめっさ普通に使ってるやん…

79karino2:2017/08/05(土) 15:33:17
ロス関数以外はNNを使った普通のSuper-ResolutionとかStyle Transferの問題。
違うのはロス関数用に別のトレーニング済みモデルを使う所。
VGG16を使ってこっちはトレーニングはしない。
このモデルはfeature extractorとして使って、このfeatureのl2距離をロスとする。

シンプルだが汎用的なアイデアね。

80karino2:2017/08/06(日) 12:55:01
この論文はSISRとstyle transferの両方をカバーしている。
とりあえずSISRに絞ってメモをしていく。

SISRでは、普通のSRCNNでは最初にbicubiqでupsampleしてからsarpenしてたのを、このupsamplerもresblock並べてlog2f covolutionつなげた物を代わりに使うとの事。
確かにここも学習する方が良さそうだが、その場合low resのトレーニングデータはどう作るか良く分からんな。

81karino2:2017/08/06(日) 13:06:02
perceptual lossでVGG16を使うのは何故だろう?
style transferのケースでは間のレイヤー使いたいのでinceptionモジュールが都合悪い、というのは分かるが、SISRなら別にinception v3で良いんじゃないか?
3.2を読んでもいまいち理由が書いてない。

82karino2:2017/08/06(日) 13:18:22
>>81 4.2を見ると、relu2_2を使うらしい。
最後を使う訳じゃないのね。
これではinception v3じゃダメな訳だ。
Fig.2. でrelu3_3を使うのだと誤解してた。

83karino2:2017/08/06(日) 14:49:46
frobenius normは、要素の二乗和か。

https://ja.m.wikipedia.org/wiki/%E8%A1%8C%E5%88%97%E3%83%8E%E3%83%AB%E3%83%A0

84karino2:2017/08/06(日) 15:10:10
low resの作り方が一回ガウシアンかけてからbicubicする所がSRCNNと違うね。

85karino2:2017/08/06(日) 15:11:37
ネットワークの構造は良く分からんが、ダウンサンプラー以外はSRCNNと一緒かね。
トレーニングデータは大分多そうだが。
実装を確認してみたい所だが、割と簡単に試せそうなのでやってみたい気もする。

86名無しさん:2017/08/06(日) 15:58:12
>>77 論文のurl。
https://arxiv.org/abs/1603.08155

87karino2:2017/08/06(日) 19:28:43
次はこの Image Super-Resolution via Deep Recursive Residual Networkを読む。
https://twitter.com/yohei_kikuta/status/894107330760933377

>>74 もRes blockと同じweightのrecursionを使ってた気がするが。

88karino2:2017/08/07(月) 21:42:16
この論文はネットワーク構造が詳しく載ってて良いね。
実装出来そうな気がする。
ロスはpixel wiseな自乗誤差か。
画像は291枚ということでSRCNNよりちょっと多いが似たようなもの。

で、トレーニングは4日かかる、との事なのでこれもSRCNNと同じ感じやね。

89karino2:2017/08/07(月) 21:54:02
読み終わった。
全体的にSRCNNのネットワーク構造変えただけでセッティングはほとんど一緒ね。
試すのは簡単そうだけど、4日トレーニングにかかるからpercepual lossの方がいいかなぁ。

90karino2:2017/08/09(水) 22:11:44
>>74 をもうちょっとしっかり読み直し。
ジェネレータはRecursiveにはしてないResBlock重ねた物で、>>87 から参照されてた奴に見える。
で、最終的にはトレーニングしたジェネレータを使う訳ね。
LR版のパッチは拡大せずそのまま食わせるっぽい。
content lossはpeceptual loss。
discpiminaterは普通のCNNに見えるが、44に従ってるとか。

44はUnsupervised representation learning with deep convolutional generativa adversarial networks だそうで。
これは後で読もう。

91名無しさん:2017/08/09(水) 23:15:42
>>90 これ、オリジナルのDCGANの論文じゃん。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板