TL;DR
イラスト生成を行う際に、画風(style)と内容(content)に関してdisentangleさせる。
論文:
https://arxiv.org/abs/1905.10742
公開コード:
https://github.com/stormraiser/adversarial-disentangle
既存研究との比較
- Neural style transfer
- Image Style Transfer Using Convolutional Neural Networks (CVPR 2016)
- ランダムノイズの画像を更新していく。この際、CNNの各レイヤーでの中間表現をstyle画像、content画像のそれと比較し、よりよくマッチングするように更新していく。
- このようなアプローチは中間表現のマッチングに頼っており、そのような事前に用意された特徴量を用いてはドメイン特有なstyleの情報を十分semanticに捕らえられないと指摘。
- Image Style Transfer Using Convolutional Neural Networks (CVPR 2016)
- Image-to-Image translation
- Image-to-Image Translation with Conditional Adversarial Networks (CVPR 2017)
- CycleGANやDualGANなどが属するアプローチ。
- ドメイン特有なstyle情報を学習できるが、このようなアプローチはstyleの種類が非常に多い場合にスケールしないと指摘。
- 提案手法は複数のstyleに対して一つのネットワークで対応する。
提案手法
styleのみがラベル付けされていてcontentがラベル付けされていない設定で、それぞれの要素をdisentangleし別々に制御できるような生成モデルを学習する問題設定として扱う。
styleのラベルはアーティストのラベルによって近似する。
- Generative Adversarial Disentangling Networkを提案
- 2段階の手法
- Stage 1: style-independent content encoderの学習
- style情報ができるだけencodeされないようにしたい。
- 実験の結果、通常のencoder-decoderの再構成誤差に、潜在表現からのアーティスト予測器の損失が悪くなるような敵対的な項を加えただけでは十分style情報を除くことができなかった。
- 代わりに、encoderからの潜在表現でアーティストを予測させる代わりに、異なるアーティストstyleで生成させた画像から分類させるように変更
-
- 画像間の距離はピクセルごとのRGBベクトルのL2距離の平均
- Stage 2: auxiliary classifier GANsに基づくdual-conditional generatorの学習
- Stage 1: style-independent content encoderの学習
- 2段階の手法
実験
Danbooruにおいて一人のアーティストのラベルしか付いていないイラストから既存の顔抽出ツールにより顔検出。
少なくとも50枚の顔画像を持つアーティストのみを残した。
- 最終的に106Kの画像と1139人のアーティストがデータセットに含まれる。
結果に関するその他コメント
- content情報を256次元のベクトルに圧縮してしまう提案手法より、解像度が比較的高い潜在表現を保持するStarGANの方が細かいディテールは保持されている。
- しかし提案手法のようなアプローチはcontentのランダムサンプルが可能な点で強み