TL;DR

イラスト生成を行う際に、画風(style)と内容(content)に関してdisentangleさせる。

論文：

公開コード：

既存研究との比較

Neural style transfer
- Image Style Transfer Using Convolutional Neural Networks (CVPR 2016)
  - ランダムノイズの画像を更新していく。この際、CNNの各レイヤーでの中間表現をstyle画像、content画像のそれと比較し、よりよくマッチングするように更新していく。
- このようなアプローチは中間表現のマッチングに頼っており、そのような事前に用意された特徴量を用いてはドメイン特有なstyleの情報を十分semanticに捕らえられないと指摘。
Image-to-Image translation
- Image-to-Image Translation with Conditional Adversarial Networks (CVPR 2017)
- CycleGANやDualGANなどが属するアプローチ。
- ドメイン特有なstyle情報を学習できるが、このようなアプローチはstyleの種類が非常に多い場合にスケールしないと指摘。
- 提案手法は複数のstyleに対して一つのネットワークで対応する。

styleのみがラベル付けされていてcontentがラベル付けされていない設定で、それぞれの要素をdisentangleし別々に制御できるような生成モデルを学習する問題設定として扱う。

styleのラベルはアーティストのラベルによって近似する。

Generative Adversarial Disentangling Networkを提案
- 2段階の手法
  - Stage 1: style-independent content encoderの学習
    - style情報ができるだけencodeされないようにしたい。
    - 実験の結果、通常のencoder-decoderの再構成誤差に、潜在表現からのアーティスト予測器の損失が悪くなるような敵対的な項を加えただけでは十分style情報を除くことができなかった。
    - 代わりに、encoderからの潜在表現でアーティストを予測させる代わりに、異なるアーティストstyleで生成させた画像から分類させるように変更
    - - 画像間の距離はピクセルごとのRGBベクトルのL2距離の平均
  - Stage 2: auxiliary classifier GANsに基づくdual-conditional generatorの学習
    - encoder $E$ , generator $G$ , style function $S$ はstate 1のもので初期化。
    - Discriminatorの損失
      - を用いて
      - $\min_D \mathcal{L}_{D-real}+\mathcal{L}_{D-fake}$
    - Classifierの損失
      - このclassifierはstage 1のものとは異なる。またclassifierとdiscriminatorには別々のネットワークを用いる。
      - $NLU(y,i)=-\log (1-y_i)$ はnegative log-unlikelihood
      - これらを用いて $\min_{C_2}\mathcal{L}_{C_2-real}+\mathcal{L}_{C_2-fake}$
    - Generator, Style encoderの損失
      - これらとstage 1と同様のKLダイバージェンスによる正則化項を用いて