論文紹介: Disentangling Style and Content in Anime Illustrations

TL;DR

イラスト生成を行う際に、画風(style)と内容(content)に関してdisentangleさせる。

論文:

https://arxiv.org/abs/1905.10742

公開コード:

https://github.com/stormraiser/adversarial-disentangle

既存研究との比較

  • Neural style transfer
    • Image Style Transfer Using Convolutional Neural Networks (CVPR 2016)
      • ランダムノイズの画像を更新していく。この際、CNNの各レイヤーでの中間表現をstyle画像、content画像のそれと比較し、よりよくマッチングするように更新していく。
    • このようなアプローチは中間表現のマッチングに頼っており、そのような事前に用意された特徴量を用いてはドメイン特有なstyleの情報を十分semanticに捕らえられないと指摘。
  • Image-to-Image translation

提案手法

styleのみがラベル付けされていてcontentがラベル付けされていない設定で、それぞれの要素をdisentangleし別々に制御できるような生成モデルを学習する問題設定として扱う。

styleのラベルはアーティストのラベルによって近似する。

  • Generative Adversarial Disentangling Networkを提案
    • 2段階の手法
      • Stage 1: style-independent content encoderの学習
        • style情報ができるだけencodeされないようにしたい。
        • 実験の結果、通常のencoder-decoderの再構成誤差に、潜在表現からのアーティスト予測器の損失が悪くなるような敵対的な項を加えただけでは十分style情報を除くことができなかった。
        • 代わりに、encoderからの潜在表現でアーティストを予測させる代わりに、異なるアーティストstyleで生成させた画像から分類させるように変更
        • f:id:ronwall1701:20210501170022p:plain
          • 画像間の距離はピクセルごとのRGBベクトルのL2距離の平均
      • Stage 2: auxiliary classifier GANsに基づくdual-conditional generatorの学習
        • encoder E, generator G, style function Sはstate 1のもので初期化。
        • Discriminatorの損失
          • f:id:ronwall1701:20210501174609p:plain を用いて
          • \min_D \mathcal{L}_{D-real}+\mathcal{L}_{D-fake}
        • Classifierの損失
          • このclassifierはstage 1のものとは異なる。またclassifierとdiscriminatorには別々のネットワークを用いる。
          • f:id:ronwall1701:20210501175210p:plain
          • f:id:ronwall1701:20210501175255p:plain
            • NLU(y,i)=-\log (1-y_i) はnegative log-unlikelihood
          • これらを用いて \min_{C_2}\mathcal{L}_{C_2-real}+\mathcal{L}_{C_2-fake}
        • Generator, Style encoderの損失

実験

Danbooruにおいて一人のアーティストのラベルしか付いていないイラストから既存の顔抽出ツールにより顔検出。

少なくとも50枚の顔画像を持つアーティストのみを残した。

  • 最終的に106Kの画像と1139人のアーティストがデータセットに含まれる。

f:id:ronwall1701:20210502072200p:plain
生成結果(論文から引用)。一番上の2行はターゲットとしたアーティストのイラスト例。その下は、それぞれの入力イラストに対する提案手法、StarGAN、neural styleによる生成画像。

結果に関するその他コメント

  • content情報を256次元のベクトルに圧縮してしまう提案手法より、解像度が比較的高い潜在表現を保持するStarGANの方が細かいディテールは保持されている。
    • しかし提案手法のようなアプローチはcontentのランダムサンプルが可能な点で強み