機械学習

ペアワイズな評価を用いたLLM性能比較:Bradley-Terryモデルとモデルペア動的サンプリング

はじめに 大規模言語モデル (LLM)の性能評価を行う際に、「モデルAとモデルBのどちらの出力の方が望ましいか?」というペアワイズな評価を収集してモデルの性能を比較することが増えています。 その代表例はChatbot Arena (https://huggingface.co/spaces/…

少ない画像データでGANを学習する ~Data-Efficient GANs with DiffAutment~

以下のレポジトリに公開されているコードを用いて数百枚程度の少ない画像でGANを学習できたので、二番煎じ感がありますが備忘録がてら手順を記事にしておきます。 github.com 環境 Ubuntu 20.04.3 LTS GPU: RTX 3090 Nvidiaドライバー: 460.91.03 Docker: 20…

自動着色データセット作成のためのイラストの線画+ベタ塗り化

最近自由研究でイラストの自動着色システムを開発しようと試行錯誤しています。 その過程で訓練データ用の線画やベタ塗りを抽出するコードを実装したので、メモ書きがてらご紹介したいと思います。 以下の前者のイラストを後者のような線画+ベタ塗りのイラ…

AutoPhrase: 人手による訓練データ作成不要でコーパスから用語を自動抽出する技術の紹介

概要 今回はテキストコーパスから用語を自動抽出する技術である、AutoPhraseを紹介したいと思います。 この技術の特徴は対象コーパスに対して人手アノテーションが不要であるという点です。 論文リンク: [1702.04457] Automated Phrase Mining from Massive…

論文紹介: Disentangling Style and Content in Anime Illustrations

TL;DR イラスト生成を行う際に、画風(style)と内容(content)に関してdisentangleさせる。 論文: https://arxiv.org/abs/1905.10742 公開コード: https://github.com/stormraiser/adversarial-disentangle 既存研究との比較 Neural style transfer Image St…

COCO Annotatorでアノテーションした自作データセットでSemantic Segmentationモデル(DeepLabv3)を学習する

ふとsemantic segmentationモデルを学習してみたくなったので、自作データセットのアノテーションからモデル学習までを既存ツールの組み合わせでやってみました。 備忘録がてら、手順をメモしておきたいと思います。 アノテーション アノテーションには COCO…

アニメ系イラストに対する機械学習研究や実装をまとめてみた

未来の自分のためにだらだらと見かけたものをメモしていこうと思います。 研究まとめ系 deeppomf/DeepLearningAnimePapers 2018年で更新が停止している? SerialLain3170/AwesomeAnimeResearch タグ分類 KichangKim/DeepDanbooru TensorFlow Danbooruから独自…

アニメキャラ識別データセットを作った話

TL;DR アニメキャラ識別のデータセットを作った 人間のエラー率13%に対し、ベースラインモデルは70%程度のエラー率にとどまっており改善の余地は大きい データセット作成の動機 以前metric learningで人間並みのアニメキャラ識別性能を目指す!の記事でアニ…

metric learningで人間並みのアニメキャラ識別性能を目指す!

はじめに 今回はmetric learningと呼ばれる技術を応用して、同じアニメキャラが写っている顔画像ほど類似度が大きくなるような特徴量空間を学習したいと思います。 この記事の内容は以前Qiitaで投稿した記事と同じプロジェクトをより発展させた(と思ってい…

学習済みspeaker embeddingの性能比較をしてみた

はじめに 皆さんは声優の声を分類したり比較したりしてみたいと思ったことはありませんか? 関連する技術として、話者認証(speaker verification)などの分野で、人の声が似ているかどうかを判断するためのベクトル表現としてspeaker embeddingを計算するモデ…