2024-03-17から1日間の記事一覧

ペアワイズな評価を用いたLLM性能比較：Bradley-Terryモデルとモデルペア動的サンプリング

はじめに大規模言語モデル（LLM）の性能評価を行う際に、「モデルAとモデルBのどちらの出力の方が望ましいか？」というペアワイズな評価を収集してモデルの性能を比較することが増えています。その代表例はChatbot Arena (https://huggingface.co/spaces/…