2024-03-17から1日間の記事一覧
はじめに 大規模言語モデル (LLM)の性能評価を行う際に、「モデルAとモデルBのどちらの出力の方が望ましいか?」というペアワイズな評価を収集してモデルの性能を比較することが増えています。 その代表例はChatbot Arena (https://huggingface.co/spaces/…
はじめに 大規模言語モデル (LLM)の性能評価を行う際に、「モデルAとモデルBのどちらの出力の方が望ましいか?」というペアワイズな評価を収集してモデルの性能を比較することが増えています。 その代表例はChatbot Arena (https://huggingface.co/spaces/…