[論文紹介#21]チャットボットアリーナ:人間の好みによるLLM評価のためのオープンプラットフォーム

本日の論文

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

この論文は、人間の嗜好に基づいて大規模言語モデル(LLM)を評価するためのオープンプラットフォーム「Chatbot Arena」を紹介し、その方法論や収集したデータの分析を行っています。

以下は、LLMを活用して論文の内容を要約したものになります。

要約

この論文では、大規模言語モデル(LLMs)の人間の好みに基づく評価を行うためのオープンプラットフォーム「Chatbot Arena」を紹介しています。このプラットフォームでは、ユーザーからの多様な入力を用いてペアワイズ比較を行い、効率的かつ正確にモデルの評価とランキングを実施しています。これまでに240,000以上の投票が集まり、専門家の評価とも高い一致を示しています。また、Chatbot ArenaはLLM開発者や企業に広く参照されており、業界のベンチマークとしての地位を確立しています。最後に、データとコードはオープンソースとして公開される予定です。

1. はじめに

大規模言語モデル(LLM)の進展は、従来の自然言語処理の枠を超えた新たな能力を開発しましたが、人間の好みに対する評価は依然として課題です。この論文では、LLMの評価方法を新たに提案し、静的な基準の限界を克服する必要があることを強調しています。現在の評価基準は、モデルの多様性や人間の好みを反映することが不十分であり、オープンでライブな評価プラットフォームの必要性が高まっています。

Chatbot Arenaは、ユーザーが質問を入力し、2つの匿名のLLMから回答を得る仕組みです。ユーザーは、どちらのモデルの応答が好ましいかを選んで投票します。この方法により、現実世界のアプリケーションに即した多様なプロンプトを収集し、モデルのランキングを統計的に評価するための基盤を提供します。プラットフォームは無料で利用可能であり、さまざまなLLMモデルが利用されています。

2. 関連研究

大規模言語モデル(LLM)に関する評価基準は、静的な真実に基づくものが一般的で、通常は選択肢問題や事前に定義された回答を用いるが、これらは多様な問題をカバーできず、特に人間の好みとの整合性を評価するのが難しい。最近の研究では、GPT-4を利用した人間の判断の近似や、年次試験やオンラインコンテストから得られる新しい質問を用いた動的ベンチマークが提案されているが、これらは特定の組織に限定されている。本論文では、オープンで大規模なクラウドソーシングによる評価プラットフォームであるChatbot Arenaを紹介し、動的な人間の相互作用を利用した評価基準を提案する。静的評価基準は、汚染や飽和、過剰適合などの問題を抱えており、実際のユーザーの好みと一致しない傾向があることが指摘されている。

2.1 LLMベンチマーク

一般的なLLMのベンチマークには、静的で真実に基づく選択肢問題や質問応答タスクが含まれ、様々なトピックをカバーしているが、これらの評価手法には限界がある。安全性に焦点を当てたベンチマークや、オープンエンドな質問が評価されるケースも存在するが、これらの多くは特定の組織内での使用に限られ、広範なアプローチが不足している。

2.2 静的ベンチマークのリスク

静的なベンチマークは、汚染や飽和、過剰適合、人間の整合性の欠如といった問題を抱えており、これらの課題を克服するためには、動的なベンチマークの使用が推奨されている。動的ベンチマークは、人間を含むフィードバックを取り入れることで、より現実的な評価が可能となる。

2.3 ランキングシステム

ランキングシステムは統計学において広く研究されており、確率モデルやランキングの引き出し、オンライン実験設計などが関連する。特にElo評価システムがLLMに応用されているが、本研究では、ランキングの収束を加速し、異常を検出する技術を導入することで、実世界の大規模な設定に適用することを目指している。

3. 人間の好みデータ収集

このセクションでは、私たちのインターフェース設計に関する人間の好みを収集する方法と、要約統計を示します。私たちの目標は、ユーザーがデータを提供しやすくする使いやすいインターフェースを設計することです。多くのユーザーからフィードバックを収集するため、一貫した評価基準を設定するのが困難です。そのため、ユーザーは単に2つのモデルの応答を比較し、優れた方に投票するペアワイズ比較メカニズムを採用しています。各バトルでは、2つの匿名モデルがサンプルされ、ユーザーはそれらに任意のプロンプトを入力できます。

3.1 インターフェース

Chatbot Arenaは、モデル評価のためにユーザーからフィードバックをクラウドソースします。ユーザーが応答を比較し、好みの回答を選択できるように、プロンプトは事前に設定されていません。これにより、ユーザーは多様な入力を収集し、実際の使用を反映するデータを効果的に集めることができます。モデルの応答を比較した後、ユーザーは「引き分け」や「どちらも良くない」といった選択肢も利用できます。

3.2 データ統計

2023年4月からデータ収集を始め、2024年1月までに約240K票を90K以上のユーザーから受け取っています。このデータには、GPT-4やClaudeなどの商用モデルと、LLaMAやMistralなどのオープンモデルが含まれ、100以上の言語にわたる会話が記録されています。データポイントには、ユーザーと2つのLLM間のマルチターン会話と、ユーザーが好むモデルを示す投票が含まれています。

4. ペアワイズ比較からランキングへ

私たちのデータはペアワイズ比較から成り立っていますが、これらの比較をどのようにして全てのモデルのランクを回復するかが問題です。このトピックはランキングを学習する文献で広く研究されており、ここで私たちの視点を提示します。私たちは比較データセットAを定義し、時間tで人間にモデルペアAtを提供し、その反応Htを観察します。例えば、At = (1, 2)でHt = 1の場合、人間はモデル2をモデル1よりも好むことを示します。

4.1 勝率行列の推定

勝率行列の推定は比較的簡単です。私たちはXt(a)を定義し、サンプリングされたペアaに対する勝率を推定します。この推定器は無偏推定量であり、適切な正則性条件の下で、勝率行列が収束することを保証します。最終的に、勝率行列を推定するために、統計的手法を応用します。

4.2 BTスコアの推定

BT係数を推定するために、最大尤度推定を行います。これは、観察された結果からBT係数を推定するための標準的な手法です。私たちは、サンプリングされたデータポイントを用いて、BT係数の信頼区間を構築します。これにより、モデルのパフォーマンスを適切に評価できるようになります。

5. 効率的な近似ランキング

このセクションでは、勝率行列、スコア、ランキングを計算する方法について説明します。勝率行列の推定は比較的簡単で、得られたデータを用いて正確なスコアとランキングを導出します。具体的には、ユーザーの投票データを基に、Bradley-Terryモデルを用いてモデル間の勝率を推定します。さらに、サンプリング手法を用いて、ランキングの収束を早めるための効率的な方法を模索しています。これにより、各モデルの性能に関する信頼性の高い評価が可能となります。

5.1 勝率行列の推定

勝率行列の推定はシンプルで、各モデルの比較データを使って計算します。具体的には、各モデルペアの勝利数をカウントし、全試行のデータを使用して期待値を計算することで行います。これによって、推定された勝率行列はモデルの相対的なパフォーマンスを反映します。この行列を基に、各モデルのスコアを算出し、ランキングを形成します。データの集まり方によっては、比較的少ないサンプルで高い精度を持つランキングを得ることが可能です。

5.2 BTスコアの推定

BTスコアの推定には最大尤度推定法を適用し、得られたデータポイントからスコアを計算します。具体的には、投票データを用いてモデルの勝率を推定し、その結果をもとにスコアを算出します。また、信頼区間を構築するために、ブートストラップ法やサンドイッチ推定量を使用します。これにより、モデルのパフォーマンスについての信頼性の高い評価が可能となり、複数のモデルの比較が容易になります。

6. データ分析

Arenaのクラウドソースデータが実際の使用ケースを反映しているかを調べるため、ユーザープロンプトに対してトピックモデリングを実施しました。また、これらのプロンプトがモデルの識別にどれほど効果的であるかを評価し、投票の質を専門家による再ラベリングで検証しました。

6.1 ユーザープロンプトのトピックモデリング

ユーザープロンプトを表現ベクトルに変換し、次にUMAPを使って次元を削減し、HDB-SCANでトピッククラスターを特定しました。このプロセスにより、600のクラスターが特定され、多様なトピックがカバーされていることが示されました。最大のクラスターは全体の1%しか占めず、残りは0.5%未満であり、長尾の多様な分布が確認されました。

6.2 Arenaのプロンプトはモデルを識別できるか

トピッククラスターがモデルの強みを識別する効果を調べるため、30のプロンプトをサンプリングし、Llama-2-70b-chatとGPT-4のパフォーマンスを比較しました。結果として、GPT-4はコーディングや推論を必要とするクラスターで高い勝率(最大97%)を示し、逆に問題解決タスクが少ないクラスターでは勝率が60%未満に落ちました。この結果は、Arenaのトピッククラスターがモデルを区別するのに有効であることを示しています。

6.3 投票の質の検証

クラウドソースされた投票の質を評価するために、GPT-4-TurboとLlama-2-13B、GPT-4-TurboとGPT-3.5-Turbo-0613の間の160のバトルを専門家にラベリングさせました。専門家の評価とクラウドユーザーの評価の一致率は72%から83%で、高い一致が確認されました。この結果は、Arenaのクラウドソース投票の質が良好であることを支持しています。

7. 実験

実験では、実データに基づいてランキングを計算し、アクティブサンプリングルールを評価しました。実際の投票データを用いて、BT係数を計算し、信頼区間を評価しました。これにより、サンプリング精度を向上させる方法を示しました。さらに、異常ユーザーの検出手法を評価し、効果的な結果を得ることができました。これらの実験は、提案した方法の有効性を裏付けるものです。

7.1 ランキングシステム

実験では、オンラインプラットフォームからの213,576件の過去の投票データを再生し、BT係数を計算しました。結果として、信頼区間のカバレッジと平均幅を比較し、サンプリング数の影響を評価しました。実験結果は、サンプリング精度が向上し、信頼区間が適切に機能することを示しました。これにより、実データにおいても信頼性の高いランキングを提供できることが確認されました。最後に、アクティブサンプリングルールの効果を示すための結果も報告しました。

7.2 異常ユーザーの検出

異常ユーザーの検出方法を評価するために、25名の異常ユーザーと25名の正常ユーザーを比較しました。異常ユーザーは、繰り返しの多い無意味な入力を行うユーザーと定義しました。評価の結果、異常ユーザーの識別精度は90%に達し、真陽性率と真陰性率も良好であることが示されました。この手法は有効であり、異常ユーザーの特定に役立つことが分かりました。結果として、実験は提案した方法の効果を支持するものでした。

8. 議論

本研究のユーザー基盤は広範囲にわたりますが、主にLLM愛好者や研究者が中心であり、実際の使用状況を正確に反映できていない可能性があります。また、収集したデータはオンラインチャットインターフェースからのものであり、実運用環境や専門領域での利用を反映するには不十分かもしれません。加えて、この研究はLLMの有用性の評価に焦点を当てていますが、モデルの安全性に関する側面は考慮していません。

8.1 今後の方向性

今後の研究では、包括的なトピックリーダーボードを開発し、マルチモーダルおよびエージェントベースのLLMを対象とした動的でゲーム化された環境を設ける予定です。また、有害ユーザーの検出手法を改良し、より正式な理論に基づいたアプローチを採用することも考えています。

9. 結論

本論文では、Chatbot Arenaというプラットフォームを通じて、ユーザーからの対話による好みを基に大規模言語モデル(LLM)を評価する新しい方法を提案しました。このプラットフォームは、240K以上の投票を収集し、ユーザー生成の質問の多様性と質を確認しました。さらに、我々は効率的なモデルのサンプリングとランキングアルゴリズムを開発し、今後の研究のために100Kを超えるペアワイズの好み投票を含むデータセットを公開する予定です。Chatbot Arenaは、オープンでアクセス可能な評価基盤として、LLMの評価における重要な資源となることを目指しています。今後もこのプラットフォームを通じて、LLMの性能向上に寄与し続けることを期待しています。

付録. サンプルプロンプト

サンプルプロンプトには、異なるトピックからのユーザーのリクエストが含まれており、特定のタスクに対するAIアシスタントの性能を評価するために利用される。プロンプトは、問題解決能力や創造性を必要とする複雑な課題を提供し、AIモデルの応答を比較するために設計されている。

D.1 異なるクラスターからのプロンプト例

「Pythonゲームプログラミングチャレンジ」のクラスターからのプロンプトの例では、ユーザーがクリスマスツリーをプリントする関数を作成するよう求める。GPT-4-0613は、正確で役立つ応答を提供し、Llama-2-70b-chatは役に立たない回答をする。このプロンプトは、AIの性能を際立たせる役割を果たす。

D.2 Arena Benchプロンプト例

Arena Benchからのプロンプトは、非常に高いレベルの問題解決能力と推論を要求するものであり、現実のアプリケーションに従って設計されている。例えば、「習慣追跡のためのFlutterアプリを作成する」というプロンプトでは、ユーザーが複数のタスクを追跡し、得点を集計できる機能を求める。これにより、AIモデルの能力をテストする。

D.3 Arena Benchシステムプロンプト

Arena Benchでは、ユーザーのプロンプト、参照回答、二つのアシスタントの回答を提示して、GPT-4-Turboに評価を依頼する。この評価プロセスは、アシスタントの応答の質を比較し、どちらのアシスタントがより良いかを判断するために行われる。評価基準には、正確さ、関連性、簡潔さが含まれ、最終的な判断を出力する。

D.4 グラウンドトゥルースのないArenaバトルの例

例として、GPT-4-TurboとLlama-2-13B-chatのバトルがあり、どちらの応答も正しいが、異なる好みにより一方が優れていると評価されることがある。複数選択肢の質問に対する応答の一方では、GPT-4-Turboが簡潔で適切な応答を提供し、他方ではLlama-2-13B-chatがより詳細な説明を行う。このようなプロンプトは、評価の難しさを示す。