[論文紹介#25]一般ツールエージェントのためのベンチマーク：GTA

本日の論文

この論文は、実世界のタスクにおける大規模言語モデル（LLM）のツール使用能力を評価するための新しいベンチマーク「GTA」を提案し、既存のモデルが直面する課題を明らかにしています。

GTA: A Benchmark for General Tool Agents

以下は、LLMを活用して論文の内容を要約したものになります。

要約

この論文では、一般的なツールエージェントのためのベンチマーク「GTA」を提案しています。GTAは、実際のユーザーからのクエリ、実際に展開されたツール、そしてリアルなマルチモーダル入力を使用して、LLM（大規模言語モデル）のツール使用能力を評価します。既存のLLMは、現実の問題解決能力を示す上での課題があり、特にGPT-4ですら50%未満のタスクしか完了できていません。この評価は、現在のLLMのツール使用能力のボトルネックを明らかにし、今後の一般目的ツールエージェントの進展に向けた方向性を示唆します。GTAは、229の実世界のタスクと実行可能なツールチェーンを設計し、主流のLLMを評価しました。

1. はじめに

大規模言語モデル（LLMs）と外部ツールの統合は、汎用AIアシスタントの開発において大きな関心を集めています。特に、LangChain、AutoGPT、ChatGPTプラグインなどのシステムは、プランニングと実行の二つの相互作用的な部分にワークフローを分解しており、LLMが複雑な現実のタスクを解決するためには、さまざまな種類のツールが必要です。

1.1 ツール統合の重要性

ツールの統合は、LLMのツール使用能力に大きな挑戦をもたらします。複雑な現実のタスクを解決するためには、知覚、操作、論理、創造性などの多様なツールを活用する必要があります。LLMのツール使用能力を評価することは、エージェントシステムの効果を高めるために重要です。

1.2 評価のギャップ

既存のツール使用評価は、AI生成のクエリや単一ステップのタスク、ダミーツール、テキストのみの相互作用を用いており、現実の問題解決能力を効果的に明らかにしていません。この評価方法は、ツールの使用ステップを明示的に示すため、実際のシナリオとのギャップが存在します。

1.3 GTAの提案

本研究では、GTA（General Tool Agents）というベンチマークを提案します。GTAは、実際のユーザークエリ、実際に展開されたツール、実際のマルチモーダル入力を特徴としています。これにより、LLMsの実際のタスク実行パフォーマンスを評価するための新しいプラットフォームが提供されます。

2. 関連研究

大規模言語モデル（LLM）を外部ツールと統合することに関して、多くの研究が行われており、一般的なAIアシスタントを開発するためのアプローチとして注目されています。LangChain、AutoGPT、ChatGPT Pluginsなどのオープンソースプラットフォームが提案されており、これらはワークフローを計画と実行の2つのインタラクティブな部分に分解しています。複雑な現実のタスクを解決するためには、さまざまな種類のツールが必要となり、LLMのツール使用能力に大きな課題をもたらします。

2.1 LLMベースのエージェント

一般目的のエージェントの開発を目指して、LLMと外部ツールを統合することが広く研究されています。これにより、環境との相互作用、意思決定、タスクの実行に強力な機能がもたらされます。WebGPTやWebShopなど、特定の能力を向上させるためのツールを統合したさまざまな試みが行われています。現実のシナリオでは、環境がより複雑であるため、LLMがさまざまなツール間での計画や調整を行う必要があり、これがツール使用能力に対するさらなる挑戦となります。

2.2 ツール使用の評価

LLMベースのエージェントの台頭に伴い、LLMのツール使用能力を評価するための多くの研究が行われています。ToolBenchやAPIBenchなど、さまざまなベンチマークが開発され、ツール使用タスクや対応するツールチェーンが設計されていますが、既存のベンチマークはAI生成のクエリに依存しているため、実際のシナリオを正確に反映できていません。GAIAは、現実のシナリオに基づいたベンチマークとして有名ですが、GTAは特にツールエージェントを評価するために設計されています。

2.3 これまでの研究の課題

既存のツール使用評価手法は、AI生成のクエリに依存しており、ユーザーエージェントの相互作用をテキスト形式に限定しているため、現実のシナリオとの整合性が欠けています。さらに、現在のツール使用ベンチマークは、ツール呼び出しチェーンの孤立したステップを評価することにとどまっており、エージェントが複雑なタスクをエンドツーエンドで達成する能力を反映していません。これらの課題を解決するために、GTAは現実のシナリオをより正確に評価することを目的としています。

3. GTAベンチマーク

GTAは、一般的なツールエージェントのための評価基準であり、実際のシナリオに基づいた人間のクエリを用いて、LLMのツール利用能力を評価することを目的としている。このセクションでは、データセットの構成、クエリの作成方法、ツールチェーンの構築方法について詳述している。実世界のタスクに対するモデルの能力を評価するために、229のクエリと実行可能なツールチェーンを設計した。これにより、ツール利用の能力をより正確に評価することが可能となる。

3.1 データセットの定義

GTAのサンプルは、ファイルセット、クエリ、使用するツール、解決策のステップ、最終的な回答から構成されている。各サンプルは、ツールを利用して解決できる実世界に基づいた問題を含んでおり、ツールの使用手順は明示されていない。このため、LLMは適切なツールを推論し、問題解決のために計画を立てる必要がある。ここでは、ツールチェーンやその構成要素も詳述されている。

3.2 クエリの作成

クエリは、実世界のシナリオに基づいて人間が設計したものであり、明示的なツールの使用ステップを含まないように作成されている。クエリ作成のプロセスでは、初期の例を提供し、それに基づいて人間のアノテーターが新しいクエリを考案する。各クエリは、特定のツールを使用して解決される必要があり、意味のあるタスクとなるように設計されている。このプロセスでは、実行可能なツールチェーンがともに作成される。

3.3 ツールチェーンの構築

ツールチェーンは、各クエリに対して手動で構築され、最終的な回答も提供される。アノテーターは、指定された手順に従い、実際のツールを呼び出して結果を記録する。この過程で、ツールの実行可能性を確保し、正確な最終回答を得る。ツールチェーンの構造は、JSON形式で保存され、各ステップでのツールの使用とその結果が詳細に記録される。

3.4 データセットの統計

GTAは229のクエリから成り、252の画像ファイルと14種類のツールを含んでいる。クエリは目的別、主観的、画像生成に分類され、各クエリには使用されるツールの数が異なる。大部分のクエリは2つまたは3つのツールを使用し、解決に必要なステップは2〜8にわたる。この統計により、ツールの組み合わせの頻度や各クエリのステップ数が示され、データセットの多様性が明らかになる。

4. 評価と分析

この章では、GTAベンチマークにおける16の大規模言語モデル（LLM）の評価結果について詳述しています。各モデルのツール使用能力や実行結果を比較し、モデルごとの強みや弱みを分析しています。また、どのモデルがリアルワールドのタスクに対して効果的にツールを使用できるかを示し、今後の研究方向性についても言及しています。

4.1 実験設定

実験設定では、使用したLLMの種類やそれらのモデルのバージョン、評価に使用したプラットフォームについて説明しています。また、各モデルを評価するためのフレームワークや実行環境についても詳しく述べています。

4.2 評価指標

評価指標では、ツール呼び出しプロセスや実行結果を評価するための詳細なメトリクスを設計しています。インストラクションの正確性やツールの選択精度、引数の予測精度など、複数の観点からモデルのパフォーマンスを測定する方法について説明しています。

4.3 主な結果

主な結果では、LLMがリアルワールドのタスクを解決する際のパフォーマンスを示しています。GPT-4などの上位モデルでも50%未満のタスクしか完了できないことや、他のモデルが25%以下の結果であることから、現在のモデルのツール使用能力に明確な限界があることが明らかになっています。この結果は、今後のモデル改良に向けた重要な示唆を提供します。

5. 結論

本論文では、一般的なツールエージェントのためのベンチマークであるGTAを提案しました。このベンチマークは、人間が設計したユーザー問い合わせ、実際に展開されたツール、マルチモーダルなコンテキスト入力を特徴としています。評価プラットフォームには、知覚、操作、論理、創造性のカテゴリーにおける実行可能なツールが装備されています。GTAを通じて、LLMsのツール使用能力を評価するための詳細なメトリクスが設計され、現実世界での問題解決におけるLLMsの課題が浮き彫りになりました。今後の研究において、GTAベンチマークが一般的なツールエージェントの実現に寄与することを期待しています。

6. 制限事項

このベンチマークは、すべてのクエリが英語であるため、言語の多様性が欠けています。将来的には、非英語環境でのツールエージェントの能力を評価するために多言語クエリを追加することができます。また、高品質なデータを達成するために、ユーザークエリとツールチェーンはすべて人間が作成しており、AI生成のデータに比べてコストが高くなります。

A データセットのデータシート

このセクションでは、GTAデータセットの目的、構成、収集プロセス、前処理、使用方法、配布、維持管理について詳しく説明します。データセットの特性や利用方法を明確にすることで、将来の研究や応用に役立てることを目的としています。

A.1 動機

データセットは、LLMの一般的なツール使用能力を評価するために作成されました。これは、実世界のシナリオにおけるツール使用のギャップを埋めることを目的としています。具体的には、実際のユーザーからのクエリを使用し、実行可能なツールを備えた評価プラットフォームを提供します。

A.2 構成

GTAの各インスタンスはJSON形式であり、自然言語のクエリ、画像ファイルの入力、ツールの説明、参照ツールチェーン、最終回答を含みます。GTAには229のインスタンスが含まれており、252の画像ファイルがあります。各インスタンスには、正しいツールチェーンと最終回答が提供されています。

A.3 収集プロセス

クエリはすべて人間が設計し、画像入力はインターネットから収集またはアノテーターによって作成されました。データは、学生や研究者によって手動で収集され、適切な報酬が支払われました。データの収集は2023年から2024年にかけて行われました。

A.4 前処理/クリーニング/ラベリング

データセットは人間によって一から作成され、手動で確認されました。データの前処理やクリーニング作業は行われておらず、すべてのデータは新しく作成されたものです。データ作成に使用されたソフトウェアはExcelとVSCodeです。

A.5 使用方法

GTAは、LLMの一般的なツール使用能力を評価するために使用されます。特定のタスクには適しておらず、他の用途に使用することは推奨されていません。将来的には、データセットの使用法を広げる可能性がありますが、基本的にはツール使用能力の評価に特化しています。

A.6 配布

GTAデータセットは第三者に配布されず、GitHubを通じて提供されます。データセットはApacheライセンスの下で配布され、外部の制限はありません。データは自己完結型であり、外部リソースに依存していません。

A.7 維持管理

データセットの維持管理は著者によって行われ、ユーザーからの提案や問題を受けて更新される可能性があります。古いバージョンは主に最新バージョンのみ維持される予定ですが、特定の状況においては過去のバージョンも保持されることがあります。データセットへの貢献については、著者に連絡することが推奨されています。

B. GTAに関する追加情報

GTAのデータセットは、LLMのツール利用能力を評価するために設計されたもので、229のインスタンスと252の画像ファイルを含んでいます。各インスタンスは、自然言語のクエリ、画像ファイル、ツールの説明、参照ツールチェーン、最終回答を含みます。データは人間によって設計され、リアルなシナリオに基づいています。全体として、GTAはLLMのツール利用能力をより現実的に評価することを目的としています。

B.1 動機

このデータセットは、LLMの一般的なツール利用能力を評価するために作成されました。具体的には、実際のシナリオに基づいた人間が書いたクエリ、実行可能なツールを備えた評価プラットフォーム、実際の画像ファイルを入力コンテキストとして使用することで、既存のベンチマークとのギャップを埋めることを目指しています。これにより、ツールエージェントの能力を向上させることが期待されています。

B.2 構成

GTAは229のインスタンスから構成されており、各インスタンスは自然言語のクエリ、画像ファイル、ツールの説明、参照ツールチェーン、最終回答を含みます。このデータはJSON形式で提供され、各インスタンスには正しいツールチェーンと最終回答が付随しています。データセットは自己完結型で、外部リソースに依存しません。

B.3 収集プロセス

データセットの各インスタンスに関連付けられたデータは、人間によって設計されたクエリと、インターネットから収集された画像入力で構成されています。データは2023年から2024年にかけて収集され、大学の学生や研究者が関与しています。収集プロセスでは、使用が許可された画像のみが選ばれるように倫理審査が行われています。

B.4 前処理/クリーニング/ラベリング

データセットは人間によってゼロから作成され、手動で確認されているため、前処理やクリーニングは行われていません。生成されたデータは、元のデータとして保存されず、全てのデータが新規に作成されたものです。データのクリーニングに使用されたソフトウェアはExcelとVSCodeです。

B.5 使用

GTAは、LLMのツール利用能力を評価するために使用されることを目的としています。データセットは他のタスクにも利用可能ですが、特にLLMの現実的なツール利用能力を測るために設計されています。データの構成や収集、前処理の方法は、今後の利用に影響を与えることはありません。

B.6 配布

GTAデータセットは、外部の団体に配布されることはありません。データセットはGitHubを通じて公開され、Apacheライセンスの下で配布されます。データセットに関する制限はなく、輸出規制やその他の法律的制約も適用されません。

B.7 メンテナンス

データセットの保守は論文の著者によって行われ、GitHubでの更新が予定されています。ユーザーからの提案に基づいてデータセットが更新されることがありますが、古いバージョンは主に最新のもののみが維持される予定です。データセットへの拡張や貢献を希望する場合は、著者に連絡することで可能です。

C. データ設計に関する追加情報

データ設計に関する情報を提供し、GTAデータセットの構成や収集方法、前処理について詳述している。具体的には、データの取得方法、インスタンスの構成、収集プロセス、前処理、クリーニング、ラベリングの手法に関する内容が含まれている。

C.1 クエリの例

初期クエリの例をデザインし、アノテーターがその例を基に新しい質問を作成する手法を説明している。例は多様なシナリオとツールの組み合わせを含み、アノテーターはこれらを拡張することで新しいサンプルを作成する。

C.2 多様化された拡張アプローチ

アノテーターが新しい質問をデザインする際の多様化された拡張アプローチについて説明している。具体的には、元のクエリを基にシナリオを変更したり、ツールを入れ替えたりする方法が示され、各アプローチのルールが詳細に述べられている。

C.3 アノテーターへの指示

クエリの作成およびツールチェーンの構築に関するアノテーターへの指示を提供している。これには、各サンプルが満たすべき要件や、クエリに必要な構成要素が詳細に説明されており、特にGoogle検索を用いる場合の注意点が強調されている。

C.4 実行可能なツールチェーンの図示

ツールチェーンの各部分の構造を示す図を提供しており、JSON形式で表現されている。ユーザーのクエリ、アシスタントの推論過程、ツールの呼び出し、最終的な回答がどのように構成されるかが示されている。

D. 実験に関する追加情報

この章では、実験におけるLLMベースのエージェントシステムの構築方法や、使用するプロンプトのスタイル、実験の具体例について詳述しています。特に、エージェントが外部ツールを使用するためのアクションと計画のスキーマが重要な役割を果たします。

D.1 LLMベースのエージェントシステムの構築

LLMベースのエージェントシステムは、アクションと計画のスキーマを組み合わせて構築されます。このシステムでは、エージェントが外部ツールと対話できるように設計され、実験においては異なるLLMが評価されます。エージェントは、各ツールを適切に呼び出して操作するための方法を持っています。

D.2 ReActスタイルのプロンプト

ReActスタイルのプロンプトテンプレートは、エージェントシステムで使用される形式を定義しています。このプロンプトは、エージェントがツールを使用する際の思考過程や行動の指示を含みます。具体的なプロンプトの例も示されており、エージェントがどのように応答するかが記載されています。

D.3 異なるモデルの予測例

この節では、異なるモデルのツール呼び出し能力を視覚化するための予測例が提供されています。具体的なクエリに対する各モデルの反応が示されており、各モデルの回答精度がどのように異なるかが説明されています。高い精度を持つモデルは、より長いツールチェーンを示す傾向があり、逆に他のモデルはツールを呼び出さずに直接回答することが多いです。

仕様駆動開発の英語版概説論文 ― 『Spec-Driven Development: A Concise Overview』を Zenodo で公開しました

仕様駆動開発とは何か ― その3つの技術要素・4つの原則・7つの工程

仕様駆動アーキテクチャという考え方 ― 仕様駆動開発を、経営に広げる

それでも歩みを止めず、前へ進む

感謝とアンサー動画のお知らせ