[論文紹介#239]計画と行動: 長期タスクのためのエージェントの計画の改善

Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks

この論文は、長期的なタスクに対するエージェントの計画を改善するために、明示的な計画を取り入れた新しいフレームワーク「Plan-and-Act」を提案しています。

Plan-and-Actは、合成データ生成手法を用いて高レベルの計画生成を強化し、複雑な長期タスクにおける大規模言語モデルの計画能力を劇的に向上させる点が特徴です。

論文:https://arxiv.org/abs/2503.09572


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。

概要

この論文では、長期タスクのエージェントの計画を改善するための新しいフレームワーク「Plan-and-Act」を提案します。大規模言語モデル(LLM)は、シンプルなタスクを処理するための言語エージェントを可能にする点で顕著な進展を示していますが、複雑なマルチステップの長期タスクに適用することは依然として課題です。最近の研究では、高レベルの計画を低レベルの実行から分離することで成功を収めており、これによりモデルは高レベルの計画目標と低レベルの実行詳細を効果的にバランスさせることができます。しかし、正確な計画を生成することは依然として困難であり、LLMはこのタスクのために本質的に訓練されていないためです。

この問題に対処するために、Plan-and-Actは、LLMベースのエージェントに明示的な計画を組み込み、合成データ生成手法を通じて計画生成を強化するスケーラブルな方法を導入します。Plan-and-Actは、ユーザーの目標を達成するために構造化された高レベルの計画を生成するプランナーモデルと、これらの計画を環境特有のアクションに変換するエグゼキューターモデルで構成されています。プランナーを効果的に訓練するために、実現可能な計画を注釈付けした真実の軌道を合成データ生成手法で導入し、一般化を高めるために多様で広範な例を強化しました。Plan-and-Actを評価するために、ウェブナビゲーションを代表的な長期計画環境として使用し、WebArena-Liteベンチマークでの54%の成功率という最先端の結果を示しました。

論文概要:Plan-and-Actフレームワークによる長期タスクのエージェント計画の向上

1. 概要

本論文では、複雑かつ多段階の長期タスクに対するエージェントの計画能力を向上させるための新しいフレームワーク「Plan-and-Act」を提案します。大規模言語モデル(LLM)は単純タスクにおいては進展を見せていますが、長期的な計画を必要とする複雑なタスクへの適用は依然として課題です。従来の研究では高レベルの計画と低レベルの実行を分離する手法が成功を収めてきましたが、LLMは計画生成に特化して訓練されていないため、正確な計画の生成が難しいという問題があります。

2. Plan-and-Actフレームワークの構成

Plan-and-Actは以下の二つの主要モデルから成り立っています:

  • Plannerモデル:ユーザーの目標を達成するために、構造化された高レベルの計画を生成します。これは、計画の全体像を把握するために設計されています。
  • Executorモデル:Plannerが生成した計画を具体的な環境特有のアクションに変換します。この二つのモデルの協働により、高レベルの目標と低レベルの実行の詳細を効果的にバランスさせることが可能になります。

3. 合成データ生成法

本研究では、Plannerモデルの訓練を強化するために合成データ生成法を導入しています。この手法では、実際の軌道に対して実行可能な計画を注釈付けし、多様かつ広範な例を追加することで、一般化能力を向上させることを目指しています。具体的には、さまざまなシナリオに基づいたデータを使用して、モデルが異なる環境や条件での計画を学習できるようにします。

4. 実験設定

Plan-and-Actの効果を検証するために、ウェブナビゲーションタスクを代表的な長期計画環境として用いました。この環境は、情報検索を目的とし、複数のステップを必要とするため、計画能力を測定するのに適しています。実験では、WebArena-Liteベンチマークを利用し、Plan-and-Actが54%の成功率を達成しました。この結果は、提案手法が従来のアプローチに対して顕著な改善をもたらすことを示唆しています。

5. 結論

本論文で提案したPlan-and-Actフレームワークは、LLMを用いたエージェントの計画能力を体系的に向上させる新しいアプローチを提供します。合成データ生成法を用いることで、より良い計画生成が可能になり、長期的なタスクにおける成功率を大幅に向上させることができます。今後の研究においても、このアプローチが多様なタスクに適用可能であることが期待されます。