目次
Agent-as-a-Service based on Agent Network
この論文は、エージェントネットワークに基づく「エージェント・アズ・ア・サービス(AaaS-AN)」というフレームワークを提案し、多数のエージェントが協力して複雑なタスクを効率的に実行する方法を示しています。
AaaS-ANは、エージェントのライフサイクル全体を統一することで、マルチエージェントシステムの構築と協力を効率的に自動化し、タスクの実行における精度と効率を大幅に向上させる点が特徴的です。
論文:https://arxiv.org/abs/2505.08446


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。
概要
大型モデルに基づくAIエージェントの台頭は、意思決定、協力、適応性における能力のためにマルチエージェントシステム(MAS)への関心を高めています。モデルコンテキストプロトコル(MCP)は、ツールの呼び出しやデータ交換の課題に対処するための統一プロトコルを提供しますが、エージェントレベルの協力を組織するためのサポートが不足しています。このギャップを埋めるために、私たちはエージェントネットワークに基づくエージェント・アズ・ア・サービス(AaaS-AN)を提案します。これは、役割・目標・プロセス・サービス(RGPS)標準に基づいたサービス指向のパラダイムです。
AaaS-ANは、エージェントのライフサイクル全体を統一し、構築、統合、相互運用性、ネットワーク化された協力を含む2つのコアコンポーネントを通じて実現します。1つ目は、タスクと役割の依存関係に基づいてネットワーク内で自己組織化するエージェントおよびエージェントグループを頂点としてモデル化する動的エージェントネットワーク、2つ目は、サービスの発見、登録、および相互運用性プロトコルを組み込んだサービス指向エージェントです。これらは、実行グラフを活用して分散コーディネーション、コンテキスト追跡、ランタイムタスク管理を可能にするサービススケジューラーによって調整されます。
私たちは、数学的推論とアプリケーションレベルのコード生成タスクにおいてAaaS-ANを検証し、最先端のベースラインを上回る成果を得ました。特に、エージェントグループ、ロボティックプロセスオートメーション(RPA)ワークフロー、100のエージェントサービスを超えるMCPサーバーを含むMASをAaaS-ANに基づいて構築しました。また、10,000件の長期間マルチエージェントワークフローを含むデータセットをリリースし、MASにおける長期的コラボレーションに関する今後の研究を促進します。
1. 序論
大規模モデルベースのAIエージェントの台頭により、マルチエージェントシステム(MAS)は自動意思決定、協働タスク実行、複雑な環境への適応性において注目を集めています。一方、コンピューティングパラダイム(クラウド、エッジ、サービス指向コンピューティングなど)の急速な進化により、ソフトウェアシステムはより高い接続性、知能、サービスモジュール性に向かっています。しかし、現在のMAS実装はエージェントワークフローに依存しており、エージェント構築、統合、相互運用性、協働の全工程の自動化が不足しています。
2. 関連研究
2.1 マルチエージェントシステム
ウェブナビゲーションタスクにおいて、言語モデルベースのエージェントの利用が増加しています。Gurらは事前学習モデルとコード生成モデルを組み合わせたWebAgentを導入しました。Parkらは「Stanford Town」と呼ばれる対話型サンドボックス環境を開発し、25の大規模言語モデルベースのエージェントが人間の行動をシミュレートできるか研究しました。Wangらはこれを実世界環境に拡張し、実世界データ収集の高コスト問題を解決しました。Liuらは対話ベースのオーディオビジュアル実体型インテリジェンスナビゲーションフレームワークCAVENを提案しました。
2.2 エージェントパラダイム
知能エージェントのアーキテクチャは、コンテキスト認識メモリ、計画、ロールプレイング、ツール利用などの主要コンポーネントから構成されています。適切に設計されたアーキテクチャはエージェントの能力を大幅に向上させます。Chain of Thought(CoT)は複雑なタスクを小さなサブタスクに分解し、推論性能を向上させます。ReActフレームワークは推論と行動を統合し、LLMの行動空間を拡張します。Reflexionは強化学習メカニズムを組み込み、エージェントに動的メモリと自己反省能力を付与します。
3. AaaS-AN
3.1 概要
LLMベースのエージェントシステムは単一エージェントの能力限界により複雑なタスク要件に対応困難です。マルチエージェント協働が解決策となりますが、曖昧な役割境界が効果的な協力とタスク実行を妨げています。この課題に対して、我々はRole-Goal-Process-Service(RGPS)駆動のアーキテクチャAaaS-ANを提案します。これはエージェントネットワークとサービス指向エージェントの2つの主要コンポーネントから構成されます。
3.2 エージェントネットワーク
エージェントネットワークは動的に構造化され、個々のエージェントとエージェントグループが頂点(vertex)として機能し、ルートがエッジを形成します。各頂点はルートを通じてアクセス可能で、分散コミュニケーションを可能にします。エージェントグループは複数のエージェントをカプセル化し、抽象的な頂点として扱われ、ネットワーク全体での再帰的呼び出しをサポートします。
3.2.1 エージェントロール
RGPSメタモデルでは、ロールがエージェントネットワーク内の個々のエージェントをモデル化するための知識基盤として機能します。エージェント知識(A)は名前(An)、説明(Ad)、システムプロンプト(Ap)、構造化入出力パラメータ(Ai、Ao)、ロジックコード(Ac)の6つの主要コンポーネントから構成されます。
3.2.2 エージェントグループ
エージェントグループは、より良い協働のための目標指向エージェントの集合です。RGPSメタモデルの目標モデリングに基づき、目標指向エージェントグループの構築は明示的な目標分解と協働メカニズムに依存します。グループ内で各エージェントは特定の役割を担い、システムレベルの目標は構造化された目標分解戦略によって達成されます。
3.2.3 エージェントルート
エージェントルートはRGPSの「プロセス」に基づき、マルチエージェント協働プロセスの知識ベースモデリングを可能にします。コンテキスト交換と調整された意思決定を促進し、エージェントネットワーク内の頂点が効果的に協働できるようにします。ネットワークは「HARD」、「SOFT」、「EXT」を含む複数タイプのルートをサポートし、エージェント間のグループ内及びグループ間の自己協働を可能にします。
4. 実験
4.1 数学的推論
数学的推論タスクにおけるマルチエージェントフレームワークの汎化能力を総合的に評価するため、MATHベンチマークからカテゴリごとに72問(合計504問)のテストスイートを構築しました。MetaGPT、AutoGen、MACMという3つの最先端マルチエージェントフレームワークとAaaS-ANを比較しました。評価では、最先端のLLMを用いてエージェント出力と参照解答間の意味的一貫性を採点しました。結果として、AaaS-ANは他のベースラインモデルと比較して平均5.77%の精度向上を達成しました。
4.2 アプリケーションレベルのコード生成
AaaS-ANのゼロショット複雑生成タスクにおける能力を評価するため、SRDDとProgramDevの2つのベンチマークで実験を行いました。SRDDはChatDevによって提案された1,200のソフトウェアタスクプロンプトで、教育、仕事、生活、ゲーム、創造の5つの主要ドメインに分類されています。ProgramDevは30の軽量プログラムを含み、多様なインタラクションロジックと機能実装をカバーしています。結果として、AaaS-ANはChatDevやGPTSwarmなどの最先端マルチエージェントフレームワークと比較して一貫して優れたパフォーマンスを示しました。
4.3 AaaS-ANベースのエージェントサービスと長鎖フロー
AaaS-ANの一般的なタスク対応能力をさらに評価するため、多数のインテリジェントエージェントサービスとプロセスを含むデータセットを収集し、タスク、プロトコル、サービスの観点からこれらのデータを分析しました。タスクステータス分布の観点から、成功タスクの数が最高レベルに達し、これはAaaS-ANがほとんどの場合でタスクを確実に達成できることを示しています。プロトコルの観点から、AaaS-ANはAgentやRPAなど様々なタイプのタスクをサポートし、それらを処理する際に高い成功率を維持しています。
5. 結論
我々はAaaS-ANという大規模マルチエージェントシステムを組織化するためのサービス指向フレームワークを提案しました。RGPSスタンダードに基づき構築されたAaaS-ANは、エージェントとエージェントグループを動的なネットワーク頂点としてモデル化し、統一されたスケジューリングメカニズムを通じてサービス発見、登録、実行を統合します。数学的推論やアプリケーションレベルのコード生成に関する実験は、AaaS-ANが競合するベースラインを上回ることを示しています。さらに、エージェントグループ、RPAワークフロー、MCPサーバーを含む100以上のエージェントサービスのデプロイメントを通じてスケーラビリティを検証しました。