目次
HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation
HM-RAGは、複雑なクエリに対応するために、階層的なマルチエージェントシステムを用いたマルチモーダル情報の検索と生成を強化する新しいフレームワークを提案する論文です。
HM-RAGは、複雑なクエリを処理するために、異なるデータモダリティを専門のエージェントに分担させることで、協調的な知識合成を実現し、従来の単一エージェントRAGシステムに比べて大幅な精度向上を達成しています。
論文:https://arxiv.org/abs/2504.12330
リポジトリ:https://github.com/ocean-luna/HMRAG


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。
概要
Retrieval-Augmented Generation(RAG)は、大規模言語モデル(LLM)に外部知識を付加する手法ですが、従来の単一エージェントRAGは、異種データエコシステム全体で協調的な推論を必要とする複雑なクエリを解決する上で根本的に制限されています。我々は、HM-RAGと呼ばれる新しい階層型マルチエージェントマルチモーダルRAGフレームワークを提案し、構造化データ、非構造化データ、グラフベースのデータ全体にわたる動的な知識合成のための協調知能を先駆的に実現します。
このフレームワークは、専門化されたエージェントからなる三層アーキテクチャで構成されており、文脈に応じたサブタスクに複雑なクエリを分解する分解エージェント、プラグアンドプレイモジュールを使用して並行してモダリティ特有の検索を実行するマルチソース検索エージェント、そして一貫性投票を使用してマルチソースの回答を統合し、専門モデルの精緻化を通じて検索結果の不一致を解決する決定エージェントが含まれています。
このアーキテクチャは、テキスト、グラフ関係、およびウェブ由来の証拠を組み合わせることによって包括的なクエリ理解を実現し、ScienceQAおよびCrisis-MMDベンチマークにおいてベースラインRAGシステムに対して回答精度で12.95%の改善、質問分類精度で3.56%の向上をもたらしました。特に、HM-RAGは両データセットのゼロショット設定において最先端の結果を確立しています。そのモジュラーアーキテクチャは、新しいデータモダリティのシームレスな統合を保証しながら厳格なデータガバナンスを維持し、RAGシステムにおけるマルチモーダル推論と知識合成の重要な課題に対処する上での重要な進展を示しています。
HM-RAG: 階層的マルチエージェントマルチモーダル情報検索強化生成
1. はじめに
データの急速な増加に伴い、異種情報源からの効率的な情報検索が現代の情報システムの基盤となっています。マルチモーダル検索システムは多様なデータ形式を統合しますが、「クエリタイプの多様性、データ形式の異質性、および検索タスクの様々な目的」という複雑さから、依然として大きな課題が残っています。私たちのHM-RAGフレームワークは、これらの課題に対処するために構築されました。
2. 関連研究
従来のRAGシステムは外部テキスト知識とLLMを統合し質問応答を向上させてきましたが、視覚コンテンツの処理には限界がありました。画像ベースのRAGアプローチが開発されましたが、「コヒーレントな異種モーダル間の相関関係の確立」に課題があります。グラフベースの検索フレームワークもテキスト相互依存関係のモデリングを強化しましたが、「詳細な情報の忠実性を犠牲にしてしまう」という問題があります。
3. 方法論
HM-RAGは、3層アーキテクチャのエージェントで構成されています:
- 分解エージェント:複雑なクエリをコンテキスト的に一貫したサブタスクに分解
- マルチソース検索エージェント:ベクトル、グラフ、ウェブベースのデータベース向けに設計されたプラグアンドプレイモジュールを使用して並列検索を実行
- 決定エージェント:一貫性投票を使用して多ソースの回答を統合し、専門家モデル改良を通じて検索結果の不一致を解決
4. 実験
ScienceQAとCrisisMMDベンチマークで実験を実施しました。HM-RAGはScienceQAで平均93.73%の精度を達成し、最高のゼロショットVLM手法を4.11%上回りました。また、ベクトルベース、グラフベース、ウェブベースのベースラインと比較して、それぞれ12.95%、12.71%、12.13%の絶対的改善を示しました。CrisisMMDでも同様に優れた結果を達成し、GPT-4oを2.44%上回る平均58.55%の精度を実現しました。
5. 結論
本論文では、HM-RAGという新しい階層的マルチエージェントマルチモーダルリトリーバル強化生成フレームワークを提案しました。このフレームワークは複雑なマルチモーダルクエリ処理と知識合成の課題に対処するために設計されています。専門的なエージェントをクエリ分解、マルチソース検索、決定改良のために統合することで、構造化、非構造化、グラフベースのデータ間での動的な知識合成を実現しました。これによりRAGシステムにおけるマルチモーダル推論と知識合成の重要な課題に効果的に対処しています。