[論文紹介#153]VISA: 視覚的ソース帰属を伴う情報検索強化生成

VISA: Retrieval Augmented Generation with Visual Source Attribution

この論文は、視覚的な情報を用いて生成した回答の出典を特定する新しい手法「VISA」を提案し、情報の信頼性を向上させることを目的としています。

VISAは、視覚的な情報源帰属を通じて、ユーザーが生成された回答を迅速に検証できるように、取得文書のスクリーンショット内で証拠の正確な位置をバウンディングボックスで示す新しいRAGアプローチを提供します。

論文:https://arxiv.org/abs/2412.14457

以下は、LLMを用いてこの論文の内容を要約したものになります。

概要

生成モデルにおける情報源の帰属は、情報検索強化生成(RAG)システムの検証可能性を向上させるために重要です。しかし、既存のRAGアプローチは主に生成されたコンテンツを文書レベルの参照にリンクさせており、ユーザーが多くのコンテンツ豊富な取得文書の中から証拠を見つけるのが困難です。この課題に対処するため、我々は視覚的な情報源帰属を用いた取得強化生成(VISA)という新しいアプローチを提案します。

VISAは、回答生成と視覚的な情報源帰属を組み合わせ、巨大な視覚言語モデル(VLM)を活用して、証拠を特定し、生成された回答を支持する正確な領域を取得文書のスクリーンショット内でバウンディングボックスで強調表示します。その効果を評価するために、我々は2つのデータセットを作成しました。Wiki-VISAは、クローリングしたWikipediaのウェブページのスクリーンショットに基づいており、Paper-VISAはPubLayNetから派生し、医療分野に特化したものです。実験結果は、文書の元の外観における視覚的情報源帰属に対するVISAの効果を示すとともに、改善のための課題を強調しています。コード、データ、モデルチェックポイントは公開される予定です。

1. VISA: 視覚的ソース帰属を伴う情報検索強化生成

1.1 概要

本章では、VISA(Visual Source Attribution)という新しい情報検索強化生成(RAG)システムの提案がなされています。従来のRAGアプローチは、文書レベルの参照に基づいて生成されたコンテンツの信頼性を確認するのが難しいため、ユーザーが必要な証拠を見つけるのが困難でした。VISAは、生成された回答をサポートする証拠の正確な領域を強調表示し、ユーザーが情報を容易に検証できるようにすることを目的としています。

1.2 はじめに

情報検索における信頼性の向上が求められている中で、VISAは視覚的な証拠を強調し、ユーザーのクエリに応じた関連文書を取得し、回答と共に出典を示す新たな手法を提案しています。

2. 関連研究

2.1 RAGの帰属

従来のRAGは、関連文書を取得し、それを基に回答を生成するアプローチですが、信頼性の確認が難しいという問題があります。最近の研究では、視覚的な情報を活用する手法が注目されています。

2.2 バウンディングボックス描画

コンピュータビジョンにおいて確立された技術であるバウンディングボックスを用いた物体検出の手法が、文書の視覚的表現に応用されています。この手法により、生成された情報の信頼性を高めることが期待されています。

3. 方法

3.1 タスク定義

VISAは、ユーザーのクエリに基づいて候補文書を取得し、生成された回答や関連文書の識別子、証拠を示すバウンディングボックスを出力します。

3.2 視覚的ソース帰属による生成

VISAでは、クエリと取得した文書のスクリーンショットを利用して、言語モデルが回答と関連情報を生成します。

3.3 データセットの取得

VISAに適したデータセットとして、Wiki-VISAとPaper-VISAが構築されており、これらは特定の形式で整形されています。

3.4 マルチ候補の設定

複数の候補文書を使用して、生成された回答の信頼性を評価する設定が行われています。

4. 実験設定

4.1 評価

生成された回答とバウンディングボックスの精度を評価するために、緩和された完全一致(EM)や交差率(IoU)が用いられています。

4.2 トレーニングの詳細

VISAのトレーニングにはQwen2-VLモデルが使用され、シングルとマルチ候補設定でファインチューニングが行われました。

5. 実験結果

VISAは、Wiki-VISAとPaper-VISAデータセットで評価され、ファインチューニングによって性能が向上したことが示されています。

6. 分析

6.1 ゼロショットの効果

モデルのゼロショット性能を評価し、トレーニングデータの多様性が重要であることが示されました。

6.2 データ拡張

データ拡張の技術を用いることで、モデルの性能向上が図られています。

6.3 バウンディングボックスターゲット

バウンディングボックスの表現方法やトレーニング中の戦略がパフォーマンスに与える影響について分析が行われています。

6.4 エラー分析

エラーのタイプを分類し、VISAの限界を理解するための分析が行われました。

7. 結論

VISAは、視覚的なソース帰属を伴う新しいRAGアプローチを提案し、生成された情報の透明性を向上させることができると結論付けています。

A. 付録

付録では、合成データ生成のためのプロンプトやデータセットライセンスに関する情報が提供されています。