[論文紹介#261]サーベイ:ドキュメント理解に関する最近のアプローチ

A survey of recent approaches to form understanding in scanned documents

この論文は、スキャンされた文書におけるフォーム理解に関する最新のアプローチを調査し、特にトランスフォーマーモデルの効果を強調した包括的なサーベイを提供しています。

この論文は、トランスフォーマーベースのモデルがノイズの多いスキャン文書におけるフォーム理解を大幅に改善し、特にOCR精度を向上させる新たな手法を提供している点が特徴的です。

論文:https://link.springer.com/article/10.1007/s10462-024-11000-0


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。

概要

この論文は、スキャンされた文書におけるフォーム理解に関する100以上の研究成果を包括的に調査したものです。特に、従来の手法と比較して最大25%の精度向上が示されているトランスフォーマーベースのモデルに焦点を当て、最近の進展と画期的な成果を掘り下げています。

私たちの研究方法論は、過去10年間の人気のある文書やトレンドの詳細な分析を含み、15の最先端モデルと10のベンチマークデータセットを評価しています。これらの研究を通じて、この分野の進化に関する新たな洞察を提供し、特にトランスフォーマーがノイズの多いスキャン文書を処理する能力を高め、OCR精度を大幅に改善したことを強調しています。

さらに、FUNSD、CORD、SROIEなどの重要なデータセットの概要を提示し、モデルのパフォーマンスを評価するためのベンチマークとして機能しています。これらのモデルの能力を比較し、主要なフォーム抽出タスクにおいて平均10〜15%の改善を報告することで、研究者や実務者がフォーム理解アプリケーションに最も適したソリューションを選択する際に役立つガイダンスを提供することを目指しています。

スキャン文書におけるフォーム理解の最近のアプローチに関する調査

1. はじめに

近年、デジタル化が私たちの生活のあらゆる面に浸透し、音楽ディスクやアナログ文書などの物理的オブジェクトがデジタルの機械可読な形式に置き換えられています。この変革により、ダウンストリームアプリケーションや効率的なデータベース保存を通じた歴史的保存が可能になっています。文書理解は、テキスト、画像、表、グラフなど様々な形式やモダリティを持つ文書の内容と構造を分析する分野です。特に言語モデルとトランスフォーマーは、文書理解において大きな可能性を示しています。

フォーム理解は本質的に、名前付きエンティティ認識(NER)に似たシーケンスラベリングタスクであり、主要情報抽出(KIE)とも呼ばれます。このタスクは、文書の多様な形状と形式により独自の課題を提示します。従来のNERタスクが1Dテキスト情報を扱うのに対し、フォーム理解は複数のモダリティを含みます。テキスト情報に加えて、テキストセグメントの位置とレイアウトが意味解釈において重要な役割を果たします。

本論文では、スキャンされた文書のコンテキストにおけるフォーム理解に関する100以上の研究作品の包括的な調査を提示します。トランスフォーマーベースのモデルを中心に、この分野の最近の進展とブレークスルーを掘り下げ、従来の方法と比較して最大25%の精度向上を実現したことを示します。

2. 文献収集方法

調査の包括性を確保するため、私たちは厳格な方法論を採用して、ノイズの多いスキャン文書のフォーム理解分野に関連する文献を収集しました。急速に進化するこのドメインにおける最近の進展と最新トレンドをカバーすることが目標でした。

2023年8月6日に、Scopusなどの著名な科学データベースで検索を実施しました。検索クエリは、「document understanding」AND「form」OR「information extraction」AND「Invoices」というように、トピックを効果的にターゲットにするために関連用語を組み合わせて設計されました。「document understanding」AND「form」を検索文字列に組み込むことで、フォーム理解と文書理解のトピック間の強い関連性を確保しました。

検索結果は、データベース全体で相当数の出版物を明らかにしました。Springer Linkは最も多い162の出版物を返し、そのうち50が2021年だけで公開されました。ACMは75の関連出版物を返し、2018年以降に出版物が顕著に増加しました。IEEEは8つの関連出版物を返しました。

初期検索結果に加えて、調査のタイムラインで最先端のモデルの一つを代表するLayoutLMv2アプローチ(Xu et al. 2021)も含めました。文献収集の徹底性を確保するため、初期に収集した論文に対してバックワードスノーボーリング法を採用しました。このアプローチは、初期検索結果に現れなかった可能性のある追加の関連論文を特定するのに役立ちました。

この調査では、2019年から2022年にかけて出版物数が大幅に増加しています。この傾向は、BERTなどの事前訓練された言語モデルの導入によって主に推進されたトピックの人気の高まりと一致しています。

3. アプローチ

近年、文書理解領域におけるモデルの軌跡は、テキスト以外のモダリティでトランスフォーマーベースのアーキテクチャを豊かにする方向へのパラダイムシフトによって特徴づけられています。しかし、トランスフォーマーに依存しない重要なアプローチも存在します。この節では、近年登場した一連の重要なモデルを紹介します。これらのモデルがマルチモーダル情報の革新的な統合と、この分野への独自の貢献を示すため、時系列で紹介します。

3.1 グラフベースモデル

グラフベーステキスト関係モデリングは、文書内のテキストセグメント間の複雑な関係を捉えるためにグラフニューラルネットワーク(GNN)を採用する技術です。これらのモデルはテキストと視覚の両方の特徴を処理するエンコーダを使用し、続いてセグメント間のペアワイズ関係を表すソフト隣接行列を構築するグラフモジュールを使用します。このアプローチは、関係抽出やエンティティリンキングなどの複雑なテキスト相互作用を持つ文書における長距離依存関係とコンテキストの捉え方に特に効果的です。

PICKは、テキストセグメント間の関係を捉えるために、テキストとレイアウトの特徴をグラフ学習モジュールと組み合わせて使用します。テキストの読み取りと情報抽出(TRIE)モデルは、通常は分離されているテキスト読み取りとテキスト理解のタスクを、エンドツーエンドで訓練されたネットワークに融合させる点でユニークです。

3.2 トランスフォーマーベースのモデル

トランスフォーマーベースのモデルは自然言語処理の分野に革命をもたらし、文書理解タスクのために広く適応されてきました。これらのモデルは、データの異なる部分間の依存関係を、その距離に関係なく捉えることができるセルフアテンションメカニズムを活用しています。近年、マルチモーダル文書データの独自の課題に対応するため、様々なトランスフォーマーベースのアーキテクチャが開発され調整されてきました。

3.2.1 レイアウト-視覚融合モデル

レイアウト-視覚融合モデルは、文書画像からのレイアウトと視覚情報をテキストコンテンツと統合して文書理解を強化します。これらのモデルは、バウンディングボックス座標、画像埋め込み、空間関係などの特徴を組み合わせて文書の構造的レイアウトを捉え、フォーム理解やテーブル抽出など、正確な空間情報を必要とするタスクに適しています。

LayoutLMは、テキストレベルの文書情報(WordPiece表現を使用)とテキストの2D位置表現を共同で訓練した最初のトランスフォーマーモデルでした。さらに、微調整中にトークン領域の画像埋め込みを使用してレイアウト情報を追加しました。これにより、フォーム理解を含む複数のダウンストリームタスクで最先端の結果を達成しました。

LayoutLMv2はLayoutLMモデルの進化形です。主要なアイデアは、テキスト、レイアウト、視覚情報の関係をさらに統合することです。著者らは、事前訓練中に画像情報を組み込むことと新しい事前訓練タスクの導入によってこれを実現しています。元のLayoutLMモデルは伝統的なトランスフォーマーのセルフアテンションメカニズムに依存していましたが、これは空間認識型セルフアテンションメカニズムに置き換えられました。

3.2.2 マルチモーダル融合モデル

マルチモーダルトランスフォーマーアプローチは、モダリティの融合を進化させ、テキスト、レイアウト、視覚情報をより効果的に統合するための新しいメカニズムを導入した大規模モデルの一種です。これらのモデルはトランスフォーマーアーキテクチャへの修正を提案し、トークン間の多次元関係を捉えるための空間認識型セルフアテンションメカニズムなどを導入しています。また、文書コンテンツとレイアウトの理解を強化するために、テキスト-画像マッチングやシーケンス長予測などの新しい事前訓練タスクも導入しています。

SelfDocは、テキスト特徴をエンコードする方法において革新的なモデルです。単語レベルの埋め込みで作業する代わりに、セマンティックに関連するコンポーネント(テキストブロック、タイトル、リスト、テーブル、図)でグループ化されたテキストをモデル入力として受け取ります。エンコードされた視覚テキスト特徴ベクトルは、別々の2つの異なるマルチヘッドアテンションエンコーダに通されます。

UniLMv2は、自動エンコーディングモデルと部分的に自動回帰的なモデルからなる統一言語モデルの事前訓練を可能にします。自動エンコーディングモデルはBERTのようにコンテキストに条件付けてトークンを予測します。部分的に自動回帰的なモデルはマスクされた疑似マスクトークンに基づいており、一つの因子化ステップで一つ以上のマスク(または疑似マスク)トークンを予測できます。

3.2.3 クロスモーダル相互作用モデル

クロスモーダル相互作用モデルは、マルチモーダルデータ内のテキストやレイアウトなど、異なるモダリティ間の相互作用を促進する人工知能モデルの一種です。これらはアテンションメカニズムや融合戦略を採用して、クロスモーダル情報交換を可能にし、データの認識と理解を向上させます。これらのモデルは、文書分析、画像-テキスト検索、ビデオ質問応答など、様々なクロスモーダルタスクに適しています。

UDocは、単一モデル内で効果的なクロスモーダル相互作用を可能にする、マルチレイヤーゲーテッドクロスアテンションエンコーダを採用するフレームワークです。従来の手法とは異なり、UDocはテキストと視覚の両方の特徴を組み込むことで、文書の複雑で多様な性質を考慮に入れています。

TILTは、プレーンテキストを超えて拡張する文書における自然言語理解の複雑な課題に対処するため、テキスト-画像-レイアウトトランスフォーマー(TILT)ニューラルネットワークアーキテクチャを導入しています。TILTはレイアウト情報、視覚特徴、テキストのセマンティクスを同時に捉えるように設計されており、豊かな空間レイアウトを持つ文書を処理する能力を持っています。

3.2.4 シーケンスツーシーケンスモデル

エンコーダ-デコーダおよびシーケンスツーシーケンスモデルは、入力データを処理するエンコーダと逐次出力を生成するデコーダを含みます。エンコーダとデコーダは、リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、またはトランスフォーマーなど、異なるアーキテクチャで構成できます。これらは、入力と出力が異なる長さや構造を持つテキスト生成、翻訳、シーケンス予測などのタスクに使用されます。

GenDocモデルはエンコーダ-デコーダアーキテクチャを採用しており、様々な出力形式を持つ多様なダウンストリームタスクへの適応性を可能にし、これが一般的なエンコーダのみのモデルとの差別化要因となっています。GenDocの事前訓練タスクは、マスクされたテキスト予測、マスクされた画像トークン予測、マスクされた座標予測を包含し、複数のモダリティに対応しています。

3.2.5 レイアウト表現と言語に依存しないモデル

レイアウト表現モデルは、文書内のコンポーネントの空間的配置を捉えて表現することに焦点を当てています。これらは構造分析や抽出などのタスク向けにレイアウト情報をエンコードします。言語に依存しないモデルは、複数の言語にわたって動作するように設計されています。これらは多くの場合、一つの言語での事前訓練と他の言語での微調整を利用し、様々な言語での文書理解を可能にします。

MCLRは提案された手法でセルベースのレイアウト表現を採用しています。この表現は、文書内のコンポーネントの位置を定義するために行と列のインデックスを利用し、人間の読書習慣に合わせ、レイアウト構造のより直感的な理解を促進します。

3.2.6 ハイブリッドトランスフォーマーアーキテクチャ

ハイブリッドトランスフォーマーアーキテクチャは、文書理解における計算複雑性と多様な構造的表現の課題に対処するための革新的なデザインを活用しています。これらのモデルはしばしば、対称クロスアテンション(SCA)などの新しいアテンションメカニズムを組み込み、マルチモーダル情報を効率的に処理するためのマージングブロックと拡張ブロックを持つ砂時計型トランスフォーマーアーキテクチャを利用しています。これらのデザインは複雑な文書の分析における性能と効率性の両方を向上させます。

StructuralLMはLayoutLMモデルの後継です。2D単語埋め込みの代わりに2Dセル位置埋め込みで動作する点でLayoutLMとは異なります。核心的なアイデアは、単語をグループ化することで単語関係をより良く捉えることです。各ドキュメントdはセルの配列d = {c1, …, cn}として表され、各セルは単語の配列ci = {w1i, …, cmi}として表されます。ここで、セルciの各単語wiは同じ2D位置埋め込みを持ちます。

4. データセット

この節では、フォーム理解タスクに一般的に使用されるデータセットを紹介します。データセットの基本的な特徴の比較については、表2を参照してください。

4.1 RVL-CDIPとIIT-CDIP

Ryerson Vision Lab Complex Document Information Processing (RVL-CDIP)データセットはディープCNNを評価するために作成されました。このデータセットはIIT Complex Document Information Processing Test Collection (IIT-CDIP)データセットのサブセットであり、IIT-CDIPはカリフォルニア大学サンフランシスコが作成したLegacy Tobacco Documents Library (LTDL)からの文書コレクションを含んでいます。RVL-CDIPデータセットは400,000枚のグレースケール画像から構成され、フォーム文書を含む16クラスに分けられています。

4.2 FUNSD

Noisy Scanned Documents内のフォーム理解のためのデータセット(FUNSD)は、マーケティング、科学などのさまざまな分野から完全にアノテーションされた199のフォームのコレクションです。すべてのフォームはラスタライズされた、ノイズを含む低解像度の一ページフォームです。著者はRVL-CDIPデータセットのフォームカテゴリから3,200の適格文書を手動で選択し、ランダムサンプリングを使用して最終的に199の文書のセットを得ました。

4.3 XFUND

XFUNDはFUNSDを拡張したもので、データセットが中国語、日本語、スペイン語、フランス語、イタリア語、ドイツ語、ポルトガル語という7つの他の言語に翻訳されています。FUNSDと同様に、このデータセットにも文書内のセマンティックエンティティとそれらの相互関係に関する情報が含まれています。

4.4 NAF

NAFは米国国立公文書館の歴史的フォーム画像から作成されたアノテーション付きデータセットです。フォームはさまざまなレイアウトを持ち、劣化や印刷に使用された機械によるノイズがあります。データセットのフォームには一般的に英語の事前印刷されたテキストと英語の入力テキスト(手書き、タイプされたテキスト、スタンプされたコンテンツで構成)が含まれています。

4.5 PubLayNet

PubLayNetはPubMed CentralTMからの1,162,856の科学的PDF記事のXML表現とコンテンツを一致させることによって自動的に作成されたデータセットです。このデータセットは主に文書レイアウト分析の研究を進めるために作成されたもので、特にフォーム検出用に作られたものではありません。

4.6 SROIE

SROIEデータセットはICDAR 2019のScanned Receipt OCR and Information Extraction競争の一部として作成されました。このデータセットには、3つの競争タスク(テキストローカライゼーション、OCR、キー情報抽出)に応じて異なるアノテーションを持つ1000のスキャンされたレシート画像が含まれています。

4.7 CORD

Consolidated Receipt Dataset for post-OCR parsing (CORD)は、ボックスレベルのテキストと解析クラスのアノテーションを含む最初の公開データセットとして作成されました。データセット自体には、クラウドソーシングを通じて収集されたインドネシアの店舗やレストランからの11,000のレシートが含まれています。

4.8 DocVQA

DocVQAは、ビジュアル質問応答タスク用の多様なタイプの12,767の文書画像からなるデータセットです。文書はUCSF Industry Documents Libraryの文書から取得されました。個々の文書は、適切な画像品質とテーブル、フォーム、リスト、図を提供するために手作業で選ばれました。

4.9 Form-NLU

Form-NLUはフォームベースの文書のコンテキストにおける自然言語理解(NLU)の分野を進めるために設計された包括的なデータセットです。このデータセットは合計857の文書画像、6千のフォームキーと値、4千のテーブルキーと値で構成されています。これらの文書にはデジタル、印刷、手書きなど様々なタイプのフォームが含まれています。

4.10 VRDU

VRDUはビジュアルリッチな文書理解のためのベンチマークデータセットで、2つの異なるデータセット(641文書のAd-buyフォームと1,915文書の登録フォーム)で構成されています。これらのデータセットは、視覚的に複雑な文書から構造化データを抽出する課題に対処するように設計されています。

5. 実験結果

この節では、FUNSD、SROIE、CORD、RVL-CDIP、DocVQA、Publaynetなどの様々なデータセットにおける選択されたモデルの包括的な比較を提供します。精度、再現率、F1スコア、正確性、平均正規化行類似度(Anls)、平均適合率(MAP)などの指標を用いてモデルの性能を評価しています。

5.1 評価指標

スキャンされた文書から構造化情報を抽出するモデルの有効性を評価するために、いくつかの評価指標を利用しています。主要な評価指標は以下の通りです。

5.1.1 精度、再現率、F1スコア、正確性

精度、再現率、F1スコア、正確性は分類タスクにおけるモデルの性能を評価するための標準的な指標です。これらの指標は以下のように計算されます:

  • 精度 = 真陽性 / (真陽性 + 偽陽性)
  • 再現率 = 真陽性 / (真陽性 + 偽陰性)
  • F1スコア = 2 × 精度 × 再現率 / (精度 + 再現率)
  • 正確性 = (真陽性 + 真陰性) / 全サンプル

5.1.2 平均正規化レーベンシュタイン類似度(anls)

Anls(Biten et al. 2019)はOCRの誤りを捕捉し、意図された正確な応答だが認識が悪い場合に軽微なペナルティを適用します。また、閾値0.5を使用しており、この閾値はメトリックの出力がANLS(その値が0.5以上の場合)または0(それ以外の場合)になるかを決定します。

5.1.3 平均適合率(MAP)

MAPは情報検索タスクにおけるランク付けリストの品質を評価するために一般的に使用される指標です。各クエリの平均精度(AP)を計算し、それらの値をすべてのクエリにわたって平均化します。MAPはオブジェクト検出においてもモデルの性能を評価するために使用されます。

5.2 モデル比較

この節では、FUNSD、SROIE、CORD、RVL-CDIP、DocVQA、Publaynetデータセットにおける選択されたモデルの比較を表3、4、5、8、6、7に示します。表には各データセットにおける各モデルの精度、再現率、F1スコア、正確性、Anls、MAP、パラメータ数が提供されています。

5.2.1 FUNSDデータセット

FUNSDデータセットは、フォーム理解タスクで有名であり、様々なモデルの性能を評価するための重要なベンチマークとして機能しています。表3の比較結果の包括的な分析から、モデルの能力に関する貴重な洞察が得られます。特に、LayoutLMからLayoutLMv2への移行は、空間認識型セルフアテンションの導入による影響を強調しており、F1スコアの向上につながっています。

5.2.2 SROIEデータセット

レシート理解とキー情報抽出タスクを中心としたSROIEデータセットにおける様々なモデルの評価は、これらのモデルのフォームベースの理解能力に関する洞察を提供します。LayoutLMv2 BASEとLayoutLMv2 LARGEはレシート理解タスクにおいて優れた性能を示しています。両モデルは高い精度、再現率、F1スコア(それぞれ0.9625と0.9661)を達成しています。

5.2.3 Publaynetデータセット

PubLayNetデータセットは、主に文書レイアウト分析を進めることに焦点を当てていますが、その広範なアノテーションと多様な科学的コンテンツのため、フォーム理解分野の研究者から注目を集めています。評価されたモデルの中で、LayoutLMv3 Baseは0.9510という高い平均適合率(MAP)で際立っています。これは、モデルの空間認識型セルフアテンションメカニズムとアーキテクチャが、複雑な科学的文書のコンテキストでさえ、レイアウト情報を効果的に捉えることに貢献していることを示唆しています。

5.2.4 RVL-CDIPデータセット

RVL-CDIPデータセットは、マルチクラス単一ラベル分類タスクを特徴とするフォーム理解の領域で異なる次元を提供しています。表6に示された包括的なモデル比較は、様々なモデルの性能に関する貴重な洞察を提供しています。これらのモデルの中で、DocFormerアーキテクチャが優れた性能を示しており、特にDocFormer Baseは例外的な正確性スコア0.9617を達成し、最前線に位置しています。

5.2.5 CORDデータセット

CORDデータセットはレシート理解により焦点を当てていますが、モデルはテキストコンテンツ、空間配置、全体的な構造など、文書の異なる側面を捉える様々な強みを示しています。表7に示された比較結果の包括的な分析によると、LayoutLMの変種であるLayoutLM BASEとLayoutLM LARGEは、それぞれ0.9472と0.9493のF1スコアを持ち、そのレイアウト認識型セルフアテンションメカニズムの恩恵を受けて強い性能を示しています。

5.2.6 DocVQAデータセット

DocVQAデータセットにおける様々なモデルの評価は、文書ベースのビジュアル質問応答によって提示される課題への対処における有効性に関する洞察を提供します。表8は、このデータセットにおける異なるモデルの性能の包括的な比較を示しています。StructuralLM LARGEは0.8610という分析スコアを誇る強力なパフォーマーとして際立っています。

5.2.7 全体的な洞察

この節では、LayoutLMv2やDocFormerなどのモデルのフォーム理解タスクにおける適応性と有効性に関する洞察を提供する、様々なデータセットとモデル比較の包括的な分析を提供しています。この探索を通じて、個々のデータセットを超えた主要なトレンドと課題を特定しており、フォーム理解のより広い景観を照らし出しています。注目すべき観察の一つは、さまざまなデータセットにわたるモデルの比較によって明らかになった、フォーム理解タスクに取り組むために採用された戦略の多様な範囲です。

6. 結論

フォーム理解、特にスキャンされた文書のコンテキストにおいては、文書レイアウトの固有の複雑さ、ノイズの多い入力、非構造化形式から生じる多くの課題が存在します。この調査を通じて、私たちはこの分野における最近の進展を強調してきました。特に、テキスト、レイアウト、視覚的特徴間の関係をよりよく捉えるために空間認識型セルフアテンションメカニズムを組み込むLayoutLMv2やDocFormerなどのモデルの有効性に注目しました。

しかし、さらなる探求が必要な課題がいくつか残っています。主要な課題の一つは、テキスト位置エンコーディングとレイアウト情報の効率的な統合です。LayoutLMv2やDocFormerなどのモデルは位置埋め込みを通じてレイアウト情報を活用する上で大きな進歩を遂げていますが、文書構造の変動性に動的に適応できるより高度な技術が依然として必要とされています。将来のモデルは、レイアウトが重要な役割を果たす文書において、関連情報の抽出を改善するために、位置的および視覚的コンテキストをテキスト特徴と継ぎ目なく統合できる必要があります。

もう一つの課題は、大規模モデルに関連する計算複雑性であり、これらはトレーニングと推論の両方に多大なリソースを必要とします。これにより、モバイルアプリケーションやエッジデバイスなどのリソース制約のある環境へのデプロイメントが妨げられる可能性があります。将来の研究では、モデルの削減、量子化、知識蒸留などの技術を活用して、計算オーバーヘッドを削減しながら高い精度を維持するより効率的なアーキテクチャの開発に焦点を当てることができるでしょう。

将来の方向性に関しては、テキスト、視覚、位置的手がかりを組み合わせるマルチモーダル学習の統合は有望な道を提示しています。さらに、スキャンされたフォームなど、不規則な構造を持つ実世界の文書におけるノイズや複雑なレイアウトを処理する新しい方法を探求することも、この分野を前進させる上で重要となるでしょう。広範にラベル付けされたデータセットの必要性を減らすことができる自己教師あり学習における革新も、将来のブレークスルーにおいて重要な役割を果たす可能性があります。

最後に、分布外の文書の処理を改善し、多様なデータセット間でより良く一般化するモデルを開発することも、将来の研究の主要な領域です。この分野が進むにつれて、様々なフォームや文書を扱う際の堅牢性と適応性を高めるために、伝統的なルールベースのシステムと機械学習モデルを組み合わせたハイブリッドアプローチの発展を予測しています。フォーム理解における将来の研究には、混合レイアウトの扱い、異なる言語へのモデルの適応、フォーム内の複雑な構造への対処などの課題の取り組みが含まれる可能性があります。多様なフォームコンポーネントから情報をシームレスに抽出する技術の開発は、より多用途なモデルにつながるでしょう。