[OSS紹介#10] DiT：文書画像に特化したトランスフォーマーモデルの力を探る

4月 27, 2025

この記事について

この記事では、注目のオープンソースソフトウェア（OSS）である「DiT」をご紹介します。この記事は連載の第10回目にあたりますが、最近の研究において特に注目されている画像解析ツールに焦点を当てています。

「DiT（Document Image Transformer）」は、文書画像に特化したトランスフォーマーモデルであり、大規模な自己教師あり学習を通じて文書AIタスクに必要な能力を培っています。この技術は、手動でラベルが付けられた文書画像が存在しないため、従来の教師あり学習の方法が適用できないという課題に取り組むものです。画像解析の領域では、文書のレイアウト解析や分類など、重要なタスクが多くありますが、これらは依然として膨大なデータの用意が必要です。

「DiT」は、その自己教師あり学習によって生成されたモデルを利用し、これらのタスクにおいて高いパフォーマンスを発揮します。今回、私たちは「DiT」の概要や応用例について掘り下げ、その可能性と意義を探っていきます。画像解析の分野における新たな道を切り拓く「DiT」の力を、一緒に見ていきましょう。

リンク：https://github.com/microsoft/unilm/tree/master/dit

本コンテンツは、弊社AI開発ツール「IXV」を用いたOSSツール紹介です。情報の正確性には努めておりますが、内容に誤りが含まれる可能性がございますのでご了承ください。

1. DiTでできること

DiT（Document Image Transformer）は、大規模なラベルなしのテキスト画像を用いた自己教師ありの文書画像トランスフォーマーモデルで、文書AIタスクにおいて重要な役割を果たします。このモデルは、従来の監視学習による対応物が存在しないため、特に有用です。DiTは、文書画像の解析や分類を行うために設計されており、以下のような主な機能を提供します。

文書レイアウト分析: 文書内の各要素の位置を解析し、構造を理解します。
文書画像分類: 異なる文書の種類や内容を分類することで、情報整理を支援します。
テーブル検出: 文書内のテーブルを特定し、データ抽出を行います。

2. セットアップ手順

DiTを使用するためのセットアップ手順は以下の通りです。

2.1 リポジトリのクローン

まず、GitHubからリポジトリをクローンし、必要なパッケージをインストールします。

git clone https://github.com/microsoft/unilm.git
cd unilm/dit
pip install -r requirements.txt

2.2 必要なパッケージのインストール

必要なパッケージには以下が含まれています。

Pytorch（バージョン1.9.0）
torchvision（バージョン0.10.0）
Timm（バージョン0.5.4）

さらに、混合精度トレーニングを行うためには、NVIDIAのApexをインストールします。

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

2.3 追加ライブラリのインストール

オブジェクト検出を行うには、Detectron2ライブラリとShapelyを追加でインストールする必要があります。

python -m pip install detectron2 -f https://dl.fbaipublicfiles.com/detectron2/wheels/cu111/torch1.9/index.html
pip install shapely

3. 簡単な使い方

DiTを使用した後、文書画像解析や分類を行うための基本的な流れは以下の通りです。

3.1 モデルの初期化

最初に、使用するモデル（DiT-baseまたはDiT-large）を初期化します。これにより、文書画像を処理するための準備が整います。

3.2 データの準備

解析または分類したい文書画像データを準備します。このデータは、特定のフォーマットである必要があります。

3.3 モデルの実行

モデルを実行し、文書画像の解析や分類を実施します。以下は、文書レイアウト分析の例です。

from dit import DocumentImageTransformer

model = DocumentImageTransformer.from_pretrained('path_to_model')
results = model.analyze(document_image)

3.4 結果の確認

モデルの出力結果を確認し、解析されたデータや分類結果を取得します。必要に応じて、結果を可視化することも可能です。

結論

DiTは、文書画像に対する自己教師あり学習を用いた強力なツールであり、文書AIタスクにおいて非常に有用です。セットアップも比較的簡単で、幅広い機能を持っています。特に、文書の解析や分類、テーブルの検出など、実用的なアプリケーションに適しています。今後、さらなる発展が期待される分野の一つです。詳細な情報は、GitHubリポジトリを参照してください。

仕様駆動開発の英語版概説論文 ― 『Spec-Driven Development: A Concise Overview』を Zenodo で公開しました

仕様駆動開発とは何か ― その3つの技術要素・4つの原則・7つの工程

仕様駆動アーキテクチャという考え方 ― 仕様駆動開発を、経営に広げる

それでも歩みを止めず、前へ進む

感謝とアンサー動画のお知らせ