目次
Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer
この論文は、エンジニアリング図面からの構造化情報抽出のために、オリエンテッドバウンディングボックス検出モデルとトランスフォーマーベースの文書解析モデルを統合した新しいハイブリッド深層学習フレームワークを提案しています。
この論文の特徴は、向き付きバウンディングボックス検出とトランスフォーマーベースの文書解析を統合することで、複雑なエンジニアリング図面からの情報抽出の精度を大幅に向上させ、手動作業を大幅に削減した点です。
論文:https://arxiv.org/abs/2505.01530


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。
概要
2Dエンジニアリング図面からの重要な情報の正確な抽出は、高精度製造にとって極めて重要です。手動での抽出は時間がかかりエラーが発生しやすく、従来の光学文字認識(OCR)技術は複雑なレイアウトや重なり合ったシンボルに対処するのが難しく、非構造的な出力をもたらします。
これらの課題に対処するため、本論文では、向き付きバウンディングボックス(OBB)検出モデルとトランスフォーマーベースの文書解析モデル(Donut)を統合した、新しいハイブリッド深層学習フレームワークを提案します。9つの主要カテゴリ(幾何公差(GD&T)、一般公差、測定、材料、注釈、半径、表面粗さ、ねじ、タイトルブロック)を検出するために、社内で注釈付けされたデータセットを用いてYOLOv11を訓練します。検出されたOBBは画像に切り抜かれ、構造化されたJSON出力のためにDonutを微調整するためにラベル付けされます。微調整戦略には、すべてのカテゴリにわたって訓練された単一モデルとカテゴリ特化型モデルが含まれます。
結果は、単一モデルがすべての評価指標においてカテゴリ特化型モデルを一貫して上回り、GD&Tで94.77%の精度、ほとんどで100%の再現率、97.3%のF1スコアを達成し、幻覚を5.23%に減少させることを示しています。提案されたフレームワークは、精度を向上させ、手動の労力を削減し、精密志向の産業でのスケーラブルな展開をサポートします。
1. 序論
2D工学図面からの重要情報の正確な抽出は精密製造に不可欠です。従来の手動抽出は時間がかかり、エラーが発生しやすいです。バルーニング技術やOCRツールなどの既存の手法は有望ですが、複雑なレイアウトや重なり合う記号の処理に課題があります。本論文では、YOLOv11-obbによる注釈領域検出とDonutモデルによる文書解析を統合し、構造化されたJSON出力を生成するハイブリッド深層学習フレームワークを提案します。
2. 方法論
本研究では、YOLOv11によるOBB検出とDonutモデルによるコンテンツ解析を統合した2段階の深層学習フレームワークを採用しています。1,367枚の2D工学図面から9つのカテゴリに注釈を付け、YOLOv11を訓練しました。検出された領域から11,469枚の画像パッチを抽出し、1,000枚の代表的なサブセットに手動でアノテーションを行いました。データ拡張により訓練データを6,000画像に拡張し、単一モデルとカテゴリ別モデルの2つの戦略でDonutを微調整しました。
3. 結果
単一モデルはすべてのカテゴリで一貫して高い精度を達成しました。例えば、表面粗さの精度は単一モデルで89.7%、カテゴリ別モデルで65.4%でした。再現率はほぼすべてのカテゴリで両モデルとも高く、多くのカテゴリで100%を達成しています。単一モデルはF1スコアでもカテゴリ別モデルを上回り、ハルシネーション率も一貫して低いことが示されました。総合的に、単一モデルはより高い精度と一般化能力を示しました。
4. 議論
提案されたハイブリッドフレームワークは2D工学図面から注釈を抽出する堅牢なパフォーマンスを示しています。単一モデルは強力な一般化能力を示し、多様なレイアウト構造を捉えることができました。本フレームワークの主な利点は、CAD/CAMシステムなどで直接使用可能な構造化JSON出力の生成能力です。モジュラー設計により、製造ニーズに応じた拡張や統合が可能ですが、代表性の低いカテゴリの精度向上などの課題も残されています。
5. 結論
本論文では、2D工学図面からの構造化情報抽出のためのハイブリッド深層学習フレームワークを提案しました。単一モデルがカテゴリ別モデルを一貫して上回り、高い精度と一般化能力を示しました。主な貢献には、アノテーション付きデータセットの開発、構造化JSON出力の生成、半自動ラベリングプロセスが含まれます。提案フレームワークは、航空宇宙や自動車産業などの精密製造分野におけるデジタル製造アプリケーションに強い可能性を示しています。