[OSS紹介#4]Yomitoku:シリーズ第4弾!日本語特化のAI文書解析ツールで7000文字以上の日本語OCRと縦書き・手書きにも対応

この記事について

このブログシリーズでは、注目すべきオープンソースソフトウェア(OSS)を定期的に紹介していきます。連載第4回となる今回は、日本語文書の画像解析に特化した「Yomitoku」に焦点を当てます。

近年、デジタル化が進む中でも、紙の文書や手書き資料は依然として多く存在しています。特に日本語の場合、文字種の多さや縦書き・横書きの混在など、正確な文字認識には独自の課題があります。Yomitokuは、そうした日本語特有の課題に対応した革新的なOCRツールとして注目を集めています。

Yomitokuの特徴は、7000文字以上の日本語に対応し、手書き文字や縦書きテキストも高精度で認識できる点です。また、4種類のAIモデルを組み合わせることで、単なる文字認識だけでなく、レイアウト解析や表構造の認識も可能にしています。解析結果はHTML、マークダウン、JSONなど様々な形式で出力でき、既存のワークフローに柔軟に組み込むことができます。

本記事では、日本語文書のデジタル化における課題を解決する強力なツールとして、Yomitokuの機能と使い方を詳しく解説します。8GB以内のVRAMで動作する設計も魅力的で、特別なハイエンドGPUを用意せずとも高速な処理が可能です。研究プロジェクトやビジネス文書のデジタル化を検討している方々に、新たな可能性を提供するツールとなるでしょう。

リンク:https://github.com/kotaro-kinoshita/yomitoku


本コンテンツは、弊社AI開発ツール「IXV」を用いたOSSツール紹介です。情報の正確性には努めておりますが、内容に誤りが含まれる可能性がございますのでご了承ください。

1. Yomitokuでできること

Yomitokuは、日本語に特化したAIによる文書画像解析パッケージです。以下の機能を提供しています。

1.1 文字認識とレイアウト解析

Yomitokuは、7000文字を超える日本語文字を認識する能力を持ち、手書き文字や縦書き文書の解析も可能です。4種類のAIモデル(文字位置検知、文字列認識、レイアウト解析、表構造認識)が搭載されており、文書の意味的構造を壊さずに情報を抽出できます。

1.2 多様な出力形式

解析結果はHTML、マークダウン、JSON、CSVなどの形式で出力でき、文書内の図表や画像も抽出可能です。これにより、結果を容易に他のシステムと統合できます。

1.3 高速な処理

YomitokuはGPU環境での動作を前提としており、効率的に文書の文字起こし解析を行えます。VRAMが8GB以内で動作するため、特別なハイエンドGPUを準備する必要はありません。

2. セットアップ手順

Yomitokuのインストールは非常にシンプルです。

2.1 インストール

以下のコマンドを使用してYomitokuをインストールします。

pip install yomitoku

PyTorchのインストールには、使用するCUDAバージョンに応じたものを選択する必要があります。デフォルトではCUDA 12.4以上が必要です。PyTorchは2.5以上のバージョンに対応しているため、CUDA 11.8以上が必要となります。Dockerを利用することで環境構築を簡略化することも可能です。

3. 簡単な使い方

Yomitokuを使用して文書を解析する方法は以下の通りです。

3.1 実行コマンド

以下のコマンドでYomitokuを実行します。

yomitoku ${path_data} -f md -o results -v --figure --lite
  • ${path_data}:解析対象の画像が含まれるディレクトリまたは画像ファイルのパスを指定します。
  • -f:出力形式を指定します(json, csv, html, md)。
  • -o:出力先のディレクトリ名を指定します。
  • -v:解析結果を可視化した画像を出力します。
  • -l:軽量モデルで推論を実行します。
  • -d:使用するデバイスを指定します(デフォルトはGPU)。
  • その他にも多くのオプションが用意されており、詳細はヘルプを参照してください。

4. 結論

Yomitokuは、日本語文書の画像解析に特化した強力なツールです。高精度なOCR機能と柔軟な出力形式を提供し、さらにGPU環境での高速処理が可能です。これにより、多様な文書解析のニーズに応えることができるため、研究やビジネスでの活用が期待されます。詳細なドキュメントはこちらを参照してください。