目次
LayoutRAG: Retrieval-Augmented Model for Content-agnostic Conditional Layout Generation
この論文は、条件に基づくレイアウト生成を改善するための「LayoutRAG」というモデルを提案し、参照レイアウトの検索と生成プロセスを組み合わせることで、より高品質なレイアウトを生成する手法を示しています。
本論文の特徴は、条件に基づくレイアウト生成において、参照となるレイアウトテンプレートを取得し、それを利用して生成プロセスをガイドすることで、潜在的な情報を引き出し、生成されるレイアウトの品質を大幅に向上させる点です。
論文:https://arxiv.org/abs/2506.02697


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。
概要
近年、制御可能なレイアウト生成は、特定のオプション制約に従って、グラフィックデザイン内の要素のバウンディングボックスのプラウザルな視覚配置を作成することを目的としています。最近の拡散モデルやフローマッチングモデルは、多様な条件生成タスクでかなりの進展を遂げていますが、与えられた条件の下で最適な配置を生成する余地は依然として残っています。
本研究では、条件に基づいたレイアウト生成を、条件に応じたレイアウトテンプレートを取得し、参照に基づいて生成を行う方法を提案します。具体的には、与えられた条件に基づいて適切なレイアウトテンプレートを取得し、それを参照として利用して、デノイジングまたはフローに基づく輸送プロセスをガイドします。条件に適合したレイアウトを取得することで、与えられた条件に明示的に提供されていない潜在的な情報を明らかにすることができます。
このアプローチは、条件をモデルにフィードし、モデルが未提供のレイアウト属性を直接推測させる従来のモデルと比較して、生成プロセス中にモデルに対してより効果的なガイダンスを提供します。また、条件を調整する注意機構を設計し、取得した知識を選択的に吸収し、取得したテンプレートと与えられた条件の違いに適応させます。広範な実験結果は、我々の方法が与えられた条件を満たす高品質なレイアウトを成功裏に生成し、既存の最先端モデルを上回ることを示しています。コードは受理後に公開される予定です。
1. はじめに
レイアウト生成は、キャンバスや文書ページ上の画像やテキストなどの視覚コンポーネントを配置するプロセスである。質の高いレイアウトの生成は、ユーザーインターフェースやグラフィックデザインなどの多様なアプリケーションにおいて重要である。特に、ユーザーが指定した条件に基づいてレイアウトを生成することが求められ、これを実現するためには、効果的にユーザーの要求を理解し、適切なレイアウトを生成するモデルの開発が必要である。
2. 関連研究
2.1 拡散に基づくレイアウト生成
近年、拡散モデルは生成および編集タスクにおいて優れた成果を上げている。レイアウト生成においても、これらのモデルが採用され、条件付き生成の柔軟性と質が向上している。特に、LayoutDMやLayoutDiffusionなどが有名であるが、依然として最適なレイアウトを見つけることには限界がある。
2.2 条件付けメカニズム
ユーザーインタラクションを必要とするリアルワールドのアプリケーションにおいて、さまざまな条件付きレイアウト生成モデルが提案されている。これらのモデルは、条件を基にした生成が可能であり、特に拡散モデルが注目されている。
2.3 取得拡張生成
取得拡張メカニズムは、生成モデルの性能を向上させる手法として広く利用されている。特に、外部メモリからの情報を活用することで、生成プロセスをサポートすることができる。これにより、生成モデルのパラメータを大幅に増やすことなく、情報を取り込むことが可能となる。
3. 方法
3.1 レイアウト取得
レイアウトの取得データベースは、トレーニングデータ全体をエンティティとして選択し、カテゴリごとのカウントに基づくインデックスシステムを構築する。これは、与えられた条件に基づいて適切なレイアウトを検索するために役立つ。具体的には、要素のカテゴリカウントを用いて、条件に合致するレイアウトを効率的に見つけ出す。
3.2 取得拡張レイアウト生成
フローマッチングを用いて、単純な分布から複雑なターゲットデータ分布へのフローを推定する。条件付きベクトル場を学習するために、取得したレイアウトを参照として使用し、モデルの生成性能を向上させる。モデルのトレーニング後、初期分布からサンプリングし、生成を行う。
4. 実験
4.1 実験設定
RICOおよびPubLayNetのデータセットを使用してモデルを評価する。これらのデータセットは、様々なレイアウト生成タスクに対して広範な評価を行うための基盤となる。
4.2 定量分析
提案手法は、既存の最先端モデルに対して優れたパフォーマンスを示し、特にFIDやmIoUなどの指標で他のモデルを上回る結果を得ている。
4.3 アブレーション研究
取得結果の詳細な分析を行い、条件に基づく取得メカニズムの有用性を示す。ほとんどのケースで適切なレイアウトテンプレートを取得できることが確認されている。
4.4 定性的評価
生成したレイアウトの視覚的な評価を行い、提案手法が実際のレイアウトに類似した質の高い結果を生成することを示す事例を提供する。
5. 結論
本研究では、参照レイアウトの取得とそれに基づく生成を通じて条件付きレイアウト生成を実現する手法を提案した。実験結果は、提案手法が最先端モデルを上回る性能を示すことを確認している。取得に基づくアプローチは、モデルの柔軟性を高め、ポストホックな修正を可能にすることが示された。