[論文紹介#263]RT-DETRv2: リアルタイム検出トランスフォーマーのための改善されたベースラインとバグ・オブ・フリービーズ

RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer

この論文は、リアルタイム物体検出のための改良型トランスフォーマー「RT-DETRv2」を提案し、性能向上のための新しい手法や訓練戦略を紹介しています。

RT-DETRv2は、異なるスケールの特徴に対して柔軟にサンプリングポイントを設定することで、選択的なマルチスケール特徴抽出を実現し、従来のリアルタイム検出器よりも高いパフォーマンスを維持しつつ、展開制約を軽減しています。


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。

概要

本報告では、改善されたリアルタイム検出トランスフォーマー(RT-DETR)であるRT-DETRv2を紹介します。RT-DETRv2は、従来の最先端のリアルタイム検出器であるRT-DETRを基にしており、柔軟性と実用性のための一連の「バグ・オブ・フリービーズ」を開放し、パフォーマンスを向上させるためにトレーニング戦略を最適化しています。

柔軟性を向上させるために、デフォルマブルアテンションにおいて異なるスケールの特徴に対して異なる数のサンプリングポイントを設定することを提案し、デコーダーによる選択的なマルチスケール特徴抽出を実現します。実用性を高めるために、YOLOと比較してRT-DETR特有のgrid_sampleオペレーターを置き換えるオプショナルな離散サンプリングオペレーターを提案します。

これにより、DETRに通常伴う展開制約が排除されます。トレーニング戦略においては、パフォーマンスを向上させるために動的データ拡張とスケール適応型ハイパーパラメータのカスタマイズを提案し、速度の損失なくパフォーマンスを向上させます。ソースコードと事前トレーニング済みモデルは、このURLで入手可能です。

RT-DETRv2: 改良型リアルタイム検出トランスフォーマー

1. はじめに

物体検出は、画像内のオブジェクトを識別し、位置を特定する基本的なビジョンタスクです。その中でもリアルタイム物体検出は重要な分野であり、自動運転などの幅広い応用があります。近年、YOLOディテクタがこの分野で最も著名なフレームワークとなっています。RT-DETRの登場により、リアルタイム物体検出に新たな技術的手段が開かれ、この分野でのYOLOへの依存が打破されました。RT-DETRは、マルチスケール特徴のスケール内相互作用とスケール間融合を分離することで、効率的なハイブリッドエンコーダを提案し、推論速度を大幅に向上させました。本報告では、最近のRT-DETRに基づいて構築された改良型リアルタイム検出トランスフォーマーであるRT-DETRv2を紹介します。

2. 方法

2.1 フレームワーク

RT-DETRv2のフレームワークはRT-DETRと同じで、デコーダの変形可能注意モジュールのみが修正されています。現在のDETRは、マルチスケール特徴で構成される長いシーケンスの入力による高い計算オーバーヘッドを軽減するために変形可能注意モジュールを利用しています。従来は各スケールで同じサンプリングポイント数を定義していましたが、これは異なるスケールの特徴の本質的な違いを無視し、特徴抽出能力を制限していました。そこで、異なるスケールに対して異なるサンプリングポイント数を設定することで、より柔軟で効率的な特徴抽出を実現します。また、RT-DETRの実用性を向上させるため、grid_sample演算子を離散サンプリング演算子に置き換えることで、展開制約を取り除いています。

2.2 トレーニング手法

モデルの検出性能を強化するため、動的データ拡張戦略を提案しています。トレーニング初期には検出器の汎化能力が低いため、より強力なデータ拡張を適用し、後期には目標ドメインの検出に適応させるためにレベルを下げています。具体的には、トレーニング初期にはRT-DETRのデータ拡張を維持し、最後の2エポックではRandomPhotometricDistort、RandomZoomOut、RandomIoUCrop、MultiScaleInputをオフにします。また、異なるサイズの拡張RT-DETRが同じオプティマイザハイパーパラメータでトレーニングされていると、パフォーマンスが最適ではないことを観察しました。そこで、軽量検出器の事前トレーニングされたバックボーンは特徴品質が低いため学習率を上げ、大型検出器の事前トレーニングされたバックボーンは特徴品質が高いため学習率を下げる、スケール適応型ハイパーパラメータカスタマイズを提案しています。

3. 実験

3.1 実装の詳細

RT-DETRと同様に、ImageNetで事前トレーニングされたResNetをバックボーンとして使用し、バッチサイズ16のAdamWオプティマイザでRT-DETRv2をトレーニングし、ema_decay = 0.9999の指数移動平均を適用しています。離散サンプリングについては、まずgrid_sample演算子で6×事前トレーニングし、その後discrete_sample演算子で1×微調整します。スケール適応型ハイパーパラメータカスタマイズでは、表1に示すようにハイパーパラメータを設定しています。

3.2 評価

RT-DETRv2はCOCO train2017でトレーニングし、COCO val2017データセットで検証しています。標準のAPメトリクス(IoUしきい値0.50-0.95を均一にサンプリング)と実シナリオで一般的に使用されるAPval50を報告しています。

3.3 結果

表2に示すように、RT-DETRv2は異なるスケールの検出器でRT-DETRを上回るパフォーマンスを示しており、速度の低下はありません。

3.4 アブレーション

サンプリングポイントに関するアブレーション研究では、grid_sample演算子のサンプリングポイント総数を減らしても、パフォーマンスに大きな劣化を引き起こさないことが示されています。これは、ほとんどの産業シナリオでは実用的なアプリケーションに影響を与えにくいことを意味します。離散サンプリングに関するアブレーションでは、grid_sampleを削除してdiscrete_sampleに置き換えても、APval50に顕著な低下を引き起こさず、DETRの展開制約を排除できることが示されています。

4. 結論

本報告では、改良型リアルタイム検出トランスフォーマーであるRT-DETRv2を提案しました。RT-DETRv2は、RT-DETRの柔軟性と実用性を向上させるバッグ・オブ・フリービーズのセットを提供し、トレーニング戦略を最適化して速度を損なうことなく性能を向上させています。この報告がDETRファミリーに洞察を提供し、RT-DETRアプリケーションの範囲を広げることを期待しています。