目次
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action
この論文は、複雑な多段階かつ多様なタスクに対するパフォーマンスを向上させるために、合成された思考と行動の連鎖を学習するマルチモーダルアクションモデル「TACO」を提案するものです。
TACOモデルは、外部ツールを活用して中間ステップを実行しながら思考と行動を統合することで、複雑なマルチモーダルタスクにおける推論能力を大幅に向上させる新しいアプローチを提供します。
論文:https://arxiv.org/abs/2412.05479
リポジトリ:https://taco-project.github.io/
以下は、LLMを用いてこの論文の内容を要約したものになります。
概要
オープンソースのマルチモーダル言語モデルは、単純な質問応答タスクでは良好な性能を発揮しますが、細かい認識や視覚的基盤、推論が必要な複雑な質問や、多段階の解決策を求めるタスクにはしばしば失敗します。私たちは、こうした複雑で多段階、マルチモーダルなタスクでの性能を向上させるために設計された「TACO」という一連のマルチモーダル大規模アクションモデルを提案します。
推論中、TACOは「思考と行動の連鎖(CoTA)」を生成し、OCRや深度推定、計算機などの外部ツールを呼び出して中間ステップを実行し、その後、思考と行動の出力を統合して一貫した応答を生成します。TACOを訓練するために、私たちはGPT-4oとPythonプログラムを使用して生成した100万以上の合成CoTAトレースの大規模データセットを作成しました。
その後、さまざまなデータフィルタリングおよび混合技術を試し、高品質なCoTAの例293Kの最終サブセットを取得しました。このデータセットにより、TACOは複雑な推論と行動パスを学ぶことができ、直接的な回答のみの指示調整データで訓練された既存のモデルを上回ります。私たちのモデルTACOは、8つのベンチマーク全体で指示調整されたベースラインを上回り、平均で3.6%の改善を達成し、OCR、数学的推論、空間的推論を含むMMVetタスクでは最大15%の向上を示しました。高品質なCoTAトレースでの訓練は、複雑なマルチモーダル推論の新たな基準を設定し、オープンソースのマルチモーダルモデルの能力向上に必要な構造化された多段階の指示調整の重要性を浮き彫りにします。
以下は、TACOに関する論文の各章をまとめた記事です。
1. TACOの概要
1.1 研究の背景
この研究では、オープンソースのマルチモーダル言語モデルが、簡単な質問応答タスクでは良好な性能を発揮する一方で、複雑な質問に対しては認識、視覚的基盤、推論といった複数の能力を必要とするため、しばしば失敗することが指摘されています。この問題を解決するために、TACO(Synthetic Chains-of-Thought-and-Actionを用いたマルチモーダルアクションモデルのファミリー)が提案されました。
1.2 TACOの設計
TACOは、複雑なマルチステップのタスクに対して性能を向上させることを目的としたマルチモーダル大規模アクションモデルです。推論時には「思考と行動の連鎖」(CoTA)を生成し、外部ツール(OCR、深度推定、計算機など)を呼び出して中間ステップを実行し、それらの出力を統合して一貫した応答を生成します。
2. 方法
2.1 データセットの生成
TACOを訓練するために、GPT-4oとPythonプログラムを使用して、100万以上の合成CoTAトレースからなる大規模データセットを作成しました。このデータセットは、複雑な推論と行動パスを学ぶための基盤を整えています。
2.2 データフィルタリングとミキシング
さまざまなデータフィルタリングおよびミキシング技術を試行し、293Kの高品質CoTA例のサブセットを得ました。このプロセスは、TACOが指示調整データに基づく従来のモデルを上回るための重要な要素です。
2.3 モデルの訓練
TACOは合成CoTAトレースを用いて訓練され、複雑なマルチモーダル推論において新たな基準を設定しました。従来のモデルと比較して、TACOは8つのベンチマークにおいて平均3.6%の改善を達成し、特にMMVetタスクにおいて最大15%の性能向上を示しました。
3. 結果
TACOは、指示調整された基準モデルと比較して、特にOCR、数学的推論、空間推論を含むタスクで優れたパフォーマンスを発揮しました。この結果は、複雑なマルチモーダル推論における新たな性能基準を示しており、TACOの訓練における高品質なCoTAトレースの重要性を強調しています。
4. 結論
本研究により、TACOは複雑なマルチモーダル推論において新たな性能基準を打ち立てることが示され、構造化された多段階の指示調整がオープンソースのマルチモーダルモデルの能力向上に寄与することが強調されました。今後の研究においても、このアプローチが有望であることが示唆されています。