[論文紹介#75]MolmoとPixMo:最先端のマルチモーダルモデルのためのオープンウェイトとオープンデータ

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

この論文は、オープンデータとオープンウェイトを使用して、高性能なマルチモーダルモデル「Molmo」を提案し、独自の高品質な画像キャプションデータセットとトレーニング手法を通じて、プロプライエタリモデルに匹敵する性能を達成したことを報告しています。

論文:https://molmo.allenai.org/paper.pdf
デモ:https://molmo.allenai.org/blog

以下は、LLMを用いてこの論文の内容を要約したものになります。

要約

この論文では、多様なデータセットとオープンなモデル重みを用いた新しいマルチモーダルモデル「Molmo」を紹介しています。Molmoは、特に人間のアノテーターによって収集された詳細な画像キャプションデータに基づいており、合成データに依存せずに優れた性能を発揮します。また、質問応答や2Dポイントデータを含む多様なデータセットを用いてファインチューニングを行い、他の最先端モデルと比較しても高い評価を得ています。さらに、すべてのモデルの重みやデータ、ソースコードを公開予定であり、オープンサイエンスの原則に従っています。最終的に、Molmoは学術的なベンチマークで優れたスコアを達成し、ユーザーの評価でも高い支持を得ています。

Molmoは、合成データに依存せずに人間の音声による詳細な画像キャプションから生成された高品質なデータセットを使用し、最先端のマルチモーダルモデルとしての性能を実現しています。

1. 概要

本章では、現在のマルチモーダルモデルの多くが商業的に閉じており、オープンウェイトモデルの多くがプロプライエタリな視覚言語モデル(VLM)からの合成データに依存している現状を指摘しています。このため、研究コミュニティは高性能なVLMをゼロから構築するための基礎知識を欠いています。本研究は、Molmoという新しいVLMファミリーを提案し、完全に人間によってアノテートされたデータセット「PixMo」を用いて訓練されたことを強調しています。

2. モデルアーキテクチャ

Molmoのアーキテクチャはシンプルで、以下の4つの主要コンポーネントから構成されています。

  1. 前処理器:入力画像をマルチスケールのマルチクロップ画像に変換します。
  2. ViT画像エンコーダ:これらの画像を視覚トークンに変換します。
  3. コネクタ:視覚トークンを言語モデルの入力次元にプロジェクトし、トークン数を削減します。
  4. デコーダのみのトランスフォーマーLLM:最終的な生成を行います。

3. データとトレーニング

Molmoのトレーニングプロセスは、以下の2つの主要な段階で構成されています。

  1. キャプション生成:新たに収集した「PixMo-Cap」というデータを使用して、アノテーターに60〜90秒間の音声説明を行わせ、質の高いキャプションを生成します。
  2. 監視付きファインチューニング:学術データセットと新たに収集したPixMoデータを用いてファインチューニングを行います。

PixMoには多様なデータセットがあり、以下を含みます:
PixMo-AskModelAnything:ユーザーからの質問データ。
PixMo-Points:視覚的なポイントデータ。
PixMo-CapQA:キャプションに基づく質問応答データ。

4. 評価

Molmoは、11の学術ベンチマークで評価され、特にVQA v2やDocVQAなどが含まれています。また、870人以上のアノテーターによるヒューマン評価を通じて、870人が多様な画像とテキストペアに対して評価を行い、325,000以上の評価が収集されました。この評価により、Molmoはプロプライエタリシステムと比較して高いパフォーマンスを示しました。

5. リリースプラン

Molmoのモデルとデータは、2024年9月25日に公開される予定です。リリースされる内容には、デモ、推論コード、以下のモデルウェイトが含まれます:
– MolmoE-1B
– Molmo-7B-O
– Molmo-7B-D
– Molmo-72B

付録

この論文には明示的な付録は存在しませんが、リリース計画では、今後の詳細な技術報告やPixMoデータセット、更新されたモデルウェイト、トレーニングと評価のコードが公開される予定です。