[論文紹介#20]アップルインテリジェンス基盤言語モデル

本日の論文

Apple Intelligence Foundation Language Models

この論文は、Appleが開発した基盤となる言語モデルについて、効率的で責任あるAI機能を支えるための設計、訓練プロセス、特化したタスクへの最適化に関する詳細を述べたものです。

以下は、LLMを活用して論文の内容を要約したものになります。

要約

この論文では、Apple Intelligenceの機能を支えるために開発された基盤言語モデルについて説明しています。これには、約30億パラメータのデバイス上で効率的に動作するモデルと、大規模なサーバーベースの言語モデルが含まれています。これらのモデルは、テキストの作成や通知の要約、画像の生成など、日常的なタスクを迅速かつ正確に実行するために最適化されています。論文では、モデルのアーキテクチャ、トレーニングに使用したデータ、トレーニングプロセス、推論の最適化、評価結果についても詳述されています。また、責任あるAIの原則がモデルの開発全体にどのように適用されているかを強調しています。

1. はじめに

2024年のWorldwide Developers Conferenceで、私たちはiOS 18、iPadOS 18、macOS Sequoiaに深く統合された個人向け知能システム「Apple Intelligence」を発表しました。Apple Intelligenceは、日常のタスクに特化し、ユーザーの活動に応じて柔軟に適応できる複数の高機能な生成モデルで構成されています。基盤モデルは、テキストの作成や通知の要約、家族や友人との会話用の画像生成など、さまざまなユーザー体験に向けて微調整されています。これらのモデルは、効率的かつ責任を持って広範なタスクを実行するために設計されています。私たちは、責任あるAIに重点を置き、それをモデル開発の全段階に適用しています。

2. アーキテクチャ

AFMベースモデルは、Transformerアーキテクチャに基づいた密なデコーダ専用モデルであり、いくつかの設計選択がなされています。共有入力/出力埋め込み行列を使用してパラメータのメモリ使用量を削減し、RMSNormを用いた前正規化によりトレーニングの安定性を向上させています。また、クエリ/キーの正規化や、KVキャッシュメモリフットプリントを削減するためのグループ化クエリアテンション(GQA)を採用しています。さらに、高効率のためにSwiGLU活性化関数を使用し、長いコンテキストをサポートするためにRoPE位置埋め込みを導入しています。

2.1 AFM-on-deviceの寸法

AFM-on-deviceモデルの寸法には、3072のモデル次元、128のヘッド次元、24のクエリヘッド、8のキー/バリューヘッド、26の層、2.58Bの非埋め込みパラメータ、0.15Bの埋め込みパラメータが含まれています。

2.2 プレトレーニング

AFMのプレトレーニングプロセスは、Apple Intelligenceの機能を支える高性能な言語モデルを開発する上で重要な役割を果たします。効率性とデータ品質に焦点を当て、高品質なエンドツーエンドのユーザー体験を提供するためにプレトレーニングが行われます。データセットは多様で高品質なデータの混合から構成され、ライセンスされたデータや公に利用可能な情報が含まれています。

3. プレトレーニング

AFMのプレトレーニングプロセスは、Apple Intelligence機能を支える高性能な言語モデルを開発する上で重要な役割を果たします。効率性とデータ品質に焦点を当て、ユーザーに高品質なエンドツーエンドの体験を提供するために、効率的で低遅延のモデルのトレーニングを行います。

3.1 データ

AFMのプレトレーニングデータセットは、多様で高品質なデータの混合物で構成されています。出版社からライセンスされたデータや、公開されているオープンソースのデータセット、Applebotによってクロールされた公開情報が含まれています。ユーザーのプライバシーを保護するため、Appleのユーザーデータは含まれておらず、不適切な内容や個人情報の除外に向けた厳格な取り組みが行われています。

3.1.1 ウェブページ

Applebotを使用して公開されている情報をクロールし、出版社の権利を尊重して、プロファニティや個人情報を含むページを除外します。残った文書は、品質フィルタリングやプレーンテキスト抽出を行い、さまざまな手法を用いて処理します。具体的には、本文抽出、安全性およびプロファニティフィルタリング、グローバルなデータの重複排除、品質フィルタリング、評価基準に対するデコンタミネーションが行われます。

4 Post-Training

Apple Intelligenceの機能を強化するため、AFMモデルの一般的な指示に従う能力や会話能力を向上させるためのポストトレーニングの研究を行いました。ポストトレーニングは、ユーザーのプライバシーを保護し、責任あるAI原則に沿ったものです。ポストトレーニングプロセスは、監視付きファインチューニング(SFT)と人間のフィードバックからの強化学習(RLHF)の2段階から成ります。新しいポストトレーニングアルゴリズムとして、教師委員会を用いた拒否サンプリングファインチューニング(iTeC)と、ミラーディセントポリシー最適化を用いたRLHFアルゴリズム(MDLOO)を提案しています。これらは、モデルの品質向上に寄与しています。

4.1 データ

ポストトレーニングパイプラインでは、人間による注釈データと合成データのハイブリッドデータ戦略を使用しています。デモンストレーションデータは、システムレベルとタスクレベルの指示を含む高品質な人間注釈データセットから収集されています。人間のフィードバックを収集して、モデルの能力を反復的に改善しています。合成データ生成を通じて、特定のドメインで高品質な応答を生成する能力を向上させています。

4.1.1 人間の注釈

デモンストレーションデータは、さまざまなソースから高品質な人間注釈データセットを収集して生成されています。タスクやシステムレベルの指示と、それに対応する応答が含まれています。データの質がモデルの成功に重要であることがわかり、役立ち、無害で、応答の正確性を重視しています。個人情報が含まれないように確認し、Appleによるユーザーデータは含まれていません。

4.1.2 合成データ

人間の注釈に加えて、合成データ生成を通じてデータの質と多様性を高めています。特に、数学、ツール使用、コーディングの分野で合成データを生成し、モデルを強化しています。数学問題を生成するために、種となるプロンプトを変形させたり、複雑さを加えたりする手法を用いて、幅広い問題セットを作成しています。これにより、モデルの数学能力を大幅に向上させています。

5 Apple Intelligence機能の強化

Apple Intelligenceの基盤モデルは、iPhone、iPad、Macに統合されており、迅速かつ効率的に動作するよう設計されています。これらのモデルは、ユーザーの日常的な活動を支援するために特別に調整され、特定のタスクに特化した機能を提供します。基盤モデルの上に特定の機能に合わせたアダプターが微調整されており、アプローチはユーザーのニーズに基づいています。私たちは、アダプターを使用して、さまざまなタスクに対してモデルを特化させることができるアーキテクチャを開発しました。これにより、特定の機能の高品質なユーザー体験が実現されます。

5.1 アダプターアーキテクチャ

私たちの基盤モデルは、ユーザーの日常活動に合わせて微調整され、タスクに応じて動的に特化することが可能です。LoRAアダプターを使用し、モデルのさまざまな層に追加することで、特定のタスクに合わせた微調整を行います。アダプターのパラメータを調整することで、基盤モデルの元のパラメータは変更せず、一般的な知識を保持したまま特定のタスクに適応させます。このプロセスは、メモリ管理を効率化し、応答性を保証します。アダプターのトレーニングのために、迅速に追加、再トレーニング、テスト、デプロイできるインフラを整備しています。

5.2 最適化

AFMモデルは、日常の活動を支えるために設計されており、推論の遅延と電力効率が重要です。さまざまな最適化技術を適用することで、AFMをデバイス上で効率的に展開できるようにしています。モデルの量子化技術を使用してメモリと推論コストを削減し、4ビット量子化モデルでも元の32/16ビットモデルとほぼ同等の品質を維持します。私たちは、モデルの能力を維持しつつ、特定のユースケースに合わせた柔軟な量子化スキームを提供しています。アダプターを使用することで、量子化したモデルの品質を回復することも可能です。

5.3 ケーススタディ:要約

AFM-on-deviceモデルは、メール、メッセージ、通知の要約機能を強化するために使用されます。製品チームと協力して、要約の仕様を策定し、特定の要約ガイドラインを設定しました。AFM-on-deviceモデルは一般的な要約には優れていますが、仕様に厳密に従った要約を引き出すのが難しい場合があります。そのため、要約タスクに特化したLoRAアダプターを微調整し、要約の品質を向上させるために合成要約データを生成しています。合成要約は、AFM-serverを使用して生成され、フィルタリングと評価が行われています。

6. 評価

AFMモデルは、事前トレーニング、ポストトレーニング、特に機能特化型ベンチマークの評価が行われる。事前トレーニングの評価では、モデルが強力な言語および推論能力を持っていることを示す。ポストトレーニングの評価では、AFMモデルはさまざまなオープンソースモデルやGPT-3.5、GPT-4と比較される。人間による評価も行い、モデルの一般的な能力や特定の能力、ドメインにおけるパフォーマンスが測定される。評価結果は、ユーザー体験と密接に関連していることが確認されている。

6.1 事前トレーニング評価

事前トレーニング評価では、AFMモデルが一般的なオープンソース評価ハーネスやベンチマークを使用して評価される。AFM-on-deviceとAFM-serverモデルは、MMLUなどのベンチマークで評価され、強固な言語能力を示す。これらの結果は、事前トレーニングの進捗を追跡するのに役立つが、最終的なユーザー体験には人間の評価がより関連していることが分かっている。

6.2 ポストトレーニング評価

ポストトレーニングモデルは、包括的なベンチマークで評価され、さまざまなオープンソースモデルや商業モデルと比較される。評価結果は、AFMモデルの一般的な能力を測定する人間評価と、特定の能力の結果を含む。AFMモデルは、GPT-3.5やGPT-4などの競合モデルと比較して、多くのタスクで優れたパフォーマンスを示している。特に、AFM-on-deviceは多くの評価基準で高いスコアを獲得しており、ユーザーにとっての信頼性が強調されている。

6.3 機能特化型評価

機能特化型評価では、特定のタスクやドメインに対するモデルのパフォーマンスが測定される。特に、要約機能などのユーザー体験を向上させるために、指定された基準で評価が行われる。人間の評価者が要約の質を評価し、AFM-on-deviceが他のモデルに比べて優れた結果を出すことが示されている。この評価は、実際のユーザーのニーズに基づいており、モデルの実用性を強調する。

7. Responsible AI

Apple Intelligenceは責任を持って開発され、ユーザーを力づけ、彼らを真に反映し、プライバシーを守るように設計されています。私たちのResponsible AIアプローチの重要な点は、明確に定義されたツールを提供し、特定のユーザーニーズに応えることです。これにより、安全性のギャップを特定しやすくなります。私たちは、生成AI機能の設計と評価において包括的かつ一貫した安全性分類法を開発しました。この分類法は、AppleのAIと機械学習の利用に関する幅広い経験に基づいており、機能の開発とテストの過程で定期的に更新されます。

7.1 概要

私たちの安全性分類法は、12の主要カテゴリと51のサブカテゴリで構成され、特に「ヘイトスピーチ」「差別」「違法行為」などが含まれます。この分類法は、特定の機能に対する潜在的な問題とリスクを考慮するための構造的な方法を提供します。新たなリスクが特定されるたびに、関連するポリシーを開発し、各機能のニーズや特性に応じた適切な緩和策を講じます。私たちは、AIツールの開発全般にわたって、ユーザーからのフィードバックを基に継続的かつ積極的に改善を行っています。

7.2 事前トレーニング

事前トレーニング段階では、Appleユーザーデータを含めず、厳格な法律レビューを行います。また、NSFWコンテンツや攻撃的な表現、個人情報を含む有害コンテンツを減らすための安全性フィルタリングを実施します。事前トレーニングは、さまざまな下流機能で共有されるため、安全性の緩和策は、機能の有用性を損なわないように一般的な能力を維持することを目指します。

7.3 事後トレーニング

事後トレーニング段階では、ユーザーにとって有益な出力を生成しつつ、潜在的な危害を最小限に抑えることを目指します。安全性の調整を事後トレーニングの主要なタスクの一つとして扱い、特定の安全性データを収集してモデルを微調整します。具体的には、安全性や敏感なトピックに関連するデータを10%以上使用し、これらのデータを事後トレーニングに組み込みます。

7.4 悪意のあるコードからの防御

コード生成には特別な配慮が必要です。生成されたコードは常に安全でないと見なされ、すべてのコードはインターネットや内部サービスにアクセスできない完全にロックダウンされた環境で実行されます。この環境はFireCrackerを使用して管理され、クラスターレベルでのセキュリティを確保します。

7.5 レッドチーミング

レッドチーミングは、モデルから安全ポリシー違反の応答や有害な応答を引き出すことを目的とし、ポリシーの開発や安全性評価データセットの内容に影響を与えます。このプロセスには、手動と自動の両方の方法が含まれ、モデルの脆弱性を探ります。安全性評価セットの作成には、容易に低い有害性応答を生成するプロンプトをフィルタリングすることが含まれます。

7.6 評価

安全性は、基盤モデルの開発プロセスで繰り返し評価される軸の一つであり、事後トレーニング中には自動および人間の評価サイクルが実施されます。安全性評価セットは、クリーンでありながら挑戦的かつ包括的であることが求められ、1,000以上の対立的なプロンプトを整備してAFMの有害コンテンツや事実性をテストします。

8. 結論

本報告では、Apple Intelligence機能を支える基盤となる言語モデル、AFM-on-deviceおよびAFM-serverを紹介しました。これらのモデルは、iPhone、iPad、Macで効率的に動作し、迅速で高度な能力を持つように設計されています。言語理解、指示の遵守、推論、執筆、ツールの使用などのタスクにおいて高い能力を発揮するようトレーニングされています。私たちは、ユーザーの日常的な活動を支援することを目的として、革新的なモデルアーキテクチャを開発しました。これらの基盤モデルは、Appleのコアバリューに基づき、ユーザーを支援し、彼らの生活を豊かにするために設計されています。