OpenAI DevDayのレポート

サンフランシスコにてOpenAI DevDayが開催されました。そこで発表された次の内容について、公開された記事などをもとにリポートします。

1. Realtime API

Realtime APIは、開発者が低遅延のマルチモーダル体験をアプリケーションに組み込むことを可能にする画期的な機能です。ChatGPTの高度な音声モードと同様の自然な音声対音声会話を実現し、単一のAPI呼び出しで複雑な処理を行います。これにより、言語学習アプリから顧客サポートまで、幅広い用途での自然な会話体験が可能になります。

  • WebSocketを使用した持続的な接続により、より自然な会話体験を実現
  • 音声入力、推論、音声出力を一括処理
  • 関数呼び出しをサポートし、ユーザーリクエストに応じてアクションを起こすことが可能
  • 価格: 音声入力は約$0.06/分、音声出力は約$0.24/分
  • 安全性と個人情報保護のための多層的な保護機能を実装

https://openai.com/index/introducing-the-realtime-api

2. Prompt Caching

Prompt Cachingは、開発者がコストと遅延を削減するための革新的な機能です。頻繁に使用されるプロンプトを自動的にキャッシュすることで、APIコールのコストを50%削減し、プロンプト処理時間を短縮します。この機能は、コードベースの編集や長期的なチャットボットの会話など、複数のAPI呼び出しで同じコンテキストを繰り返し使用する場合に特に有効です。

  • GPT-4o、GPT-4o mini、o1-preview、o1-miniの最新バージョンで利用可能
  • 1,024トークン以上のプロンプトに対して自動的に適用
  • キャッシュは5-10分の非アクティブ期間後にクリア、最長1時間で必ず削除
  • APIレスポンスの’usage’フィールド内の’cached_tokens’値でキャッシュ使用を確認可能
  • 組織間でプロンプトキャッシュは共有されない

https://openai.com/index/api-prompt-caching

3. Model Distillation

Model Distillationは、OpenAIプラットフォーム上で蒸留パイプライン全体を管理できる新しい機能です。大規模モデル(例:GPT-4o)の出力を使用して、より効率的な小規模モデル(例:GPT-4o mini)の性能を向上させることができます。この統合されたワークフローにより、開発者は特定のタスクに対してより費用対効果の高いモデルを作成し、デプロイすることが可能になります。

  • Stored Completions、Evals(ベータ)、Fine-tuningの3つの主要機能を提供
  • 実世界のデータを使用してデータセットを生成し、モデルの評価や微調整が可能
  • 反復的なプロセスで、モデルの性能を段階的に改善可能
  • 10月31日まで、GPT-4o miniに1日200万トークン、GPT-4oに1日100万トークンの無料トレーニングトークンを提供
  • 年末まで、OpenAIとEvalsを共有する場合、週7回まで無料で評価を実行可能

https://openai.com/index/api-model-distillation

4. Vision Fine-Tuning

Vision Fine-Tuningは、GPT-4oモデルに対して画像とテキストを使用したファインチューニングを可能にする新機能です。これにより、開発者はモデルのビジュアル理解能力を強化し、視覚的検索機能の向上、自動運転車や医療画像分析の精度向上など、さまざまな応用が可能になります。わずか100枚程度の画像でも性能向上が見込めるため、効率的なカスタマイズが可能です。

  • テキストのみのファインチューニングと同様のプロセスで画像データセットを準備可能
  • 大量のテキストと画像データを使用することで、さらに高い性能を実現
  • 視覚的検索、自動運転車の物体検出、医療画像分析などの応用が期待される
  • 10月31日まで1日100万トークンの無料トレーニングトークンを提供
  • ファインチューニングされたモデルは完全に開発者の管理下に置かれ、ビジネスデータの所有権も保持

https://openai.com/index/introducing-vision-to-the-fine-tuning-api

5. Playground新機能

Playgroundの新機能は、開発者がアイデアを素早くプロトタイプ化するためのツールです。モデルの使用目的を記述するだけで、自動的にプロンプト、関数、構造化出力のスキーマを生成します。この機能により、開発プロセスが加速され、より効率的なプロトタイピングが可能になり、開発者の生産性が大幅に向上します。

  • モデルの使用目的の記述に基づいて自動的にプロンプトを生成
  • 関数とその構造化出力のための有効なスキーマを自動生成
  • 開発者のワークフローを効率化し、アイデアから実装までの時間を短縮
  • 複雑なプロンプトエンジニアリングの負担を軽減
  • AIモデルの能力をより効果的に活用するためのサポートを提供

https://twitter.com/OpenAIDevs/status/1841176443306295685