目次
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models
この論文は、WorkflowLLMというフレームワークを提案し、大規模言語モデルのワークフローオーケストレーション能力を向上させる方法を示しています。
論文:https://arxiv.org/abs/2411.05451
リポジトリ:https://github.com/OpenBMB/WorkflowLLM
以下は、LLMを用いてこの論文の内容を要約したものになります。
要約
この論文「WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models」では、最近の大規模言語モデル(LLM)の進展によって、プロセス自動化がロボティックプロセスオートメーションからエージェントプロセスオートメーションへと変化していることが述べられています。しかし、既存のLLM、特にOpenAIのGPT-4oなどは、ワークフローオーケストレーションにおいて満足のいく能力を達成するには限界があります。この制約を解決するために、著者たちはデータ中心のフレームワーク「WorkflowLLM」を提案し、106,763サンプルを含む大規模なファインチューニングデータセット「WorkflowBench」を構築しました。このデータセットは、さまざまなアプリケーションからの1,503のAPIをカバーし、ワークフローの多様性と複雑性を高めていることが実験で示されています。最終的に、WorkflowBenchを基にLlama-3.1-8Bをファインチューニングし、WorkflowLlamaを取得し、複雑なワークフローをオーケストレーションする能力が確認されました。
WorkflowLLMは、106,763のサンプルを含む大規模なデータセットWorkflowBenchを活用し、複雑なワークフローのオーケストレーション能力を大幅に向上させるための新しいアプローチを提供します。
WorkflowLLMの提案とその実装
1. はじめに
1.1 背景
本章では、近年の大規模言語モデル(LLM)の進展とその限界について述べます。特に、ロボティックプロセスオートメーションからエージェントプロセスオートメーションへのシフトが進んでいる中、従来のLLM(例:OpenAIのGPT-4o)はワークフローオーケストレーションにおいて十分な能力を発揮できていません。この問題に対処するために、新たに提案された「WorkflowLLM」というデータ中心のフレームワークが紹介されます。
1.2 目的
この論文の目的は、LLMのワークフローオーケストレーション能力を強化するためのフレームワーク「WorkflowLLM」を提案し、その有効性を示すことです。
2. WorkflowLLMフレームワーク
2.1 概要
WorkflowLLMは、ワークフローオーケストレーション能力を向上させるために設計されたフレームワークで、106,763サンプルからなる大規模なファインチューニングデータセット「WorkflowBench」を構築しました。このデータセットは、83のアプリケーションから収集した1,503のAPIをカバーしています。
2.2 データセット構築のプロセス
データセットの構築は以下の三つの主要なフェーズで行われます。
- データ収集: 実際のワークフローデータをApple ShortcutsやRoutineHubから収集し、Pythonスタイルのコードに転記します。さらに、ChatGPTを用いて生成された階層的思考を付加します。
- クエリ拡張: ChatGPTを活用し、より多様なタスククエリを生成することで、ワークフローの多様性と複雑性を豊かにします。このプロセスはデータセットのバリエーションを増やすために重要です。
- ワークフロー生成: 収集したデータを基に訓練されたアノテーターモデルにより、合成クエリに対してワークフローを生成します。品質確認を経た合成サンプルと収集データを統合し、最終的なWorkflowBenchを完成させます。
2.3 モデルのファインチューニング
WorkflowBenchを基に、Llama-3.1-8Bモデルをファインチューニングし、「WorkflowLlama」を得ます。このプロセスにより、複雑なワークフローをオーケストレーションする能力が強化されます。
3. 実験結果
3.1 パフォーマンス評価
実験結果は、WorkflowLlamaが複雑なワークフローをオーケストレーションする強力な能力を示しており、未見のAPIに対しても優れた一般化性能を達成したことを明らかにしました。
3.2 ゼロショット一般化
さらに、WorkflowBenchは分布外タスク計画データセットであるT-Evalに対しても強力なゼロショット一般化能力を示し、WorkflowLLMの実用性を裏付ける結果を得ています。
4. 結論
本研究は、WorkflowLLMがワークフローオーケストレーション能力を向上させるための効果的なフレームワークであることを実証しました。使用したデータとコードは、研究コミュニティに向けて公開されており、他の研究者が本研究の成果を再現し、さらなる研究を進めるための基盤を提供しています。