[論文紹介#124]WorkflowLLM: 大規模言語モデルのワークフローオーケストレーション能力の向上

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

この論文は、WorkflowLLMというフレームワークを提案し、大規模言語モデルのワークフローオーケストレーション能力を向上させる方法を示しています。

論文:https://arxiv.org/abs/2411.05451

リポジトリ:https://github.com/OpenBMB/WorkflowLLM

以下は、LLMを用いてこの論文の内容を要約したものになります。

要約

この論文「WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models」では、最近の大規模言語モデル(LLM)の進展によって、プロセス自動化がロボティックプロセスオートメーションからエージェントプロセスオートメーションへと変化していることが述べられています。しかし、既存のLLM、特にOpenAIのGPT-4oなどは、ワークフローオーケストレーションにおいて満足のいく能力を達成するには限界があります。この制約を解決するために、著者たちはデータ中心のフレームワーク「WorkflowLLM」を提案し、106,763サンプルを含む大規模なファインチューニングデータセット「WorkflowBench」を構築しました。このデータセットは、さまざまなアプリケーションからの1,503のAPIをカバーし、ワークフローの多様性と複雑性を高めていることが実験で示されています。最終的に、WorkflowBenchを基にLlama-3.1-8Bをファインチューニングし、WorkflowLlamaを取得し、複雑なワークフローをオーケストレーションする能力が確認されました。

WorkflowLLMは、106,763のサンプルを含む大規模なデータセットWorkflowBenchを活用し、複雑なワークフローのオーケストレーション能力を大幅に向上させるための新しいアプローチを提供します。

WorkflowLLMの提案とその実装

1. はじめに

1.1 背景

本章では、近年の大規模言語モデル(LLM)の進展とその限界について述べます。特に、ロボティックプロセスオートメーションからエージェントプロセスオートメーションへのシフトが進んでいる中、従来のLLM(例:OpenAIのGPT-4o)はワークフローオーケストレーションにおいて十分な能力を発揮できていません。この問題に対処するために、新たに提案された「WorkflowLLM」というデータ中心のフレームワークが紹介されます。

1.2 目的

この論文の目的は、LLMのワークフローオーケストレーション能力を強化するためのフレームワーク「WorkflowLLM」を提案し、その有効性を示すことです。

2. WorkflowLLMフレームワーク

2.1 概要

WorkflowLLMは、ワークフローオーケストレーション能力を向上させるために設計されたフレームワークで、106,763サンプルからなる大規模なファインチューニングデータセット「WorkflowBench」を構築しました。このデータセットは、83のアプリケーションから収集した1,503のAPIをカバーしています。

2.2 データセット構築のプロセス

データセットの構築は以下の三つの主要なフェーズで行われます。

  1. データ収集: 実際のワークフローデータをApple ShortcutsやRoutineHubから収集し、Pythonスタイルのコードに転記します。さらに、ChatGPTを用いて生成された階層的思考を付加します。
  2. クエリ拡張: ChatGPTを活用し、より多様なタスククエリを生成することで、ワークフローの多様性と複雑性を豊かにします。このプロセスはデータセットのバリエーションを増やすために重要です。
  3. ワークフロー生成: 収集したデータを基に訓練されたアノテーターモデルにより、合成クエリに対してワークフローを生成します。品質確認を経た合成サンプルと収集データを統合し、最終的なWorkflowBenchを完成させます。

2.3 モデルのファインチューニング

WorkflowBenchを基に、Llama-3.1-8Bモデルをファインチューニングし、「WorkflowLlama」を得ます。このプロセスにより、複雑なワークフローをオーケストレーションする能力が強化されます。

3. 実験結果

3.1 パフォーマンス評価

実験結果は、WorkflowLlamaが複雑なワークフローをオーケストレーションする強力な能力を示しており、未見のAPIに対しても優れた一般化性能を達成したことを明らかにしました。

3.2 ゼロショット一般化

さらに、WorkflowBenchは分布外タスク計画データセットであるT-Evalに対しても強力なゼロショット一般化能力を示し、WorkflowLLMの実用性を裏付ける結果を得ています。

4. 結論

本研究は、WorkflowLLMがワークフローオーケストレーション能力を向上させるための効果的なフレームワークであることを実証しました。使用したデータとコードは、研究コミュニティに向けて公開されており、他の研究者が本研究の成果を再現し、さらなる研究を進めるための基盤を提供しています。