[論文紹介#124]WorkflowLLM: 大規模言語モデルのワークフローオーケストレーション能力の向上

11月 18, 2024

in テックブログ

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

この論文は、WorkflowLLMというフレームワークを提案し、大規模言語モデルのワークフローオーケストレーション能力を向上させる方法を示しています。

論文：https://arxiv.org/abs/2411.05451

リポジトリ：https://github.com/OpenBMB/WorkflowLLM

以下は、LLMを用いてこの論文の内容を要約したものになります。

要約

この論文「WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models」では、最近の大規模言語モデル（LLM）の進展によって、プロセス自動化がロボティックプロセスオートメーションからエージェントプロセスオートメーションへと変化していることが述べられています。しかし、既存のLLM、特にOpenAIのGPT-4oなどは、ワークフローオーケストレーションにおいて満足のいく能力を達成するには限界があります。この制約を解決するために、著者たちはデータ中心のフレームワーク「WorkflowLLM」を提案し、106,763サンプルを含む大規模なファインチューニングデータセット「WorkflowBench」を構築しました。このデータセットは、さまざまなアプリケーションからの1,503のAPIをカバーし、ワークフローの多様性と複雑性を高めていることが実験で示されています。最終的に、WorkflowBenchを基にLlama-3.1-8Bをファインチューニングし、WorkflowLlamaを取得し、複雑なワークフローをオーケストレーションする能力が確認されました。

WorkflowLLMは、106,763のサンプルを含む大規模なデータセットWorkflowBenchを活用し、複雑なワークフローのオーケストレーション能力を大幅に向上させるための新しいアプローチを提供します。

WorkflowLLMの提案とその実装

1. はじめに

1.1 背景

本章では、近年の大規模言語モデル（LLM）の進展とその限界について述べます。特に、ロボティックプロセスオートメーションからエージェントプロセスオートメーションへのシフトが進んでいる中、従来のLLM（例：OpenAIのGPT-4o）はワークフローオーケストレーションにおいて十分な能力を発揮できていません。この問題に対処するために、新たに提案された「WorkflowLLM」というデータ中心のフレームワークが紹介されます。

1.2 目的

この論文の目的は、LLMのワークフローオーケストレーション能力を強化するためのフレームワーク「WorkflowLLM」を提案し、その有効性を示すことです。

2. WorkflowLLMフレームワーク

2.1 概要

WorkflowLLMは、ワークフローオーケストレーション能力を向上させるために設計されたフレームワークで、106,763サンプルからなる大規模なファインチューニングデータセット「WorkflowBench」を構築しました。このデータセットは、83のアプリケーションから収集した1,503のAPIをカバーしています。

2.2 データセット構築のプロセス

データセットの構築は以下の三つの主要なフェーズで行われます。

データ収集: 実際のワークフローデータをApple ShortcutsやRoutineHubから収集し、Pythonスタイルのコードに転記します。さらに、ChatGPTを用いて生成された階層的思考を付加します。
クエリ拡張: ChatGPTを活用し、より多様なタスククエリを生成することで、ワークフローの多様性と複雑性を豊かにします。このプロセスはデータセットのバリエーションを増やすために重要です。
ワークフロー生成: 収集したデータを基に訓練されたアノテーターモデルにより、合成クエリに対してワークフローを生成します。品質確認を経た合成サンプルと収集データを統合し、最終的なWorkflowBenchを完成させます。

2.3 モデルのファインチューニング

WorkflowBenchを基に、Llama-3.1-8Bモデルをファインチューニングし、「WorkflowLlama」を得ます。このプロセスにより、複雑なワークフローをオーケストレーションする能力が強化されます。

3. 実験結果

3.1 パフォーマンス評価

実験結果は、WorkflowLlamaが複雑なワークフローをオーケストレーションする強力な能力を示しており、未見のAPIに対しても優れた一般化性能を達成したことを明らかにしました。

3.2 ゼロショット一般化

さらに、WorkflowBenchは分布外タスク計画データセットであるT-Evalに対しても強力なゼロショット一般化能力を示し、WorkflowLLMの実用性を裏付ける結果を得ています。

4. 結論

本研究は、WorkflowLLMがワークフローオーケストレーション能力を向上させるための効果的なフレームワークであることを実証しました。使用したデータとコードは、研究コミュニティに向けて公開されており、他の研究者が本研究の成果を再現し、さらなる研究を進めるための基盤を提供しています。

[論文紹介#124]WorkflowLLM: 大規模言語モデルのワークフローオーケストレーション能力の向上

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

要約

WorkflowLLMの提案とその実装

1. はじめに

1.1 背景

1.2 目的

2. WorkflowLLMフレームワーク

2.1 概要

2.2 データセット構築のプロセス

2.3 モデルのファインチューニング

3. 実験結果

3.1 パフォーマンス評価

3.2 ゼロショット一般化

4. 結論

昭和の子ども番組の思い出第2弾：ママとあそぼう！ピンポンパンとカータンの魅力

昭和の子ども番組の思い出：ロンパールームとうつみみどり先生

[OSS紹介#85] typescript-eslint：TypeScript開発を支える強力な静的解析ツールの魅力を解説

[OSS紹介#84] ESLint：コーディング品質を向上させるための静的解析ツール

[OSS紹介#83] Jekyll：GitHub Pagesと連携したシンプルな静的サイトジェネレーターの魅力

[論文紹介#124]WorkflowLLM: 大規模言語モデルのワークフローオーケストレーション能力の向上

WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models

要約

WorkflowLLMの提案とその実装

1. はじめに

1.1 背景

1.2 目的

2. WorkflowLLMフレームワーク

2.1 概要

2.2 データセット構築のプロセス

2.3 モデルのファインチューニング

3. 実験結果

3.1 パフォーマンス評価

3.2 ゼロショット一般化

4. 結論

昭和の子ども番組の思い出 第2弾：ママとあそぼう！ピンポンパンとカータンの魅力

昭和の子ども番組の思い出：ロンパールームとうつみみどり先生

[OSS紹介#85] typescript-eslint：TypeScript開発を支える強力な静的解析ツールの魅力を解説

[OSS紹介#84] ESLint：コーディング品質を向上させるための静的解析ツール

[OSS紹介#83] Jekyll：GitHub Pagesと連携したシンプルな静的サイトジェネレーターの魅力

昭和の子ども番組の思い出第2弾：ママとあそぼう！ピンポンパンとカータンの魅力