[論文紹介#297]ComfyUI-Copilot: ワークフロー自動生成のアシスタントフレーワーク

ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

この論文は、AI駆動のアート制作プラットフォーム「ComfyUI」の使いやすさと効率を向上させるための、ワークフロー自動生成を支援するAIアシスタント「ComfyUI-Copilot」の開発について説明しています。

ComfyUI-Copilotは、ユーザーの意図に基づいてワークフローを自動生成し、ノードやモデルの推奨を行うことで、AIアート作成のプロセスを効率的かつ直感的にサポートする初のオープンソースプラグインです。

論文:https://arxiv.org/abs/2506.05010
リポジトリ:https://github.com/AIDC-AI/ComfyUI-Copilot


以下は、弊社AI開発ツール「IXV」を用いてこの論文を要約したものです。見出しや章立てが元論文とは異なる場合があります。

概要

ComfyUI-Copilotは、AI駆動のアート作成のためのオープンソースプラットフォームであるComfyUIの使いやすさと効率を向上させるために設計された、大規模言語モデルを活用したプラグインです。ComfyUIは柔軟性とユーザーフレンドリーなインターフェースを提供していますが、初心者にとっては限られたドキュメント、モデルの誤設定、ワークフロー設計の複雑さなどの課題が存在します。

ComfyUI-Copilotは、これらの課題に対処するために、インテリジェントなノードとモデルの推奨、ワンクリックでのワークフロー構築を提供します。システムの中心には、タスクの委任を行う中央アシスタントエージェントと、異なる使用法に特化した作業エージェントからなる階層的なマルチエージェントフレームワークがあり、デバッグと展開を効率化するためにキュレーションされたComfyUIの知識ベースがサポートしています。

ComfyUI-Copilotの効果を、オフラインの定量的評価とオンラインのユーザーフィードバックを通じて検証した結果、ノードの推奨が正確であり、ワークフローの開発を加速することが示されました。また、使用例は、ComfyUI-Copilotが初心者の参入障壁を低下させ、経験豊富なユーザーのワークフロー効率を向上させることを示しています。

1. はじめに

本研究では、ComfyUI-Copilotを紹介する。これは、オープンソースのAI駆動アート作成プラットフォームであるComfyUIの使いやすさと効率性を向上させるために設計された大規模言語モデル駆動のプラグインである。ComfyUIは400万人以上のアクティブユーザーにサービスを提供し、12,000以上のコンポーネントを持つ活発なコミュニティに支えられているが、初心者にとっては、依存ノードやモデルのインストール、フォーラムやGitHub issuesに散在するドキュメント、ワークフロー設計の複雑さなどの障壁が存在する。ComfyUI-Copilotは、インテリジェントなノードとモデルの推薦、および自動ワンクリックワークフロー構築を提供することで、これらの課題に対処する。

2. 関連研究

ComfyUIベースのAI生成コンテンツ(AIGC)について論じる。拡散モデルは画像合成において広く注目を集め、テキストから画像への生成分野が進歩するにつれて、新しいタスクとモデルが提案されている。研究者と実践者は、単純なテキストから画像へのワークフローから、より洗練されたワークフローへと移行しており、オープンソースのComfyUIが大きな利便性を提供している。また、LLMベースのエージェントに関する最新の進歩についても述べ、外部ツールを使用したエージェンティックタスク完了、記憶メカニズム、検索モジュール、自己反省などの推論戦略について言及している。

3. ComfyUI-Copilot

3.1 知識ベース

3つの知識ベース(KB)を構築した。ノード、モデル、ワークフローに関するもので、データは生成リソース共有の人気プラットフォーム、ComfyUI関連のGitHubリポジトリ、ComfyUIウェブサイトから取得し、NSFWコンテンツをフィルタリングした。構造化されたドキュメントが不足しているノードについては、LLMのコード理解能力を活用してGitHubリポジトリを分析し、自動的に詳細なドキュメントを生成する。BGE-M3埋め込みを使用してコードをチャンクに分割し、各ノードの関連コードを検索するために検索を行う。最終的に、7Kノード、62Kモデル、9Kワークフローをカバーする広範なKBを構築した。

3.2 エージェント

ComfyUI-Copilotの中核は、プランナーとして機能する十分に指示されたLLMベースのアシスタントエージェントである。ユーザーの指示に応じて、アシスタントは構築されたKBを使用してクエリに応答するか、適切なワーカーエージェントにタスクを委譲する。ワークフロー、ノード、モデル用の3つのワーカーエージェントを作成した。各モジュールの推薦プロセスは、粗い粒度から細かい粒度に進む3段階のパイプラインに従う:LLM/LMMによるユーザー指示の拡張、セマンティックと語彙的類似性スコアの計算、GTE-Rerankモデルによる上位3モジュールの決定。

3.3 インターフェース

ComfyUI-CopilotはComfyUIインターフェースにシームレスに統合されている。主要機能には以下が含まれる:

  • 自動ワークフロー生成:上位3つの呼び出されたワークフローを提示し、「Accept」をクリックすることで選択されたワークフローをキャンバスに読み込める
  • ComfyUI関連質問応答:任意のノードをクリックして、その使用法、パラメータ、推奨される下流ノードについてショートカット質問ができる。多言語クエリと応答もサポート
  • ノードとモデルの推薦:ワークフロー内のコンポーネント間の依存関係を考慮したコンテキスト対応の推薦

さらに、経験豊富なComfyUIユーザーの生産性を向上させるため、プロンプト作成機能やパラメータ検索機能も提供している。

4. 使用法と評価

ComfyUI-Copilotの性能を評価するため、ワークフローKBに基づいて130のユーザー指示とノードKBに基づいて104のノード推薦指示を設計した。上位3つのワークフローとノードを呼び出す際、フレームワークはGPT-4oとDeepSeek-V3の両方で高いリコール率(88.5%以上)を達成した。2025年2月23日のGitHubリリース以降、オンラインユーザーフィードバックでは、推薦ノードの受容率65.4%、提案ワークフローの受容率85.9%という結果を示している。ComfyUIアシスタントプラグインとして初のオープンソースプロジェクトとして、1.6K以上のGitHubスター、22か国からの19Kユーザーによる85K以上のクエリを獲得している。

5. 結論

本論文では、ComfyUI関連のクエリに対処し、ワンクリックワークフロー作成を可能にするLLM駆動のマルチエージェントフレームワークであるComfyUI-Copilotを提示した。中核のアシスタントエージェントとしてLLMを活用し、専門化されたワーカーエージェントと広範な知識ベースを統合することで、高いリコール率でワークフロー生成プロセスを向上させるだけでなく、マルチモーダル生成における最新モジュールに対応し続けることを保証している。ComfyUIアシスタントプラグインを探索する初のプロジェクトとして、急速に1.6K以上のスターを獲得し、22か国から19Kユーザーを引き付け、85K以上のクエリを処理している。