[論文紹介#159]オフライン強化学習による大規模言語モデルの多段階推論

Offline Reinforcement Learning for LLM Multi-Step Reasoning

この論文は、オフライン強化学習を用いて大規模言語モデルの多段階推論能力を向上させる手法「OREO」を提案しています。

OREOは、ペアデータの収集を必要とせず、より効果的なクレジット割り当てを実現することで、LLMの多段階推論能力を強化し、従来のオフライン学習手法を凌駕する性能を発揮します。

論文:https://arxiv.org/abs/2412.16145
リポジトリ:https://github.com/jwhj/OREO

以下は、LLMを用いてこの論文の内容を要約したものになります。

概要

大規模言語モデル(LLM)の多段階推論能力をオフライン強化学習(RL)によって向上させることは、複雑なタスクに迅速に適応させるために重要です。直接的な好み最適化(DPO)はLLMを人間の好みに整合させる上で有望な結果を示していますが、(1)DPOはペアの好みデータに依存しており、多段階推論タスクには容易に利用できないこと、(2)すべてのトークンを均一に扱うため、多段階推論タスクにおけるクレジット割り当てには効果的でないことから、多段階推論タスクにはあまり適していません。

本研究では、LLMの多段階推論を強化するためのオフラインRL手法であるOREO(Offline Reasoning Optimization)を提案します。これは、最大エントロピー強化学習の先行研究の洞察に基づき、ソフトベルマン方程式を最適化することで方針モデルと価値関数を共同で学習します。理論的に、ペアデータの収集の必要性を減少させ、より良いクレジット割り当てを可能にすることを示します。経験的には、OREOは数学的推論タスク(GSM8K、MATH)や具現化エージェント制御(ALFWorld)を含む多段階推論ベンチマークにおいて既存のオフライン学習手法を上回ります。

このアプローチは、追加のリソースが利用可能な場合に多反復フレームワークに拡張することができます。さらに、学習された価値関数は、テスト時の性能をさらに向上させるためにツリー探索を導くために無料で利用できます。

オフライン強化学習による大規模言語モデルの多段階推論

1. 研究の背景

本研究では、オフライン強化学習(RL)を用いて大規模言語モデル(LLM)のマルチステップ推論能力を向上させることの重要性が強調されています。従来の直接的な嗜好最適化(DPO)手法は、マルチステップ推論タスクに対して適していないことが指摘されており、その理由として以下の点が挙げられます:

  • DPOはペアの嗜好データに依存しており、マルチステップ推論タスクにはそのようなデータが容易には得られない。
  • スパースな報酬が存在するマルチステップ推論タスクにおいて、全トークンを均一に扱うため、クレジット割り当てが効果的に行えない。

2. 提案手法 – OREO

本研究ではOREO(Offline Reasoning Optimization)という新しいオフラインRL手法を提案しています。OREOは、最大エントロピー強化学習に基づいています。具体的には、以下の特徴を持っています:

  • ポリシーモデルと価値関数を共同で学習することで、ソフトベルマン方程式を最適化。
  • ペアデータの収集の必要性を減少させ、より良いクレジット割り当てが可能になる。

3. 実験方法

OREOは、数学的推論タスク(GSM8K、MATH)や体現エージェント制御(ALFWorld)のベンチマークに適用され、既存のオフライン学習手法を上回る性能を示しました。具体的には、異なるデータセットに対してOREOを適用し、そのパフォーマンスを比較評価しています。

4. 実験結果

OREOは以下の点で優れた性能を示しています:

  • 数学的推論タスクにおいて明確な優位性を発揮し、特にスパースな報酬環境での強みが顕著。
  • 学習した価値関数を使用して、テスト時のパフォーマンス向上のための木探索を誘導することが可能。

さらに、OREOは追加リソースが利用可能な場合に多段階フレームワークに拡張できることを示しており、今後の研究におけるさらなる性能向上が期待されます。

5. 結論

本研究は、オフライン強化学習を用いた新しいアプローチとして、LLMのマルチステップ推論能力を劇的に改善する可能性を示しました。OREOは、特に複雑なタスクへの適応を迅速に行うための有望な手法となるでしょう。