[論文紹介#23]日本語のためのオープンな大規模言語モデルの探求:実践的ガイド

本日の論文

Exploring Open Large Language Models for the Japanese Language: A Practical Guide

この論文は、日本語に特化したオープンな大規模言語モデル(LLM)の開発動向と評価方法を包括的に概説し、適切なモデル選択のための実用的なガイドを提供している研究です。

以下は、LLMを活用して論文の内容を要約したものになります。

要約

大規模言語モデル(LLM)は日本語の処理に優れた能力を示していますが、主に英語中心のコーパスで訓練されているため、日本語テキストの理解と生成に課題があります。これに対応して、日本語に特化したLLMの開発が活発化し、多くが公開されています。この急速な発展により、全体像の把握が困難になっています。本報告では、指示調整モデルやマルチモーダルモデルを含む、日本語向けオープンLLMを概観します。また、日本語LLMの評価ベンチマークを紹介し、最適なモデル選択のための実用的なガイドを提供します。本研究は継続的に更新され、公開されています。

1. Introduction

大規模言語モデル(LLM)は、人間の活動を支援する潜在能力を示し、その影響は従来のNLPコミュニティを超えて拡大しています。日本では、LLMの成功が様々な産業への応用を促進し、医療分野での研究が既に行われています。深刻な労働力不足に直面する日本において、LLMは支援と生産性向上をもたらすと期待されています。

英語中心のLLMの課題

一般的なLLMは、日本語文書の割合が非常に低いウェブスケールのコーパスで訓練されています。この不均衡は、日本語話者にとって最適でない可能性があります。LLMの事実知識は訓練データの頻度と相関があるため、英語中心のLLMは日本人の共有する価値観や信念、習慣を正確に反映していない可能性があります。また、トークナイザーの問題により、日本語の単語が小さな単位に分割されることで推論速度の低下やコスト増加につながる可能性があります。

日本語LLMの開発

英語中心のLLMの代替として、主に日本語で訓練された「日本語LLM」の開発が進められています。多くの研究グループが日本語LLMを公開し、技術力を示すとともに更なる研究を促進しています。この開発競争は激しさを増し、全体像の把握が困難になっています。

本研究の目的

本研究では、日本語LLMの最近の進歩について簡潔な概要を提供します。具体的には、誰でも使用できる日本語LLMの種類と、日本語でのLLMのパフォーマンス測定方法について答えることを目指しています。

2. Development Trends

日本語LLMの開発動向について、モデルサイズの拡大、人間との整合性、ドメイン適応、マルチモダリティ、密な検索モデルの5つの主要な側面から概説しています。各トピックは、最新の研究成果や手法を紹介し、日本語LLMの進化と多様化を示しています。

2.1. Scaling-up of the Model Size

モデルサイズの拡大に関する動向を説明しています。ChatGPT登場以前は2.7Bパラメータが最大でしたが、その後10億パラメータを超えるモデルが多数開発されました。計算コストの増大に対応するため、既存のLLMをベースに日本語コーパスで追加学習する継続的事前学習が主流になっています。また、漢字を共有する中国語中心のLLMを日本語に適応させる興味深いアプローチも紹介されています。

2.2. Human Alignment

人間の期待に沿うようにモデルを調整する人間整合性について説明しています。指示調整が広く適用されており、より高度な手法としてDPOやSteerLMの採用例が紹介されています。訓練データの構築方法として、機械翻訳に依存せず、日本語のNLPデータセットを再利用したり、日本人専門家による注釈付けを行う取り組みが進められています。

2.3. Domain Adaptation

特定のドメインに特化した知識をLLMに注入する研究について説明しています。ビジネス関連のウェブページや特許を事前学習に含めることで、ビジネス関連の質問応答タスクのパフォーマンスが向上することが示されています。金融分野でのドメイン特化型の継続的事前学習の有効性や、医療分野での指示調整の研究も紹介されています。また、異なるドメインのモデルを統合する進化的モデルマージという手法も提案されています。

2.4. Multimodality

LLMと視覚エンコーダーを組み合わせたVLM(Vision-and-Language Model)の開発動向について説明しています。LLMをベースにしたVLMはLVLM(Large Vision-Language Model)と呼ばれ、公開されている日本語LVLMのリストが示されています。また、日本語LLMと音声エンコーダーを組み合わせた自動音声認識の有効性を示す研究も紹介されています。

2.5. Dense Retrieval Models

外部知識をLLMに組み込むための検索拡張生成(RAG)技術に関連して、日本語に最適化された密な検索モデルの開発について説明しています。SimCSEをベースにした日本語文埋め込みモデルやColBERTの日本語版の開発が紹介されており、これらのモデルがRAG技術の性能向上に貢献することが期待されています。

3. Evaluation Trends

日本語LLMの評価動向について、従来のNLPベンチマーク、実世界での能力評価、その他のベンチマーク、およびリーダーボードの4つの主要な側面から概説しています。各トピックは、最新の評価手法や基準を紹介し、日本語LLMの性能測定方法の進化を示しています。

3.1. Traditional NLP Benchmarks

従来のNLPベンチマークについて説明しています。日本語NLPコミュニティは長年にわたり、自然言語推論や固有表現認識などの特定のタスク用データセットを構築してきました。最近では、事前学習済み言語モデルを包括的に評価するためのJGLUEが開発されています。また、複数のデータセットを用いて日本語能力を総合的に評価するフレームワークとして、JP Language Model Evaluation HarnessとLLM-JP-evalが紹介されています。

3.2. Assessing Real-world Capabilities

実世界での能力を評価するベンチマークについて説明しています。従来のNLPベンチマークが実際のユーザーとのやりとりを処理する能力を測定するには不適切だという批判に対応し、オープンエンドな質問を用いたベンチマークが提案されています。日本語MT-bench、日本語Vicuna QAベンチマーク、Rakudaベンチマーク、ELYZA-tasks-100などが紹介され、それぞれの特徴や評価方法が説明されています。

3.3. Other Benchmarks

その他のベンチマークについて説明しています。JMMLUは日本の歴史、地理、公民、慣用句に関する質問を含む日本語版MMULUベンチマークです。JFLDは日本語LLMの演繹的推論能力を評価するデータセットです。日本語金融評価ハーネスは日本の金融ドメインに関する評価フレームワークです。JA-VLM-Bench-In-the-WildとHeron-Benchは日本語VLMを評価するためのデータセットで、日本文化に特化した画像と質問が含まれています。

3.4. Leaderboards

LLMリーダーボードについて説明しています。最新の日本語LLMリーダーボードとしてNejumi LLMリーダーボードが紹介され、llm-jp-evalと日本語MT-benchの結果をまとめています。現時点では、日本語LLMのスコアはGPT-4などの商用LLMよりも低く、日本語テキストの理解と生成が可能なオープンLLMの開発にさらなる進歩の余地があることが示唆されています。

4. Conclusion

この報告書では、日本語LLMの開発と評価の動向をまとめています。著者たちは、この研究が日本語LLMの現状についてより良い理解を提供することを期待しています。ただし、この報告書の内容は急速に古くなる可能性があるため、最新の情報をGitHubリポジトリ(https://github.com/llm-jp/awesome-japanese-llm)で確認することを強く推奨しています。