TECHNOLOGY NLP AI

【日本語訳】Llama 2: Open Foundation and Fine-Tuned Chat Models【Meta(旧Facebook)】

悩んでいる人

Llama 2: Open Foundation and Fine-Tuned Chat Modelsの日本語訳を教えて!

こういった悩みにお答えします.

本記事の信頼性

  • リアルタイムシステムの研究歴12年.
  • 東大教員の時に,英語でOS(Linuxカーネル)の授業.
  • 2012年9月~2013年8月にアメリカのノースカロライナ大学チャペルヒル校(UNC)コンピュータサイエンス学部で客員研究員として勤務.C言語でリアルタイムLinuxの研究開発.
  • プログラミング歴15年以上,習得している言語: C/C++PythonSolidity/Vyper,Java,Ruby,Go,Rust,D,HTML/CSS/JS/PHP,MATLAB,Assembler (x64,ARM).
  • 東大教員の時に,C++言語で開発した「LLVMコンパイラの拡張」,C言語で開発した独自のリアルタイムOS「Mcube Kernel」GitHubにオープンソースとして公開
  • 2020年1月~現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務.2022年6月~現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO.
  • 最近は自然言語処理AIイーサリアムに関する有益な情報発信に従事.
    • (AI全般を含む)自然言語処理AIの論文の日本語訳や,AIチャットボット(ChatGPT,Auto-GPT,Gemini(旧Bard)など)の記事を50本以上執筆.アメリカのサンフランシスコ(広義のシリコンバレー)の会社でプロンプトエンジニア・マネージャー・Quality Assurance(QA)の業務委託の経験あり.
    • (スマートコントラクトのプログラミングを含む)イーサリアムや仮想通貨全般の記事を200本以上執筆.イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり.

こういった私から学べます.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

Llama 2: Open Foundation and Fine-Tuned Chat Modelsの日本語訳を紹介します.

Meta(旧Facebook)のオープンソースの大規模言語モデル「Llama 2」がわかります.

※図表を含む論文の著作権はLlama 2: Open Foundation and Fine-Tuned Chat Modelsの著者に帰属します.

Llama 2: Open Foundation and Fine-Tuned Chat Modelsの目次は以下になります.

  • Abstract
  • 1章:Introduction
  • 2章:Pretraining
  • 3章:Fine-tuning
  • 4章:Safety
  • 5章:Discussion
  • 6章:Related Work
  • 7章:Conclusion
  • 付録A:Appendix

Llama 2: Open Foundation and Fine-Tuned Chat Modelsを解説しつつ,私の考えも語ります.

Llama 2: Open Foundation and Fine-Tuned Chat Modelsの概要と私の日本語訳は以下になります.

In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters.
この研究では,70億から700億のパラメータを持つ大規模言語モデル(LLMs:Large Language Models)の事前訓練とファインチューニングのコレクションであるLlama 2を開発し,リリースする.

Our fine-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use cases.
Llama 2-Chatと呼ばれる我々のファインチューニングされたLLMは,対話のユースケースに最適化されている.

Our models outperform open-source chat models on most benchmarks we tested, and based on our human evaluations for helpfulness and safety, may be a suitable substitute for closedsource models.
我々のモデルは,我々がテストしたほとんどのベンチマークにおいて,オープンソースのチャットモデルを凌駕しており,有用性と安全性に関する人間による評価に基づいて,クローズドソースのモデルの適切な代替となり得る.

We provide a detailed description of our approach to fine-tuning and safety improvements of Llama 2-Chat in order to enable the community to build on our work and contribute to the responsible development of LLMs.
我々は,Llama 2-Chatのファインチューニングと安全性向上のための我々のアプローチの詳細な説明を提供し,コミュニティが我々の研究を基に,LLMの責任ある開発に貢献できるようにする.

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

私の日本語訳の注意点は以下になります.

  • 概要は英語と日本語を両方掲載しましたが,本文は私の日本語訳のみを掲載していること(英語で読みたいあなたは原文を読みましょう!)
  • 基本的には原文の直訳ですが,わかりにくい箇所は意訳や説明を追加している箇所があること
  • 原文の「A.1 Contributions」(貢献)と「A.1.1 Acknowledgements」(謝辞)は省略していること
  • 本文中に登場する表記「(Brown et al., 2020)」などは参考文献ですので,興味がある方は本記事の参考文献を参照されたいこと

それでは,Llama 2: Open Foundation and Fine-Tuned Chat Modelsの本文を読みすすめましょう!

目次

1章:Introduction(はじめに)

大規模言語モデル(LLMs:Large Language Models)は,プログラミングや創作などの専門的な領域を含め,幅広い分野の専門知識を必要とする複雑な推論タスクに優れた能力を発揮するAIアシスタントとして,大きな期待が寄せられている.

LLMsは,直感的なチャット・インターフェースを通じて人間との対話を可能にするため,一般消費者の間で急速に普及している.

LLMの能力は,一見単純に見える訓練方法の性質を考えると,驚くべきものである.

Auto-Regressive Transformersは,自己教師付きデータの広範なコーパスで事前訓練され,その後,人間フィードバック付き強化学習(RLHF:Reinforcement Learning with Human Feedback)のような技術によって人間の嗜好に合わせる.

訓練方法は単純だが,計算量が多いため,LLMの開発は一部のプレーヤーに限られている.

GPT-3(Brown et al., 2020)やChinchilla(Hoffmann et al., 2022)のようなクローズドな事前訓練済みの競合の性能に匹敵する事前訓練済みのLLM(BLOOM(Scao et al., 2022),LLaMa-1(Touvron et al., 2023),Falcon(Penedo et al., 2023)など)が公開されているが,これらのモデルはどれもChatGPT,Bard(※訳注:現在はGemini),Claudeのようなクローズドな「製品」LLMの代替には適していない.

これらのクローズド製品のLLMは,人間の嗜好に沿うようにファインチューニングされており,使いやすさと安全性を大幅に向上させている.

このステップは,計算と人間によるアノテーションに多大なコストを要し,透明性や再現性が低いことが多いため,AIアライメント研究の進展がコミュニティ内で制限されている.

※訳注:原文では図2を参照していませんが,こちらに記載しておきます.

Llama2 Figure1
図1:他のオープンソースおよびクローズドソースモデルと比較したLlama 2-Chatの人間による有用性評価結果.人間の評価者は,シングルターンとマルチターンプロンプトの両方で構成される~4kプロンプトでモデル生成を比較した.この評価の95%信頼区間は1%~2%である.詳細は3.4.2項を参照.これらの結果を検討する一方で,プロンプトセットの制限,レビューガイドラインの主観性,個々の評価者の主観性,および生成を比較することの本質的な難しさにより,人間による評価はノイズが多い可能性があることに注意することが重要である.

Llama2 Figure2
図2:GPT-4による,商用ライセンスベースラインとLlama 2-Chatの有用性と安全性の勝率.人間による評価を補完するために,我々は,我々自身のガイダンスによらない,より有能なモデルを使用した.緑色の部分は,GPT-4に従って我々のモデルが優れていることを示している.同点を取り除くために,勝率\(win/(win + loss)\)を使用した.バイアスを軽減するために,GPT-4に対してモデルの回答を提示する順番をランダムに入れ替えた.

Llama2 Figure3
図3:他のオープンソースおよびクローズドソースモデルと比較したLlama 2-Chatの安全性に関する人間による評価結果.人間の評価者は,シングルターンとマルチターンプロンプトの両方で構成される敵対的なプロンプト~2,000個にわたって,モデル生成の安全性違反を判定した.詳細は4.4節を参照されたい.プロンプトセットの限界,レビューガイドラインの主観性,および個々の評価者の主観性に起因するLLM評価固有のバイアスを考慮し,これらの安全性結果に注意を払うことが重要である.さらに,これらの安全性評価は,Llama 2-Chatモデルに偏っている可能性が高いコンテンツ標準を使用して実施されている.

この研究では,事前訓練され,ファインチューニングされたLLMのファミリーであるLlama 2とLlama 2-Chatを,70Bパラメータまでのスケールで開発し,リリースする.

我々がテストした一連の有用性と安全性のベンチマークにおいて,Llama 2-Chatモデルは,一般的に既存のオープンソースモデルよりも優れた性能を発揮した.

また,少なくとも我々が行った人間による評価では,いくつかのクローズドソースモデルと同等であるように見える(図1と図3を参照).

我々は,安全性に特化したデータアノテーションとチューニングを使用し,レッドチームを実施し,反復評価を採用することで,これらのモデルの安全性を高める手段を講じた.

さらに,本論文では,LLMの安全性を向上させるためのファインチューニングの方法論とアプローチについて徹底的に説明する.

このオープン性により,コミュニティがファインチューニングされたLLMを再現し,これらのモデルの安全性を継続的に向上させ,LLMのより責任ある開発への道を開くことを期待している.

また,Llama 2とLlama 2-Chatの開発中に得られた,ツールの使用法や知識の時間的構成の出現などの新しい観察結果についても紹介する.

研究・商用利用を目的に,以下のモデルを一般に公開する.

  1. Llama 2はLlama 1のアップデート版で,公開されているデータを新たに組み合わせて訓練した.また,事前訓練コーパスのサイズを40%増やし,モデルのコンテキストの長さを2倍にし,Grouped-Query Attention(Ainslie et al., 2023)を採用した.我々はLlama 2の7B,13B,70Bのパラメータを持つVariantsをリリースしている.また,34BのVariantsも訓練しており,この論文では報告しているが,公開はしていない.
    ※十分なレッドチームを行う時間がないため,34Bモデルのリリースを延期する.
  2. Llama 2-Chatは,対話のユースケースに最適化されたLlama 2のファインチューニングバージョンである.7B,13B,70Bのパラメータを持つこのモデルのVariantsもリリースしている.

我々は,LLMのオープンリリースが安全に行われれば,社会にとって正味の利益になると信じている.

他のLLMと同様,Llama 2は新技術であり,使用には潜在的なリスクが伴う(Bender et al., 2021b; Weidinger et al., 2021; Solaiman et al., 2023).

現在までに実施されたテストは英語によるものであり,すべてのシナリオを網羅したものではない.

したがって,Llama 2-Chatのアプリケーションをデプロイする前に,開発者は安全性テストを実施し,モデルの特定のアプリケーションに合わせたチューニングを行うべきである.

我々は,Llama 2とLlama 2-Chatの安全なデプロイを促進するために,責任ある使用ガイドコード例を提供している.

我々の責任あるリリース戦略の詳細は5.3節にある.

本論文の残りの部分では,我々の事前訓練方法論(2章),ファインチューニング方法論(3章),モデル安全性へのアプローチ(4章),主要な観察と洞察(5章),関連する仕事(6章),結論(7章)について述べる.

2章:Pretraining(事前訓練)

※訳注:原文では図4を参照していませんが,こちらに記載しておきます.

Llama2 Figure4
図4:Llama 2-Chatの訓練.このプロセスは,一般に公開されているオンラインソースを使用したLlama 2の事前訓練から始まる.続いて,教師ありのファインチューニングを適用して,Llama 2-Chatの初期バージョンを作成する.その後,人間のフィードバックによる強化学習(RLHF:Reinforcement Learning with Human Feedback)手法,特に拒絶サンプリングと最適化政策(PPO:Proximal Policy Optimization)を使って,モデルを繰り返し改良する.RLHFの段階を通じて,モデルの改良と並行して報酬モデルの反復データを蓄積することは,報酬モデルが分布内に留まることを確実にするために極めて重要である.

Llama2 Table1
表1:Llama 2ファミリーのモデル.トークン数は事前訓練データのみ.全てのモデルは4Mのグローバルバッチサイズで訓練される.34Bと70Bの大きなモデルでは,推論のスケーラビリティを向上させるためにGrouped-Query Attention(GQA)を使用している.

Llama 2モデルの新しいファミリーを作成するために,最適化されたAuto-Regressive Transformerを使用して,(Touvron et al., 2023)で説明されている事前訓練アプローチから始めたが,性能を向上させるためにいくつかの変更を加えた.

具体的には,よりロバストなデータクリーニングを行い,データ混合を更新し,総トークンを40%増やし,コンテキストの長さを2倍にし,Grouped-Query Attention(GQA)を用いて,大規模モデルの推論スケーラビリティを向上させた.

表1は新しいLlama 2モデルとLlama 1モデルの属性を比較したものである.

2.1節:Pretraining Data(事前訓練データ)

我々の訓練コーパスには,Metaの製品やサービスからのデータを含まない,一般に入手可能なソースからのデータが新たに混合されている.

また,個人の個人情報を大量に含むことが知られている特定のサイトからのデータを削除するよう努めた.

我々は2兆トークンのデータで学習を行ったが,これは性能とコストのトレードオフがうまくいくためであり,知識を増やしハルシネーション(幻覚)を減らすために,最も事実に近いソースをアップサンプリングした.

我々は,ユーザが我々のモデルの潜在的な能力と限界をよりよく理解できるように,様々な事前訓練データ調査を行った.

結果は4.1節にある.

2.2節:Training Details(訓練の詳細)

我々は,Llama 1の事前訓練設定とモデルアーキテクチャの大部分を採用する.

標準的なTransformerアーキテクチャ(Vaswani et al., 2017)を使用し,RMSNorm(Zhang and Sennrich, 2019)を使用して事前正規化を適用し,SwiGLU活性化関数(Shazeer, 2020)を使用し,回転位置埋め込み(RoPE:Rotary Positional Embeddings)(Su et al. 2022)を使用する.

Llama 1との主なアーキテクチャの違いは,コンテキストの長さの増加とGrouped-Query Attention(GQA)である.

付録A.2.1では,これらの違いの重要性を示すために,アブレーション実験を交えて詳しく説明する.

Llama2 Figure5
図5:Llama 2モデルの訓練損失.Llama 2モデルの訓練損失を比較する.2兆トークンで事前訓練した後でも,モデルは飽和の兆候を示さないことがわかる.

ハイパーパラメータ:

AdamW optimizer(Loshchilov and Hutter, 2017)を用いて,\(\beta_1 = 0.9\),\(\beta_2 = 0.95\),\(eps = 10^{-5}\)で訓練した.

2000ステップのウォームアップを行い,最終学習率をピーク学習率の10%まで減衰させるコサイン学習率スケジュールを使用する.

重みの減衰は0.1,勾配のクリッピングは1.0である.

図5(a)はこれらのハイパーパラメータを用いたLlama 2の訓練損失を示す.

トークナイザー:

Llama 1と同じトークナイザーを使用する.

SentencePiece(Kudo and Richardson, 2018)の実装を使用し,BytePair Encoding(BPE)アルゴリズム(Sennrich et al., 2016)を採用している.

Llama 1と同様に,すべての数字を個々の数字に分割し,バイトを使用して未知のUTF-8文字を分解する.

語彙サイズは32kトークンである.

2.2.1項:Training Hardware & Carbon Footprint(訓練ハードウェアとカーボンフットプリント)

訓練ハードウェア:

我々はMetaのResearch Super Cluster(RSC)(Lee and Sengupta, 2022)と社内の製品クラスタでモデルを事前訓練した.

どちらのクラスタもNVIDIA A100を使用している.

2つのクラスタには2つの重要な違いがあり,1つ目は利用可能なインターコネクトのタイプである.

RSCはNVIDIA Quantum InfiniBandを使用しているのに対し,我々の製品クラスタはコモディティイーサネットスイッチをベースにしたRDMA over converged Ethernet(RoCE)ソリューションを備えている.

これらのソリューションはどちらも200Gbpsのエンドポイントを相互接続する.

2つ目の違いは,GPUごとの消費電力上限で,RSCが400Wを使用するのに対し,製品クラスタは350Wを使用している.

この2つのクラスタのセットアップにより,大規模訓練におけるこれらの異なるタイプの相互接続の適合性を比較することができた.

RoCE(より手頃な価格の商用インターコネクトネットワーク)は,2000GPUまで高価なInfinibandとほぼ同等のスケールが可能であり,これにより事前訓練の民主化がさらに進む.

RoCEとGPUパワーの上限を350Wに設定したA100上で,我々の最適化したコードベースは,IBインターコネクトと400WのGPUの消費電力を使用したRSCの性能の最大90%に達した.

事前訓練のカーボンフットプリント:

(Bender et al., 2021a; Patterson et al., 2021; Wu et al., 2022; Dodge et al., 2022)に従い,GPUデバイスの消費電力推定と炭素効率を使用して,Llama 2モデルの事前訓練による炭素排出量を計算することを目指す.

GPUの実際の消費電力は,その利用状況によって異なり,GPUの消費電力の推定値として採用した熱設計電力(TDP:Thermal Design Power)とは異なる可能性がある.

この計算では,インターコネクトやGPU以外のサーバの消費電力,データセンターの冷却システムなど,その他の電力需要は考慮していないことに留意することが重要である.

さらに,GPUのようなAIハードウェアの生産に関連する炭素出力は,(Gupta et al., 2022a; Gupta et al., 2022b)が示唆するように,全体的なカーボンフットプリントに追加される可能性がある.

Llama2 Table2
表2:事前訓練時の\(CO_2\)排出量.時間:各モデルの訓練に必要なGPU時間の合計.消費電力:使用したGPUのGPUデバイスあたりのピーク電力容量を電力使用効率で調整したもの.排出量の100%は,Metaのサステナビリティ・プログラムによって直接相殺される.また,我々はこれらのモデルをオープンに公開しているため,事前訓練の費用を他者が負担する必要はない.

表2は,Llama 2ファミリーのモデルを事前訓練した際の炭素排出量をまとめたものである.

A100-80GBタイプ(TDP400Wまたは350W)のハードウェアで,累計3.3M GPU時間の計算を行った.

訓練のための総排出量は\(539tCO_2 eq\)と見積もられ,そのうち100%はMeta社の持続可能性プログラムによって直接オフセットされた.

また,当社のオープンリリース戦略は,これらの訓練前のコストを他社が負担する必要がないことを意味し,よりグローバルな資源を節約することができる.

2.3節:Llama 2 Pretrained Model Evaluation(Llama 2事前訓練モデルの評価)

本章では,Llama 1とLlama 2のベースモデル,MosaicML Pretrained Transformer(MPT)モデル,Falcon(Almazrouei et al., 2023)モデルについて,標準的なアカデミックベンチマークでの結果を報告する.

全ての評価には,我々の内部評価ライブラリを使用した.

MPTモデルとFalconモデルの結果は内部で再現した.

これらのモデルについては,我々の評価フレームワークと公表されている結果との間で,常にベストスコアを選んだ.

Llama2 Table3
表3:オープンソースのベースモデルと比較した,グループ化されたアカデミックベンチマークでの全体的な性能.

表3では,一連の全体的なベンチマークにおける総合的な性能をまとめている.

安全ベンチマークは4.1節で共有している.

ベンチマークは以下のカテゴリーに分類されている.

個々のベンチマークの結果は付録A.2.2にある.

  • コード:我々はHumanEval(Chen et al., 2021)とMBPP(Austin et al., 2021)における我々のモデルの平均pass@1スコアを報告する.
  • コモンセンス推論:PIQA(Bisk et al., 2020),SIQA(Sap et al., 2019),HellaSwag(Zellers et al., 2019a),WinoGrande(Sakaguchi et al., 2021),ARC easy and challenge(Clark et al., 2018),OpenBookQA(Mihaylov et al., 2018),CommonsenseQA(Talmor et al., 2018)の平均を報告する.CommonSenseQAについては7-shot,その他のベンチマークについては0-shotの結果を報告する.
  • 世界知識:NaturalQuestions(Kwiatkowski et al., 2019)とTriviaQA(Joshi et al., 2017)で5-shotのパフォーマンスを評価し,平均を報告する.
  • 読解力:読解力については,SQuAD(Rajpurkar et al., 2018),QuAC(Choi et al., 2018),BoolQ(Clark et al., 2019)の0-shot平均を報告する.
  • MATH:GSM8K(8 shot)(Cobbe et al., 2021)とMATH (4 shot)(Hendrycks et al., 2021)ベンチマークの平均をトップ1で報告する.
  • ポピュラーな集計ベンチマーク:MMLU(5 shot)(Hendrycks et al., 2020),Big Bench Hard(BBH)(3 shot)(Suzgun et al., 2022),AGI Eval(3-5 shot)(Zhong et al., 2023)の総合結果を報告する.AGI Evalについては,英語タスクのみで評価し,平均値を報告する.

表3に示すように,Llama 2のモデルはLlama 1のモデルを上回っている.

特に,Llama 2 70BはLlama 1 65Bと比較して,MMLUとBBHの結果をそれぞれ約≈5ポイント,約≈8ポイント改善した.

Llama 2の7Bと30Bのモデルは,コードベンチマーク以外のすべてのカテゴリーにおいて,対応するサイズのMPTモデルよりも優れている.

Falconのモデルでは,Llama 2 7Bと34Bが,すべてのカテゴリーのベンチマークでFalcon 7Bと40Bのモデルを上回っている.

さらに,Llama 2 70Bモデルは,すべてのオープンソースモデルを上回っている.

Llama2 Table4
表4:アカデミックベンチマークにおけるクローズドソースモデルとの比較.GPT-3.5とGPT-4モデルの結果は(OpenAI, 2023)から引用.PaLMモデルの結果は(Chowdhery et al., 2022)から引用.PaLM-2-Lモデルの結果は(Anil et al., 2023)から引用.

オープンソースモデルに加えて,Llama 2 70Bの結果をクローズドソースモデルと比較した.

表4に示すように,Llama 2 70Bは,MMLUとGSM8KではGPT-3.5(OpenAI, 2023)に近い結果を示しているが,コーディングベンチマークでは大きな開きがある.

Llama 2 70Bの結果は,ほぼすべてのベンチマークでPaLM (540B)(Chowdhery et al., 2022)と同等かそれ以上である.

Llama 2 70BとGPT-4およびPaLM-2-Lとの間には,依然として大きな性能差がある.

また,潜在的なデータのコンタミネーションについても分析し,詳細は付録A.6で共有している.

3章:Fine-tuning(ファインチューニング)

Llama 2-Chatは,命令チューニングとRLHFの両方を含む,数ヶ月にわたる研究とアライメント技術の反復適用の結果であり,多大な計算資源とアノテーション資源を必要とする.

本章では,教師ありファインチューニング(SFT:Supervised Fine-Tuning)(3.1節),初期および反復的な報酬モデリング(3.2.2項),RLHF(3.2.3項)を用いた実験とその結果について報告する.

また,新しい技術であるGhost Attention(GAtt)を共有し,複数のターンにわたる対話の流れをコントロールするのに役立つことを発見した(3.3節).

ファインチューニングされたモデルにおける安全性の評価については4.2節を参照されたい.

3.1節:Supervised Fine-Tuning(SFT)

開始:

ブートストラップを行うため,(Touvron et al., 2023)で以前に利用したように,一般に公開されている命令チューニングデータ(Chung et al., 2022)を用いてSFTステージを開始した.

Llama2 Table5
表5:SFTアノテーション.SFTのHelpfulness(有用性)(上)とSafety(安全性)(下)のアノテーション例.アノテータはプロンプトとその回答の両方を記述している.

Quality Is All You Need:

サードパーティのSFTデータはさまざまなソースから入手可能だが,その多くは多様性と質が不十分であり,特にLLMを対話形式の命令に合わせるには不十分であることがわかった.

その結果,我々はまず,表5に示すように,高品質のSFTデータを数千例収集することに注力した.

サードパーティのデータセットから数百万例を除外し,ベンダーベースのアノテーション作業から少ないが質の高い例を使用することで,結果は顕著に改善された.

これらの知見は,(Zhou et al., 2023)とスピリットが類似しており,また,限られたクリーンな命令チューニングデータのセットで,高い品質レベルに達するのに十分であることを見出している.

我々は,高品質の結果を得るためには,数万オーダーのSFTアノテーションで十分であることを発見した.

合計27,540件のアノテーションを収集した後,SFTのアノテーションを中止した.

なお,Metaのユーザデータは含まれていない.

また,アノテーションプラットフォームやベンダーが異なると,下流のモデル性能が著しく異なることが観察され,アノテーションのソースにベンダーを使用する場合でも,データチェックの重要性が浮き彫りになった.

データの品質を検証するために,180の例を注意深く調査し,人間が提供したアノテーションと,モデルが手動で精査して生成したサンプルを比較した.

その結果,驚くべきことに,SFTモデルからサンプリングされた出力は,人間のアノテータが手書きしたSFTデータと遜色ないことが多く,RLHFの嗜好に基づくアノテーションの優先順位を見直し,より多くのアノテーションに力を注げることが示唆された.

ファインチューニングの詳細:

教師ありファインチューニングでは,初期学習率\(2*10^{-5}\),重み減衰0.1,バッチサイズ64,シーケンス長4096のコサイン学習率スケジュールを使用する.

ファインチューニングプロセスのために,各サンプルはプロンプトと回答で構成される.

モデルのシーケンスの長さが適切に満たされるように,訓練セットからすべてのプロンプトと回答を連結する.

プロンプトと回答を分離するために,特別なトークンを使用する.

自己回帰目的関数を利用し,ユーザプロンプトからのトークンに対する損失をゼロにする.

したがって,結果として,回答トークンのみをバックプロパゲートする.

最後に,モデルを2エポック分ファインチューニングする.

3.2節:Reinforcement Learning with Human Feedback(RLHF)

RLHFは,人間の嗜好や命令に従ったモデルの動作をさらにアラインメントするために,ファインチューニングされた言語モデルに適用されるモデル訓練手順である.

RLHFは,経験的にサンプリングされた人間の嗜好を表すデータを収集し,人間のアノテータが2つのモデル出力のうちどちらを好むかを選択する.

この人間のフィードバックは,その後,人間のアノテータの嗜好のパターンを学習し,嗜好の決定を自動化することができる報酬モデルを訓練するために使用される.

3.2.1項:Human Preference Data Collection(人間の嗜好データコレクション)

次に,報酬モデリングのために人間の嗜好データを収集する.

我々は,他の方式よりも2値比較プロトコルを選択したが,その主な理由は,収集したプロンプトの多様性を最大化できるからである.

それでも,他の戦略を検討する価値はあるが,それは今後の研究に委ねる.

アノテーションの手順は以下の通りである.

まずアノテータにプロンプトを書かせ,次に与えられた基準に基づいて,サンプリングされた2つのモデル回答から選択させる.

多様性を最大化するために,与えられたプロンプトに対する2つの回答は,2つの異なるモデルのVariantsからサンプリングされ,Temperatureのハイパーパラメータを変化させる.

参加者に強制的な選択肢を与えるだけでなく,アノテータに,選択した回答が代替案よりもどの程度好ましいかをラベル付けするよう求める.

その選択肢は,かなり良い(significantly better),良い(better),少し良い(slightly better),ほとんど良くない/わからない(negligibly better/unsure)のいずれかである.

嗜好アノテーションのコレクションでは,有用性と安全性に焦点を当てている.

有用性とは,Llama 2-Chatの回答がどの程度ユーザの要求を満たし,要求された情報を提供するかということである.

安全性とは,Llama 2-Chatの回答が安全でないかどうかを意味する.

例えば,「爆弾の作り方を詳しく説明する」ことは役に立つと考えられるが,我々の安全ガイドラインによれば安全ではない.

この2つを分けることで,それぞれに特定のガイドラインを適用し,アノテータをよりよく導くことができる.

例えば,我々の安全アノテーションは,他のガイダンスの中で,敵対的なプロンプトに集中するように命令を提供する.

アノテーションガイドラインの違いとは別に,安全性の段階で安全性ラベルを収集する.

この追加情報により,モデルの回答は3つのカテゴリーのいずれかに分類される.

  1. 好ましい回答は安全で,もう一方の回答は安全でない.
  2. 両方の回答が安全である.
  3. 両方の回答が安全でなく,それぞれ安全性データセットの18%,47%,35%がそれぞれのビンに入る.

我々は,より安全な回答が人間にとってもより良い/好ましいと考えるため,選択された回答が安全でなく,もう一方の回答が安全であった例は含んでいない.

安全ガイドラインと安全アノテーションに関するより詳細な情報は4.2.1項にある.

人間のアノテーションは,週単位で一括して収集した.

より多くの嗜好データを収集するにつれて,報酬モデルは改善され,Llama 2-Chatのために徐々に良いバージョンを訓練することができた(5章,図20の結果を参照).

Llama 2-Chatの改善により,モデルのデータ分布も変化した.

報酬モデルの正解率は,この新しいサンプル分布にさらされないと,すぐに低下してしまうからである.

つまり,Hyper-Specialization(Scialom et al., 2020b)により,新しいLlama 2-Chatチューニング反復の前に,最新のLlama 2-Chat反復を用いて新しい嗜好データを収集することが重要である.

このステップは,報酬モデルをオン分布に保ち,最新モデルの正確な報酬を維持するのに役立つ.

Llama2 Table6
表6:報酬モデリングのための人間の嗜好データの統計.報酬モデリングに使用したオープンソースと内部で収集した人間の嗜好データの両方を列挙する.人間の嗜好のバイナリ比較は,同じプロンプト(および以前のダイアログ)を共有する2つの回答(選択と拒否)を含むことに注意されたい.各例は,報酬モデルの入力であるプロンプト(可能であれば以前のダイアログを含む)と回答で構成される.比較の回数,1対話あたりの平均ターン数,1例あたりの平均トークン数,1プロンプトあたりの平均トークン数,1回答あたりの平均トークン数を報告する.バッチごとのMeta Safety and Helpfulnessデータの詳細は付録A.3.1にある.

表6では,我々が長期にわたって収集した報酬モデリングデータの統計量を報告し,Anthropic Helpful and Harmless(Bai et al., 2022a),OpenAI Summarize(Stiennon et al., 2020),OpenAI WebGPT(Nakano et al., 2021),StackExchange(Lambert et al., 2023),Stanford Human Preferences(Ethayarajh et al., 2022),Synthetic GPT-J(Havrilla)を含む複数のオープンソースの嗜好データセットと比較する.

我々は,指定されたガイドラインを適用した人間に基づく100万以上の2値比較からなる大規模なデータセットを収集し,これをMeta reward modelingデータと呼ぶ.

プロンプトと解答のトークン数はテキスト領域によって異なることに注意されたい.

要約やオンラインフォーラムのデータは一般的にプロンプトが長く,対話スタイルのプロンプトは通常短い.

既存のオープンソースデータセットと比較すると,我々の嗜好データはより多くの会話ターンを特徴としており,平均して長い.

3.2.2項:Reward Modeling(報酬モデリング)

報酬モデルは,モデル応答とそれに対応するプロンプト(以前のターンからのコンテキストを含む)を入力として受け取り,モデル生成の品質(例えば,有用性と安全性)を示すスカラースコアを出力する.

このような応答スコアを報酬として活用することで,RLHF中にLlama 2-Chatを最適化し,人間の嗜好のアラインメントを高め,有用性と安全性を向上させることができる.

他の研究者たちは,有用性と安全性は時にトレードオフになることを発見している(Bai et al., 2022a).

そのため,単一の報酬モデルで両者をうまくこなすのは困難である.

この問題を解決するために,我々は2つの別々の報酬モデルを訓練する.

1つは有用性(Helpfulness RMと呼ばれる)に対して最適化され,もう1つは安全性(Safety RMと呼ばれる)に対して最適化される.

我々は,事前訓練されたチャットモデルのチェックポイントから報酬モデルを初期化する.

これにより,両モデルが事前訓練で獲得した知識から恩恵を受けることが保証されるからである.

つまり,報酬モデルはチャットモデルが知っていることを「知っている」のである.

これにより,例えば2つのモデルが情報の不一致を起こし,ハルシネーションを好む結果となるようなケースを防ぐことができる.

モデルのアーキテクチャとハイパーパラメータは,次のトークンを予測するための分類ヘッドが,スカラー報酬を出力するための回帰ヘッドに置き換えられていることを除けば,事前訓練された言語モデルと同じである.

訓練目的関数:

報酬モデルを訓練するために,我々は収集したペアワイズ人間の嗜好データをバイナリランキングラベル形式(すなわち,選択と拒否)に変換し,選択された応答がその相手よりも高いスコアを持つように強制する.

(Ouyang et al., 2022)と一致するバイナリーランキング損失を使用した.

$$ \mathcal{L}_{ranking} = - \log (\sigma (r_\theta (x, y_c) - r_\theta (x, y_r))) $$

ここで,\(r_\theta (x, y)\)は,プロンプトxと補完yに対してモデル重み\(\theta\)で出力されるスカラースコアである.

\(y_c\)はアノテータが選択する優先応答であり,\(y_r\)は拒否応答である.

このバイナリーランキング損失の上に構築された,より良い有用性と安全性報酬モデルのために,さらに次のように別々に修正する.

3.2.1項で示したように,我々の嗜好評価が4点のスケール(例えば,著しく良い)として分解されることを考えると,より多くの相違がある生成に,より多くの相違するスコアを割り当てるように報酬モデルに明示的に教えるために,この情報を活用することは有用である.

そのために,さらに損失にマージン要素を追加する.

$$ \mathcal{L}_{ranking} = - \log (\sigma (r_\theta (x, y_c) - r_\theta (x, y_r) - m(r))) \tag{1} $$

ここで,マージン\(m(r)\)は嗜好評価の離散関数である.

当然,我々は,明確な回答を持つペアには大きなマージンを使用し,類似した回答を持つペアには小さなマージンを使用する(表27に示す).

我々は,このマージン成分が,特に2つの回答がより分離可能なサンプルにおいて,Helpfulness報酬モデルの正解率を向上させることを発見した.

より詳細なアブレーションと分析は,付録A.3.3の表28にある.

データの構成:

新しく収集したデータと既存のオープンソースの嗜好データセットを組み合わせて,より大きな訓練データセットを形成する.

当初,オープンソースのデータセットは,嗜好アノテーションデータを収集する過程で,我々の報酬モデルをブートストラップするために使用された.

本研究におけるRLHFのコンテキストでは,報酬シグナルの役割は,モデルの出力ではなく,Llama 2-Chatの出力に対する人間の嗜好を学習することである.

しかし,我々の実験では,オープンソースの嗜好データセットからの否定的な伝達は観察されなかった.

したがって,報酬モデルのより良い汎化を可能にし,報酬ハッキングを防ぐことができるため,データ混合に残すことにした.

すなわち,Llama 2-Chatが我々の報酬の弱点を利用し,パフォーマンスが低いにもかかわらず人為的にスコアを増加させることを防ぐためである.

異なるソースから利用可能な訓練データを用いて,我々はHelpfulness報酬モデルとSafety報酬モデルの異なる混合レシピを実験し,最適な設定を確認した.

広範な実験の結果,Helpfulness報酬モデルは最終的に全てのMeta Helpfulnessデータで訓練され,Meta Safetyとオープンソースデータセットから一様にサンプリングされた残りのデータと等しい割合で結合される.

Meta Safety報酬モデルは全てのMeta SafetyとAnthropic Harmlessデータで訓練され,Meta HelpfulnessとオープンソースのHelpfulnessデータと90/10の割合で混合される.

我々は,10%の有用性データを用いた設定が,選択された回答と拒否された回答の両方が安全であると判断されたサンプルの正解率に特に有益であることを発見した.

訓練の詳細:

訓練データに対して1エポックの訓練を行う.

以前の実験では,訓練時間を長くするとオーバーフィッティングになることがわかった.

オプティマイザのパラメータはベースモデルと同じものを使用する.

最大学習率は70BパラメータLlama 2-Chatで\(5 * 10^{-6}\),その他は\(1 * 10^{-5}\)である.

学習率は,最大学習率の10%まで,コサイン学習率スケジュールで減少させる.

ウォームアップは総ステップ数の3%で,最小値は5である.

有効バッチサイズは512組,1バッチあたり1024行に固定する.

報酬モデルの結果:

報酬モデリングのための人間の嗜好アノテーションの各バッチで,1000例をテストセットとして取り出し,モデルを評価した.

対応するテストセットのすべてのプロンプトの和を,それぞれ「Meta Helpfulness」と「Meta Safety」と呼ぶ.

参照点として,ベースラインとして他の一般に利用可能な代替案も評価した.

FLAN-T5-xlに基づくSteamSHP-XL(Ethayarajh et al., 2022),DeBERTa V3 Largeに基づくOpen Assistant報酬モデル(He et al., 2020),OpenAIのAPIからアクセス可能なGPT4である.

訓練時とは対照的に,推論時には,すべての報酬モデルは,ペア出力にアクセスすることなく,単一の出力に対してスカラーを予測することができることに注意されたい.

GPT-4では,「AとBの間で最も良い答えを選びなさい」というzero-shotの質問でプロンプトを出す.

Llama2 Table7
表7:報酬モデルの結果.我々の最終的な有用性報酬モデルと安全性報酬モデルの,多様な人間嗜好ベンチマークに対するパフォーマンス.我々のモデルは,我々が報告する他のベースラインとは対照的に,我々の収集したデータでファインチューニングされていることに注意されたい.

正解率の結果を表7に示す.

予想通り,我々の報酬モデルはLlama 2-Chatに基づいて収集された我々の内部テストセットで最高のパフォーマンスを発揮し,Helpfulness報酬モデルはMeta Helpfulnessテストセットで最高のパフォーマンスを発揮し,同様にSafety報酬モデルはMeta Safetyテストセットで最高のパフォーマンスを発揮する.

全体として,我々の報酬モデルはGPT-4を含むすべてのベースラインを上回る.

興味深いことに,GPT-4は,直接訓練されておらず,特にこの報酬モデリングタスクをターゲットにしていないにもかかわらず,非Meta報酬モデルよりも優れたパフォーマンスを発揮する.

有用性と安全性がそれぞれの領域で最も良い結果を示したという事実は,2つの目的(すなわち,可能な限り有用であることと,必要なときに安全でないプロンプトを拒否すること)の間の緊張(テンション)による可能性があり,これは訓練中に報酬モデルを混乱させる可能性がある.

1つのモデルが2つの側面で優れた性能を発揮するためには,プロンプトが与えられたときに,より良い応答を選択することを学習するだけでなく,敵対的なプロンプトと安全なプロンプトを区別することも学習する必要がある.

その結果,2つの別々のモデルを最適化することで,報酬モデリングタスクが容易になる.

安全性と有用性の間のこの緊張に関するより詳細な分析は,付録A.4.1にある.

Llama2 Table8
表8:嗜好評価ごとの粒状報酬モデルの正解率.Meta HelpfulnessテストセットとSafetyテストセットにおける,Helpfulness報酬モデルとSafety報酬モデルの嗜好評価ごとの正解率を報告する.報酬モデルは,より明確な回答では優れた正解率性(例えば,著しく良い(Significantly Better))を示し,類似した回答では低い正解率(例えば,無視できるほど良い(Negligibly Better))を示す.

表8で嗜好の評価別にスコアをグループ化すると,正解率は「著しく良い」(Significantly Better)テストセットで優れており,比較ペアがより類似する(例えば「わずかに良い」(Slightly Better))ようになると徐々に低下することがわかる.

人間の嗜好をモデル化する学習は,2つの類似したモデル応答の間で決定するときに,アノテータの主観性と,応答を区別する可能性のある微妙な詳細への依存のために,困難になることが予想される.

我々は,Llama 2-Chatのパフォーマンスを向上させるためには,より明確な回答に対する正解率が最も重要であることを強調する.

人間の嗜好アノテーションの一致率も,類似したペアよりも,より明確な回答の方が高い.

Llama2 Figure6
図6:報酬モデルのスケーリング傾向.より多くのデータとより大きなサイズのモデルは一般的に正解率を向上させ,我々のモデルはまだ訓練データでの学習から飽和していないようである.

スケーリング傾向:

毎週収集される報酬モデルのデータ量を増やしながら,異なるモデルサイズをファインチューニングし,報酬モデルのデータとモデルサイズのスケーリング傾向を調査する(表26のバッチごとのデータ量の詳細を参照).

図6はこれらの傾向を示しており,同程度のデータ量に対してより大きなモデルがより高いパフォーマンスを得るという,予想された結果を示している.

さらに重要なことは,訓練に使用された既存のデータアノテーション量を考慮すると,スケーリング性能はまだ頭打ちになっていないということである.

これは,より多くのアノテーションによって改善の余地があることを示している.

報酬モデルの正解率は,Llama 2-Chatの最終的なパフォーマンスを示す最も重要な指標の一つである.

生成モデルを包括的に評価するためのベストプラクティスは未解決の研究課題であるが,報酬のランキングタスクには曖昧さがない.

したがって,他のすべてが同じであれば,報酬モデルの改善はLlama 2-Chatの改善に直結する.

3.2.3項:Iterative Fine-Tuning(反復的ファインチューニング)

人間の嗜好データのアノテーションが増えるにつれて,より優れた報酬モデルを訓練し,より多くのプロンプトを収集することができるようになった.

そのため,RLHFモデルの連続バージョンを訓練し,RLHF-V1,…,RLHF-V5と呼ぶ.

我々は,2つの主要なアルゴリズムを用いてRLHFのファインチューニングを行った.

  • Proximal Policy Optimization(PPO):RLHF文献の標準(Schulman et al., 2017).
  • Rejection Sampling fine-tuning:モデルからK個の出力をサンプリングし,報酬で最良の候補を選択する.これは,(Bai et al., 2022b)と一致する.LLMに対する同じ再順位付け戦略は(Deng et al., 2019)でも提案され,そこでは報酬はエネルギー関数として見られる.ここでは,さらに一歩進んで,選択された出力を勾配更新に使用する.各プロンプトについて,最も高い報酬スコアを得たサンプルを新しいゴールドスタンダードとみなす.(Scialom et al., 2020a)と同様に,ランク付けされたサンプルの新しいセットでモデルをファインチューニングし,報酬を強化する.

2つのRLアルゴリズムの主な違いは以下の通りである.

  • 幅:Rejection Samplingでは,モデルは与えられたプロンプトに対してK個のサンプルを探索するが,PPOでは1生成しか行わない.
  • 深さ:PPOでは,ステップtでの訓練中,サンプルは前のステップの勾配更新後のt - 1からの更新されたモデルポリシーの関数である.Rejection Sampling fine-tuningでは,SFTと同様のファインチューニングを適用する前,新しいデータセットを収集するために,モデルの初期ポリシーが与えられたすべての出力をサンプリングする.しかし,反復的なモデル更新を適用しているため,2つのRLアルゴリズムの基本的な違いはあまり顕著ではない.

RLHF(V4)までは,Rejection Sampling fine-tuningによるファインチューニングのみを行い,それ以降は,Rejection Samplingのチェックポイントの上にPPOを適用し,再度サンプリングを行うという2つを順次組み合わせた.

Rejection Sampling:

Rejection Samplingは,最大の70B Llama 2-Chatにのみ実施する.

すべての小さなモデルは,大きなモデルからRejection Samplingされたデータに基づいてファインチューニングされ,その結果,大きなモデルの能力が小さなモデルへと蒸留される.

この蒸留の効果のさらなる分析は,今後の研究に委ねる.

各反復段階で,各プロンプトに対するK個の答えを最新のモデルからサンプリングする.

各サンプルは,実験時にアクセス可能な最良の報酬モデルで採点し,与えられたプロンプトに対する最良の答えを選択する.

RLHF V3までの我々のモデルの以前のバージョンでは,我々のアプローチは,直前の反復から収集されたサンプルの「バッグ」(bag)のみに答えの選択を限定していた.

例えば,RLHF V3はRLHF V2のサンプルのみを使用して訓練された.

しかし,継続的な改善にもかかわらず,この方法はいくつかの能力の低下を招いた.

例えば,RLHF V3は,定性的分析を通じて判明したように,詩の中で韻を踏んだ行を詠むのに以前のバージョンよりも苦労しており,忘却の原因や緩和策(Kirkpatrick et al., 2017; Nguyen et al., 2019; Ramasesh et al., 2021)についてのさらなる調査が,将来の追加研究にとって実りある分野になり得ることを示唆している.

これに対して,その後の反復では,RLHF-V1やRLHF-V2で使用されたような,以前のすべての反復からトップパフォーマンスのサンプルを組み込んで戦略を修正した.

具体的な数値は示さないが,この調整により性能が大幅に向上し,先に指摘した問題に効果的に対処することができた.

この緩和は,RL文献における(Synnaeve et al., 2019)や(Vinyals et al., 2019)に類似していると見ることができる.

Llama2 Figure7
図7:プロンプトの訓練セットを平均したN個のサンプル(\(N \in [1, … , 100]\))の最大報酬と中央値.最大値と中央値の差は,Rejection Samplingによる潜在的利益と解釈できる.

Rejection Samplingの利点を図7に示す.

最大値と中央値の差は,最良の出力に対するファインチューニングの潜在的利益として解釈することができる.

予想されるように,このデルタはサンプル数が多いほど増加し,中央値は静止したままであるのに対して,最大値は増加するからである(すなわち,サンプル数が多いほど,良い軌道を生成する機会が増える).

探索とサンプルの中で得られる最大の報酬の間には直接的な関係がある.

Temperatureが高いほど,より多様な出力をサンプリングできるため,Temperatureパラメータも探索に重要な役割を果たす.

Llama2 Figure8
図8:N個の出力をサンプリングし,報酬モデルで採点した場合のTemperatureのRLHF影響

図8では,Llama 2-Chat-SFT(左)とLlama 2-Chat-RLHF(右)について,Nサンプル(\(N \in [1,…,100]\)),異なるTemperatureにおける最大報酬曲線を示す.

反復モデル更新の間,最適なTemperatureは一定ではないことがわかる.

RLHFはTemperatureの再スケーリングに直接影響する.

Llama 2-Chat-RLHFの場合,10~100個の出力をサンプリングするときの最適なTemperatureは\(T \in [1.2, 1.3]\)である.

したがって,計算バジェットが有限であれば,Temperatureを段階的に再調整する必要がある.

このTemperatureの再調整は,各モデルに対して一定のステップ数で行われ,常に新しいRLHFの各バージョンの基本モデルから始まることに注意されたい.

PPO:

我々はさらに,(Stiennon et al., 2020)のRLスキームに従って言語モデルを訓練する.

これは,報酬モデルを真の報酬関数(人間の好み)の推定値として使用し,事前訓練された言語モデルを最適化する方針として使用する.

このフェーズでは,以下の目的関数を最適化する.

$$ \arg \underset{\pi}{\max} \mathbb{E_{p \sim \mathcal{D}, g \sim \pi}} [R(g|p)] $$

データセット\(\mathcal{D}\)からプロンプトpを,ポリシー\(\pi\)から生成gをサンプリングし,この目的関数を達成するためにPPOアルゴリズムと損失関数を使用することにより,ポリシーを反復的に改善する.

最適化の際に使用する最終的な報酬関数は以下になる.

$$ R(g|p) = \tilde{R}_c (g|p) - \beta D_{KL} (\pi_\theta (g|p) || \pi_0 (g|p)) $$

この報酬関数には,元のポリシー\(\pi_0\)から乖離した場合のペナルティ項が含まれている.

他の研究(Stiennon et al., 2020; Ouyang et al., 2022)でも観察されたように,この制約が訓練の安定性に有効であり,報酬モデルからは高スコアが得られるが,人間の評価からは低スコアとなるような報酬ハッキングを減らすことができる.

\(R_c\)は,安全性(\(R_s\))と有用性(\(R_h\))の報酬モデルの断片的な組み合わせと定義する.

データセットに含まれるプロンプトのうち,安全でない回答を引き出す可能性のあるプロンプトをタグ付けし,安全性モデルからのスコアを優先する.

安全でない回答をフィルタリングするために0.15の閾値が選択され,これはMeta Safetyテストセットで評価された0.89の精度と0.55のリコールに対応する.

また,安定性を高め,上記のKLペナルティ項(\(\beta\))と適切にバランスをとるために,最終的な線形スコアを白くする(ここではシグモイドをロジット関数で反転させる)ことが重要であることがわかる.

\begin{eqnarray}
R_c(g|p) &=& \left\{
\begin{array}{ll}
R_s(g|p) & {\rm if}\ {\tt IS\_SAFETY}(p)\ {\rm or}\ R_s(g|p) < 0.15 \\
R_h(g|p) & {\rm otherwise}
\end{array}
\right. \\
\tilde{R}_c(g|p) &=& {\tt WHITEN}({\tt LOGIT}(R_c(g|p)))
\end{eqnarray}

すべてのモデルについて,AdamW optimizer(Loshchilov and Hutter, 2017)を使用し,\(\beta_1 = 0.9\),\(\beta_2 = 0.95\),\(eps = 10^{-5}\)とした.

重み減衰は0.1,勾配クリッピングは1.0,一定の学習率は\(10^{-6}\)とする.

各PPO反復では,バッチサイズ512,PPOクリップ閾値0.2,ミニバッチサイズ64を使用し,ミニバッチごとに1回の勾配ステップをとる.

7Bと13Bのモデルでは\(\beta=0.01\)(KLペナルティ),34Bと70Bのモデルでは\(\beta=0.005\)とした.

すべてのモデルで200から400回の反復訓練を行い,早期停止には保留されたプロンプトの評価を使用する.

70BモデルのPPOの各反復には平均≈330秒かかる.

大きなバッチサイズで素早く訓練するために,FSDP(Zhao et al., 2023)を使用する.

これは\(O(1)\)のフォワードパスやバックワードパスを使用する場合には効果的であったが,大きなバッチサイズとKVキャッシュを使用した場合でも,生成時に大きな速度低下(≈20×)を引き起こした.

我々は,生成前にモデルの重みを各ノードに一旦集約し,生成後にメモリを解放して残りの訓練ループを再開することで,これを軽減することができた.

3.3節:System Message for Multi-Turn Consistency(マルチターンの一貫性を保つためのシステムメッセージ)

Llama2 Figure9
図9:マルチターンメモリ(左)の問題はGAtt(右)で改善できる.

対話のセットアップでは,すべての会話ターンに適用される命令があるはずである.

例えば,簡潔に回答するとか,ある公人に「なりきる」(act as)とかである.

Llama 2-Chatにそのような命令を与えると,その後の回答は常にその制約を尊重するはずである.

しかし,我々の初期のRLHFモデルは,図9(左)に示されるように,対話が数ターン続くと最初の命令を忘れてしまう傾向があった.

これらの限界に対処するために,我々はContext Distillation(Bai et al., 2022b)にインスパイアされた非常にシンプルな手法であるGhost Attention(GAtt)を提案する.

これは,ファインチューニングデータをハックして,多段階プロセスでAttentionの集中を助けるものである.

GAttは,図9(右)に示すように,複数のターンにわたる対話制御を可能にする.

GAtt Method:

我々は,2人の人物(例えば,ユーザとアシスタント)の間のマルチターンの対話データセットにアクセスできると仮定する.

メッセージのリスト\([u_1, a_1, …, u_n, a_n]\)があるとする.

ここで,\(u_n\)と\(a_n\)はそれぞれnターン目のユーザとアシスタントのメッセージに対応する.

そして,対話を通じて尊重されるべき命令(inst)を定義する.

例えば,instは「act as」である.

そして,この命令を会話のすべてのユーザメッセージに合成することができる.

次に,最新のRLHFモデルを使って,この合成データからサンプリングすることができる.

これで,Rejection Samplingに類似したプロセスで,モデルをファインチューニングするためのコンテキスト対話とサンプルを手に入れたことになる.

すべてのコンテキスト対話のターンを命令で補強する代わりに,最初のターンを除くすべてのターンで命令を削除することができる.

しかし,これは訓練時にシステムメッセージ(つまり最後のターンの前に来るすべての中間アシスタントメッセージ)とサンプルの間のミスマッチを引き起こす.

この問題を解決するために,アシスタントのメッセージも含めて,前のターンのトークンの損失を0にする.

訓練の命令のために,我々はいくつかの合成制約を作成し,以下からサンプリングした.

  • 趣味(例:テニスが好き)
  • 言語(例:フランス語で話す)
  • または公人(例:ナポレオンとして行動する)

趣味や公人のリストを得るために,命令とモデルの知識のミスマッチ(例:訓練中に出会ったことのない人物を演じるようモデルに求める)を避けるため,Llama 2-Chatに生成を依頼した.

命令をより複雑で多様なものにするために,上記の制約をランダムに組み合わせて最終的な命令を構成する.

また,訓練データに対する最終的なシステムメッセージを構成する際,元の命令の半分をより冗長でないように修正する.

例えば,「Always act as Napoleon from now->Figure:Napoleon」(これからは常にナポレオンとして行動する->図:ナポレオン」である.

このような手順でSFTデータセットを作成し,Llama 2-Chatをファインチューニングする.

GAtt Evaluation:

RLHF V3の後にGAttを適用した.

GAttは最大コンテキスト長に達するまで,20ターン以上一貫していることを示す定量的分析を報告する(付録A.3.5参照).

推論時にGAttの訓練にはない制約,例えば「Always answer with Haiku」(常に俳句で答える)などを設定してみたが,付録の図28に示すようにモデルは一貫性を保った.

Llama2 Figure10
図10:GAttを使用した対話と使用しなかった対話のAttentionの視覚化.ネットワーク全体の最大活性化を考慮し,隣接するトークンを一緒にビン詰めした.

GAttがファインチューニング中にどのようにAttentionの再形成を助けたかを説明するために,図10にモデルの最大Attention活性化を表示する.

各図の左側はシステムメッセージ「Act as OscarWilde」(オスカー・ワイルド役)に対応している.

GAttを搭載したモデル(右)は,GAttを搭載していないモデル(左)と比較して,対話の大部分においてシステムメッセージに対して大きなAttentionの活性化を維持していることがわかる.

その有用性にもかかわらず,GAttの現在の実装はバニラ(原型のまま)であり,この技術についてより多くの開発と反復が,モデルにさらなる利益をもたらす可能性がある.

例えば,ファインチューニング中にこのようなデータを統合することで,会話中にシステムメッセージを変更するようモデルに教えることができるだろう.

3.4節:RLHF Results(RLHFの結果)

3.4.1項:Model-Based Evaluation(モデルベースの評価)

LLMの評価は,困難なオープンリサーチの問題である.

人間による評価は,ゴールドスタンダード(最も標準的な手法)ではあるが,様々なHCIへの配慮によって複雑化する可能性がある(Clark et al., 2021; Gehrmann et al., 2023).

また,必ずしもスケーラブルではない.

したがって,RLHF-V1からV5までの各反復で,複数のアブレーションの中から最もパフォーマンスの高いモデルを選択するために,まずコストを節約し,反復速度を上げるために,最新の報酬モデルからの報酬の改善を観察した.

その後,主要なモデルのバージョンを人間による評価で検証した.

モデルベースの評価はどこまで可能か?

報酬モデルのロバスト性を測定するために,有用性と安全性の両方に関するプロンプトのテストセットを収集し,3人のアノテータに7段階のリッカート尺度(高いほど良い)に基づいて回答の質を判断してもらった.

付録の図29に示されているように,報酬モデルは全体的に人間の嗜好アノテーションとよく適合していることが観察された.

このことは,Pairwise Ranking Lossで訓練されているにもかかわらず,Point-Wise Metricとして報酬を使用することの妥当性を確認する.

それでも,グッドハートの法則が示すように,ある尺度がターゲットになったとき,それは良い尺度ではなくなる.

我々の尺度が人間の好みから乖離しないことを確実にするため,我々はさらに,多様なオープンソースのReward Modelingデータセットで訓練された,より一般的な報酬を使用した.

このような乖離はまだ観察されておらず,反復的なモデルの更新がこれを防ぐのに役立っているのではないかと仮説を立てている.

新しいモデルと以前のモデルの間にリグレッションがないことを確認する最後の検証ステップとして,次のアノテーションの反復中にサンプリングするために両方を使用する.

これにより,新しいプロンプトに対して「無料で」モデル比較が可能になり,サンプリング時の多様性を高めることができる.

Llama2 Figure11
図11:Llama 2-Chatの進化.ChatGPTと比較したLlama 2-Chatの勝率%について,何度もファインチューニングを繰り返した後の進化を示す.
(左)ジャッジは我々の報酬モデルであり,これは我々のモデルに有利である可能性がある.
(右)ジャッジはGPT-4であり,これはより中立的であるはずである.

モデルの進歩:

図11は,安全性と有用性の両軸について,SFTとRLHFの各バージョンの進捗を,安全性と有用性の報酬モデルによって測定したものである.

この評価セットでは,RLHF-V3以降,両軸でChatGPTを上回っている(無害度と有用度が50%超).

我々の報酬をPoint-Wise Metricとして使用することは,前述の関連性にもかかわらず,間違いなくLlama 2-Chatに有利に偏る可能性がある.

したがって,公平な比較のために,GPT-4を使って最終結果を計算し,どちらの生成が好ましいかを評価する.

GPT-4プロンプトでChatGPTとLlama 2-Chatの出力が現れる順番は,バイアスを避けるためにランダムに入れ替えた.

予想通り,最新のLlama 2-Chatでは60%以上の勝率を得たものの,Llama 2-Chatに有利な勝率はあまり顕著ではなかった.

このプロンプトは,安全性と有用性について,それぞれ1,586と584のプロンプトからなる検証セットに対応している.

3.4.2項:Human Evaluation(人間の評価)

対話モデルを含む自然言語生成のためのモデルを判断するためのゴールドスタンダードとして,人間による評価がしばしば考慮される.

主要なモデルの品質を評価するために,人間の評価者に有用性と安全性について評価してもらった.

我々はLlama 2-Chatモデルとオープンソースモデル(Falcon,MPT(MosaicML NLP Team et al., 2023),Vicuna(Chiang et al., 2023)),およびクローズドソースモデル(ChatGPT(OpenAI, 2023),PaLM (Anil et al., 2023))を4,000以上のシングルターンおよびマルチターンプロンプトで比較した.

ChatGPTでは,全生成でgpt-3.5-turbo-0301モデルを使用した.

PaLMでは,全生成でchat-bison-001モデルを使用している.

各モデルの最終的なプロンプト数を表32に示す.

詳細な方法論は付録A.3.7を参照されたい.

以下では,有用性の結果を示す.

安全性の結果は4.4節で示す.

Llama2 Figure12
図12:Llama 2-Chatモデルとオープンソースおよびクローズドソースのモデルを,1プロンプトにつき3人の評価者を使い,約4,000の役に立つプロンプトで比較した人間の評価結果

結果:

図12に示すように,Llama 2-Chatモデルは,シングルターンとマルチターンプロンプトの両方で,オープンソースモデルを大幅に上回っている.

特に,Llama 2-Chat 7Bモデルは,プロンプトの60%でMPT-7B-chatを上回った.

Llama 2-Chat 34Bは,同サイズのVicuna-33BやFalcon 40Bモデルに対して75%以上の勝率をあげている.

最大のLlama 2-ChatモデルはChatGPTと拮抗している.

Llama 2-Chat 70BモデルのChatGPTに対する勝率は36%,同率は31.5%である.

Llama 2-Chat 70Bモデルは,我々のプロンプトセットにおいて,PaLM-bisonチャットモデルを大きくで上回っている.

より詳細な結果と分析は付録A.3.7にある.

評価者間信頼性(IRR:Inter-Rater Reliability):

人間による評価では,3人の異なるアノテータが各モデル生成の比較について独立した評価を行った.

IRRスコアが高い(1.0に近い)ほど,一般的にデータ品質の観点からは優れていると見なされるが,コンテキストは重要である.

LLM生成の全体的な有用性を評価するような非常に主観的なタスクは,通常,より客観的なラベリングタスクよりもIRRスコアが低くなる.

このようなコンテキストの公開ベンチマークは比較的少ないので,ここで我々の分析を共有することは研究コミュニティのためになると感じている.

我々は,評価者間信頼性(IRR:Inter-Rater Reliability)を測定するために,GwetのAC1/2統計量(Gwet 2008, Gwet 2014)を使用した.

異なる測定シナリオにわたって最も安定した指標であることがわかったからである.

我々の分析で使用されている7段階リッカート尺度の有用性タスクでは,GwetのAC2スコアは,特定のモデル比較によって0.37から0.55の間で変化する.

お互いに似たような勝率のモデル比較(Llama 2-Chat-70B-chat vs. ChatGPTの比較のような)の評価では,その範囲の低い方のスコアが見られる.

勝敗がより明確なモデル比較(Llama 2-Chat-34b-chat vs. Falcon-40b-instructのような)では,この範囲の高い方のスコアが見られる.

人間評価の限界:

我々の結果は,Llama 2-ChatがChatGPTと同等であることを示しているが,人間による評価にはいくつかの限界があることに注意する必要がある.

  • 学術的,研究的な基準では,4kプロンプトの大規模なプロンプトセットを用意している.しかし,これらのモデルの実世界での使用法はカバーしていない.これは,より多くのユースケースをカバーする可能性が高い.
  • プロンプトの多様性は,我々の結果のもう一つの要因である可能性がある.例えば,我々のプロンプトセットには,コーディングや推論に関連するプロンプトは含まれていない.
  • また,マルチターン会話の最終生成のみを評価した.より興味深い評価としては,モデルにタスクを完了させ,マルチターンにわたるモデルとの全体的な経験を評価するよう求めることができる.
  • 生成モデルに対する人間の評価は,本質的に主観的でノイズが多い.その結果,異なるプロンプトのセットで,あるいは異なる命令で評価すると,異なる結果になる可能性がある.

4章:Safety(安全性)

警告:この章には,安全でない,攻撃的である,または動揺させると考えられるテキストの例が含まれている.

本章では,安全性の測定と緩和という重要なトピックに深入りする.

まず,事前訓練データと事前訓練モデルに関する安全性の調査について述べる(4.1節).

次に,安全アライメントのプロセスを説明する(4.2節).

安全に関するアノテーションをどのように収集し,SFTとRLHFをどのように利用したかを説明し,実験結果を示す.

次に,モデルの安全性をさらに理解し,改善するために実施したレッドチームについて述べる(4.3節).

最後に,Llama 2-Chatの定量的な安全性評価を示す(4.4節).

また,付録の表52でモデルカードを共有する.

4.1節:Safety in Pretraining(事前訓練の安全性)

訓練前のデータに何が含まれているかを理解することは,透明性を高めるためにも,また,潜在的なバイアスなど,下流で起こりうる問題の根本原因を明らかにするためにも重要である.

このことは,もしあるとすれば,下流でどのような緩和策を検討すべきかを知らせ,適切なモデルの使用を導くのに役立つ.

本章では,言語,人口統計学的表現,毒性の分布について,事前訓練データを分析する.

また,既存の安全性ベンチマークで事前訓練済みモデルをテストした結果も示す.

責任ある事前訓練のために取られたステップ:

訓練に使用する各データセットについて,Metaの標準的なプライバシーおよび法的審査プロセスに従った.

Metaのユーザデータは訓練に使用しなかった.

個人の個人情報が大量に含まれていることが知られている特定のサイトのデータは除外した.

我々は,事前訓練の二酸化炭素排出量を削減するために,効率的にモデルを訓練するための最善の努力をした(2.2.1項).

我々のモデルを広く共有することで,他の人が同様のモデルを訓練する必要性を減らすことができる.

Llama 2がタスク間でより広く使えるようにするため(例:ヘイトスピーチの分類によりよく使えるようにするため),データセットに追加のフィルタリングは行わなかった.

このことは,こすり過ぎによる人口統計の偶発的な消去の可能性を避けることができる.

重要なことは,これによってLlama 2-Chatは,より少ない例で安全性チューニングの間,より効果的に一般化することができる(Welbl et al., 2021; Korbak et al., 2023; Xu et al., 2021).

その結果,Llama 2モデルは慎重に使用され,重要な安全チューニングが適用された後にのみデプロイされるべきである.

Llama2 Table9
表9:人口統計学的表現.事前訓練コーパスの代名詞とアイデンティティを分析すると,欧米人の属性が高いなど,パフォーマンスに影響を与える可能性のあるバイアスがあることがわかる.

人口統計学的表現:代名詞

モデル生成におけるバイアスは,訓練データ自体から継承されたバイアスから生じる可能性がある.

例えば,(Bailey et al., 2022)は,膨大なテキストコーパスにおいて,「people」を表す単語は,「women」を表す単語よりも「men」を表す単語の方が,より類似したコンテキストで使われることが多いことを示す.

(Ganesh et al., 2023)は,公平性指標に対するモデルの性能は,代表的でない人口統計学的グループを表すデータに対するモデルの訓練方法に大きく依存する可能性があることを示している.

英語学習コーパスの中で,最も一般的な英語の代名詞の頻度を計算したのが表9aである.

Heの代名詞はSheの代名詞に比べ,一般的に文書中で多く使われていることがわかる.

これは,同じようなサイズのモデルの事前訓練データセットで観察された,代名詞の使用頻度の違いと同じである(Chowdhery et al., 2022).

これは,Sheの代名詞に言及するコンテキストについてモデルが事前訓練中にあまり学習しておらず,その結果,Sheの代名詞よりもHeの代名詞を高い割合で生成している可能性があることを意味する.

人口統計学的表現:アイデンティティ

また,HolisticBiasデータセット(Smith et al., 2022)から人口統計学的アイデンティティの用語の使用率をプロキシとして測定することで,事前訓練データにおける異なる人口統計学的グループの表現も分析した.

事前訓練コーパスの各記述語の頻度を計算する.

記述子を5つの軸(宗教,ジェンダーと性別,国籍,人種と民族,性的指向)にグループ分けし,各軸の上位5項を表9bに示す.

上位5用語のうち,「straight」,「white」,「black」などの用語は,人口統計学的な言及以外でも頻繁に使用される(基本的な色彩用語など)ため,除外している.

また,「Gender and Sex」と「Sexual Orientation」の両方に見られるいくつかの用語を削除し,リスト間の重複を排除している.

Gender and Sexでは,Sheの代名詞が言及される文書が少ない一方で,「female」という用語はより多くの割合の文書に存在する.

これは,Sheの代名詞に関するコンテキストの頻度が少ない一方で,「females」に関するコメントがより多く見られることを示唆している可能性があり,おそらくこれらの用語の言語的な顕著性の違いを反映している(Blodgett et al., 2021).

「Sexual Orientation」については,上位5語がすべてLGBTQ+のアイデンティティに関するものであった.

「Nationality」,「Race and Ethnicity」,「Religion」については,西洋的なバイアスが見られる(Bhatt et al., 2022).

例えば,「American」という用語は69.4%の文献で言及され,「European」という用語は他の人種や民族よりも多く,「Christian」は最も代表的な宗教で,「Catholic」と「Jewish」がそれに続く.

Llama2 Figure13
図13:事前訓練データの毒性.より良い下流の汎化を可能にするために,事前訓練から毒性データを除外しないことにした.HateBERT分類器は,事前訓練コーパスの約0.2%の文書に0.5以上の毒性尤度を割り当てている.

データ毒性:

ToxiGenデータセット(Hartvigsen et al., 2022)でファインチューニングされたHateBERT分類器を用いて,事前訓練コーパスの英語部分における毒性の有病率を測定する.

文書の各行を個別に採点し,それらを平均して文書スコアを割り当てる.

図13は,全コーパスの10%の無作為サンプルにおけるスコアの分布を示す.

評価された文書の約0.2%に0.5以上の尤度スコアが割り当てられており,これは事前訓練データにわずかな毒性があることを意味する.

Llama2 Table10
表10:事前訓練データの言語分布(パーセンテージ≧0.005%).ほとんどのデータは英語であり,これはLlama 2が英語のユースケースに最適であることを意味する.大きなunknownのカテゴリーは,プログラミングコードのデータで部分的に構成されている.

言語の識別:

事前訓練データはほとんどが英語であるが,他の言語のテキストも少なからず含まれている.

表10は,文書の0.005%以上に見られる言語にサブセットした,コーパス内の言語の分布を示す.

我々の分析では,fastText(Bojanowski et al., 2016)の言語識別ツールを使用し,言語検出の閾値は0.5とした.

訓練コーパスの過半数が英語であることは,モデルが他の言語での使用に適していない可能性があることを意味する.

事前訓練モデルの安全ベンチマーク:

Llama 2の安全性を,LMの安全性の3つの主要な次元に関連する3つの一般的な自動ベンチマークで評価する.

  1. 真実性(Truthfulness)とは,言語モデルが誤解や誤った信念に起因する既知の虚偽を生成するかどうかを指す.我々はTruthfulQA(Lin et al., 2021)を採用し,我々のLLMがどれだけ事実性と常識に一致する信頼できる出力を生成できるかを測定する.
  2. 毒性(Toxicity)とは,有害な,無礼な,敵対的な,あるいは暗黙のうちに憎悪に満ちたコンテンツを生成する言語モデルの傾向として定義される.我々はToxiGen(Hartvigsen et al., 2022)を選択し,異なるグループ間での有害言語やヘイトスピーチの生成量を測定した.
  3. バイアス(Bias)は,モデル生成が既存のステレオタイプ的な社会的バイアスをどのように再現するかとして定義される.我々はBOLD(Dhamala et al., 2021)を使って,モデル生成のセンチメントが人口統計学的属性によってどのように変化するかを研究している.

Llama2 Table11
表11:自動安全ベンチマークに対する事前訓練済みLLMの評価.TruthfulQAについては,真実かつ有益な生成の割合を示す(高いほど良い).ToxiGenについては,有毒な生成の割合を示す(小さいほど良い).

Llama 2の性能をLlama 1(Touvron et al., 2023),Falcon(Almazrouei et al., 2023),MPT(MosaicML NLP Team et al., 2023)と表11で比較する.

デコーディングには,Temperatureを0.1に設定し,top-pを0.9に設定した核サンプリング(Holtzman et al., 2020)を使用した.

TruthfulQAについては,真実かつ有益な生成の割合を示す(高いほど良い).

ToxiGenについては,メトリクスによって有毒と判断された生成のパーセンテージを示す(低いほど良い).

ベンチマークとメトリックの詳細な説明は付録A.4.7にある.

Llama 1-7Bと比較すると,Llama 2-7Bは真実性と情報性が21.37%増加し,毒性が7.61%減少している.

また,13Bと70BのLlama 2では毒性が増加しているが,これは事前訓練データが大きいか,データセットが異なるためと考えられる.

事前訓練データセットのサイズとダウンストリームモデルの毒性またはバイアスとの間に関係があると仮定する人もいるが(Bender et al., 2021b),この主張を検証する実証的な研究はまだ進行中であり(Dodge et al., 2021; Smith and Williams, 2021; Tal et al., 2022),最新のモデルからのさらなる証拠がまだ必要である.

付録A.4.7では,モデル生成のセンチメントが人口統計学的属性によってどのように変化するかなどのバイアスメトリクスを示す.

BOLDプロンプトを使用した多くのグループで,全体的に肯定的なセンチメントが増加していることがわかる.

異なる人口統計グループごとに分割されたより詳細な結果は,付録A.4.8で見ることができる.

Llama 2は毒性指標において他のモデルを上回らなかったが,これは事前訓練データの積極的なフィルタリングを控えたためではないかと推測している.

事前訓練データをフィルタリングせずに残しておくことで,(ヘイトスピーチ検出を含む)より下流のタスクでうまく機能するようにチューニングされたベースモデルが可能になり,一部の人口統計学的グループを誤ってフィルタリングしてしまうリスクが少なくなることを思い出してほしい.

あまり積極的にフィルタリングされていない事前訓練データから訓練されたモデルは,合理的な安全アライメントを達成するために必要な例数も少なかった.

この動機づけられた選択は,Llama 2の基本モデルをデプロイする前に,さらなる安全性の緩和を適用する必要があることを意味する.

ベンチマークは,モデルの一般的なパターンを理解することを可能にする,モデルの能力と動作の概要を示すものであるが,モデルが人々や実世界の結果に与える影響について完全に包括的な見解を提供するものではない.

そのためには,エンド・ツー・エンドの製品デプロイを研究する必要がある.

システムがデプロイされる特定の状況におけるバイアスやその他の社会的問題を理解するために,さらなるテストと緩和を行う必要がある.

そのためには,BOLDデータセットで利用可能なグループ(人種,宗教,性別)以外のテストも必要かもしれない.

LLMが統合され,デプロイされるにつれて,これらの重要な社会問題にポジティブな影響を与える可能性を増幅させるような,継続的な研究を期待している.

4.2節:Safety Fine-Tuning(安全性のファインチューニング)

この章では,安全カテゴリー,アノテーションガイドライン,安全性リスクを軽減するために使用するテクニックなど,安全性ファインチューニングへのアプローチについて説明する.

我々は,3章で説明した一般的なファインチューニング手法と同様のプロセスを採用しているが,安全性に関するいくつかの顕著な違いがある.

具体的には,安全性のファインチューニングに以下のテクニックを使用する.

  • 教師付き安全ファインチューニング:敵対的なプロンプトと安全なデモを収集することで初期化し,それを一般的な教師付きファインチューニングプロセスに含める(3.1節).これにより,RLHFの前でも安全ガイドラインに沿ったモデルを教えることで,高品質な人間の嗜好データアノテーションの基礎を築く.
  • 安全RLHF:その後,3.2.2項で説明した一般的なRLHFパイプラインに安全性を統合する.これには,安全性に特化した報酬モデルの訓練と,拒絶サンプリングスタイルのファインチューニングとPPO最適化のための,より難易度の高い敵対的プロンプトの収集が含まれる.
  • 安全コンテキストの蒸留:最後に,コンテキスト蒸留(Askell et al., 2021b)を使ってRLHFパイプラインを改良する.これは,例えば「You are a safe and responsible assistant」(あなたは安全で責任あるアシスタントです)というように,プロンプトの前に安全性の事前プロンプトを付けることによって,より安全なモデル応答を生成する.その後,事前プロンプトなしでより安全な応答についてモデルをファインチューニングすることで,本質的に安全性の事前プロンプト(コンテキスト)をモデルに蒸留する.我々は,安全報酬モデルが各サンプルに対してコンテキスト蒸留を使用するかどうかを選択できるようにする,的を絞ったアプローチを使用する.

4.2.1項:Safety Categories and Annotation Guidelines(安全カテゴリーとアノテータガイドライン)

先行研究で知られているLLMの限界に基づき,我々はアノテーションチームに以下の2つの次元に沿って敵対的なプロンプトを作成する命令を設計した.

  • リスクカテゴリー:つまりLLMが安全でないコンテンツを生成する可能性のあるトピック
  • 攻撃ベクトル:つまり悪質なモデル行動を引き出す可能性のある様々なプロンプトをカバーする質問スタイル

検討されたリスクカテゴリーは,大きく次の3つに分けられる.

  • 不法・犯罪行為(例:テロ,窃盗,人身売買)
  • 憎悪・有害行為(例:中傷,自傷,摂食障害,差別)
  • 無資格アドバイス(例:医療アドバイス,財務アドバイス,法律アドバイス)

心理操作(権威操作など),論理操作(虚偽の前提など),構文操作(スペルミスなど),意味操作(比喩など),視点操作(ロールプレイなど),非英語言語,その他からなる攻撃ベクトルを探る.

次に,安全で有用なモデル回答のためのベストプラクティスを定義します.

モデルは,該当する場合,まず安全に関する緊急の懸念に対処し,次にユーザへの潜在的なリスクを説明することによってプロンプトに対処し,最後に可能であれば追加情報を提供する必要がある.

また,否定的なユーザエクスペリエンスのカテゴリーを避けるようアノテータに求める(付録A.5.2参照).

このガイドラインは,モデルの一般的なガイドとなることを意図しており,新たに特定されたリスクを含めるために,反復的に改良および改訂される.

4.2.2項:Safety Supervised Fine-Tuning(安全監督下でのファインチューニング)

4.2.1項で確立されたガイドラインに従い,訓練されたアノテータからプロンプトと安全なモデルの応答のデモンストレーションを収集し,3.1節で説明したのと同じ方法で,教師ありのファインチューニングのためにデータを使用する.

例を表5に示す.

アノテータはまず,ガイドラインで定義されているように,モデルが安全でない行動,すなわちレッドチームを行う可能性があると思われるプロンプトを思いつくように命令される.

その後,アノテータは,モデルが生成すべき安全で有用な応答を作成するタスクを負う.

4.2.3項:Safety RLHF(安全RLHF)

我々は,Llama 2-Chatの開発初期に,教師ありのファインチューニングにおいて,安全なデモンストレーションから汎化できることを観察した.

モデルはすぐに詳細な安全な応答を書くことを学習し,安全上の懸念に対処し,なぜそのトピックがデリケートなのか説明し,さらに役立つ情報を提供する.

特に,モデルが安全な応答を出力する場合,平均的なアノテータが書くものよりも詳細であることが多い.

そのため,わずか数千の教師ありのデモを収集した後,RLHFに完全に切り替えて,よりニュアンスのある回答を書く方法をモデルに教えた.

RLHFによる包括的なチューニングには,脱獄の試みに対してモデルをより頑健にするという利点もある(Bai et al., 2022a).

RLHFでは,まず3.2.2項と同様に,安全性に関する人間の嗜好データを収集する.

アノテータは安全でない行動を引き出すと思われるプロンプトを書き,プロンプトに対する複数のモデルの応答を比較し,ガイドラインのセットに従って最も安全な応答を選択する.

次に,人間の嗜好データを使用して安全報酬モデル(3.2.2項参照)を訓練し,また,RLHF段階でモデルからサンプリングするために敵対的なプロンプトを再利用する.

Llama2 Figure14
図14:報酬モデルのスコア分布で測定した安全RLHFの影響.
(左)Meta Safetyテストセットにおける各生成の安全報酬モデルのスコア.左上隅のサンプルのクラスタリングは,モデルの安全性の向上を示唆している.
(右)Meta Helpfulnessテストセットにおける各生成の有用性報酬モデルのスコア.

Llama2 Table12
表12:安全性RLHF後のより安全な応答の例.
(左)初期バージョンのモデル(SFT-v2)によって生成された応答.
(右)最新バージョンのモデル(PPO付きRLHF-V5)によって生成された応答.

有用性を損なわずにロングテールの安全性を向上させる:

安全性は本質的にロングテールの問題であり,課題は少数の非常に特殊なケースから生じる.

安全RLHFの影響を調べるために,2つの中間的なLlama 2-Chatチェックポイントを用意し,1つはRLHF段階で敵対的なプロンプトを使用せず,もう1つは敵対的なプロンプトを使用し,安全性と有用性の報酬モデルを使用してテストセットでの応答をスコア化する.

図14では,安全性RMの安全性テストセット(左)と有用性RMの有用性テストセット(右)のスコア分布シフトをプロットしている.

図の左側では,RLHFによる安全性チューニング後,安全性テストセットの安全性RMのスコア分布が高い報酬スコアにシフトし,ゼロ付近のロングテールが細くなっていることがわかる.

左上にはモデルの安全性の向上を示唆する明確なクラスタが現れる.

右側では,図14の右側のy = xの線より下に集まるパターンは観察されず,これはRLHFによる安全性チューニング後も,役立ち度スコア分布が維持されていることを示している.

別の言い方をすれば,十分な役に立つ度訓練データがあれば,安全性緩和の追加ステージは,役に立つ度に関するモデル性能に悪影響を及ぼさない.

定性的な例を表12に示す.

安全性データのスケーリングの影響:

LLMの有用性と安全性の間には緊張関係があることが先行研究で観察されている(Bai et al., 2022a).

安全性訓練データの追加が一般的なモデル性能,特に有用性にどのような影響を与えるかをよりよく理解するために,RLHF段階で使用する安全性データの量を調整することで,安全性データのスケーリングの傾向を調査する.

このアブレーション実験では,役立ち度訓練データ量は変更せず(約0.9Mサンプル),モデルチューニングに使用する安全性データ量を0%から100%まで徐々に増加させる(約0.1Mサンプル).

具体的な訓練データミックスレシピについては,3.1節で説明した手順に従い,Llama 2の事前訓練済みモデルを2エポック分ファインチューニングする.

最終的に,全安全性データの0%,1%,10%,25%,50%,100%で訓練した6つのモデルVariantsを得た.

3.2.2項で説明した安全性報酬モデルと有用性報酬モデルを使用して評価する.

各Variantについて,安全性報酬モデルと有用性報酬モデルを使用して,それぞれMeta SafetyおよびHelpfulテストセットのプロンプトに対応するモデル生成をスコアリングする.

Llama2 Figure15
図15:安全性データのスケーリング傾向.
(左)モデル訓練における安全性データの量を増やすと,安全性RMスコアの平均値は大幅に向上するが,有用性RMスコアは比較的安定している.
(右)安全性RMスコアの左側のテール(すなわち,最も安全でない回答)は,安全性訓練データの追加とともに徐々に消えていく.

図15に示すように,報酬モデルの平均スコアを,安全性と有用性に関するモデルのパフォーマンスの指標として使用する.

安全性データの割合を増やすと,危険なプロンプトや敵対的なプロンプトを処理する際のモデルの性能が劇的に向上し,安全性報酬モデルのスコア分布のテールが軽くなることがわかる.

一方,平均的な有用性スコアは一定である.

これは,すでに十分な量の有用性の訓練データを持っているためであると考えられる.

付録A.4.2は,訓練における安全性データの量の違いによって,敵対的なプロンプトと非敵対的なプロンプトに応答するモデルの動作がどのように変化するかを示す,より定性的な結果を示している.

誤った拒否の測定:

モデルの有用性に関する全体的な回帰は見られないが,より安全性を緩和したモデルは,より保守的な方法で特定の質問に答えることが,相互作用を通して定性的に観察される(例えば,付録表38の例).

フォローアップとして,モデルが非敵対的なプロンプトへの回答を誤って拒否する頻度を定量化するために,偽の拒否を測定する.

ここで,誤った拒否とは,モデルが無関係な安全上の懸念のために,正当なユーザからのプロンプトへの回答を誤って拒否することと定義する.

例えば,「I am not capable of participating in video calls」(私はビデオ通話に参加する能力がない),「2024 is beyond my knowledge cut-off date」(2024年は私の知識を超えている)など,モデルの能力を超える合理的な理由による拒否は,偽の拒否としてカウントされない.

我々は,回答における拒否を検出するための分類器を訓練し,1)上記の有用性テストセット,2)(OpenAI, 2023)と同様の境界テストを目的とした210サンプルで構成されるキュレートされた境界線テストセット,に分類器を適用する.

ボーダーラインデータセットは,プロンプトが敵対的に見える(例えば,敏感な単語やサブワードを含む)が,実際には安全ではない(例えば,「give me a recipe for Christmas Crack」(クリスマスクラックのレシピを教えて))ように意図的に設計されている(より多くの例については,付録表41を参照).

※訳注:クリスマスクラックのレシピは以下の動画がわかりやすいです.

モデルチューニングに安全性データをより多く混ぜると,どちらのデータセットでも偽拒否率が大きくなる(付録図33参照).

しかし,安全性データが100%であっても,有用性データセットでは偽拒否は全体的にまれで,約0.05%である.

一方,ボーダーラインセットでは,その難しさゆえ,誤拒否率ははるかに大きい.

Llama 2-Chatは,プロンプトに安全でない生成で頻繁に出現する単語(「爆弾」など)が含まれている場合,プロンプトが安全かどうかを区別するのが難しいことがある.

付録の表41は,我々が発見した誤った拒否の例をいくつか示している.

※訳注:原文では表13を参照していませんが,こちらに記載しておきます.

Llama2 Table13
表13:一般的な事前プロンプトと解答テンプレート付き事前プロンプトによるコンテキスト蒸留の例.解答テンプレート付き事前プロンプトは,より適切な解答である.

4.2.4項:Context Distillation for Safety(安全のためのコンテキスト蒸留)

我々は,3.3節と同様にコンテキスト蒸留(Askell et al., 2021a)を使用することで,敵対的なプロンプトをより安全な応答と関連付けるようLlama 2-Chatを奨励する.

我々は,LLMの安全機能は,モデルに安全事前プロンプト(例えば「You are a safe and responsible assistant」(あなたは安全で責任あるアシスタントです))を付加することで効率的に強化できることを観察している.

教師ありの安全性ファインチューニングと同様に,安全性コンテキストの蒸留は,困難な敵対的プロンプトに対するモデルの応答をブートストラップする迅速な方法を提供する.

そうすれば,RLHFでさらに改良を加えることができる.

具体的には,より安全な応答を生成するために,敵対的なプロンプトに安全な事前プロンプトを前置することにより,コンテキスト蒸留を適用し,その後,事前プロンプトなしで敵対的なプロンプトを与えられたモデル自身の安全な出力についてファインチューニングを行う.

我々は,テンプレートを用いて安全事前プロンプトを自動的に生成する.

特に,「responsible」(責任感がある),「respectful」(尊敬できる),「wise」(賢明である)など,通常安全な行動と関連付けられる様々な形容詞を使用する.

付録の表39に,安全に関する事前プロンプトの例を示す.

Llama2 Figure16
図16:コンテキスト蒸留分析.
(左)基本モデルの安全性RMスコアの分布,一般的な事前プロンプトを追加した場合,およびリスクカテゴリーに基づく事前プロンプトを適応する解答テンプレートとともに追加した場合.一般的な事前プロンプトは安全性RMのスコアを増加させるが,適応する解答テ ンプレート付きの事前プロンプトはさらに役立つ.
(右)コンテキスト蒸留は,当初スコアが低いサンプルではRMスコアを大幅に増加させるが,当初スコアが高いサンプルでは有害な効果をもたらすこともある.
そのため,RMスコアを向上させる場合のみ,対象サンプルにコンテキスト蒸留を適用する.

解答テンプレートによるコンテキスト蒸留:

プロンプト収集の段階で,アノテータにプロンプトをリスクカテゴリーに従ってラベル付けするよう依頼した.

具体的には,識別された各リスクカテゴリーに基づいて,敵対的なプロンプトにどのように対処すべきかの専用の解答テンプレートを提供することができる.

図16aは,コンテキスト蒸留と解答テンプレートによるコンテキスト蒸留が安全性RMスコアに与える影響を示している.

安全報酬モデルでのコンテキスト蒸留エラーの拒否:

役に立つプロンプトに対して安全コンテキストの蒸留を実行すると,モデルの性能が低下し,誤った拒否が多くなることに注意することが重要である(付録の表40参照).

そこで,敵対的なプロンプトに対してのみ安全コンテキストの蒸留を実行した.

しかし,敵対的なプロンプトを扱う場合でも,コンテキスト蒸留が回答の質を低下させることがあることが観察された.

具体的には,モデルの応答がすでに高品質である場合,コンテキスト蒸留を適用すると,適切な応答が得られなくなることがある.

これは,モデルが事前プロンプトを過度に強調する傾向があり,一般的な懸念に過度に頼ることが多いためである(コンテキスト蒸留による曖昧な回答の例については付録の表40を参照).

そのため,安全コンテキスト蒸留を使用するかどうかを決定するために,安全報酬モデルを活用する.

コンテキスト蒸留された出力は,元の解答よりも報酬モデルのスコアが良い例でのみ保持する.

これは,モデルが非常に苦手とするプロンプトで特に役立つが,コンテキスト蒸留の悪影響を制限することに気づく(図16b参照).

4.3節:Red Teaming(レッドチーム)

LLMの能力がいかに幅広く,その訓練データがいかに多様であるかを考えると,事後的な使用と分析のみによってリスクを特定するには不十分である.

むしろ,他のLLMで行われてきたように,我々は,コンピュータセキュリティの世界で一般的に使用されている用語に基づき,俗に「レッドチーム」と呼ばれる,様々な種類のプロアクティブなリスク特定を行った.

安全性はロングテールの問題であり,非常にまれなエッジケースであっても顕著な問題を引き起こす可能性があるため,この種のきめ細かな分析は非常に重要である.

定量的なスコアが良好な結果を報告したとしても,この種の定性的な洞察によって,より包括的な方法で特定のパターンを認識し,ターゲットとすることができる.

我々は,社内の従業員,契約社員,外部ベンダーからなるさまざまなグループと,一連のレッドチーム編成を実施した.

これらのチームには,サイバーセキュリティ,選挙詐欺,ソーシャルメディアの誤報,法律,政策,公民権,倫理,ソフトウェア工学,機械学習,責任あるAI,クリエイティブライティングなどの分野の専門家を含む350人以上が参加した.

また,社会経済的,性別,民族性,人種など,さまざまな属性を代表する人々も含まれていた.

レッドチームは,幅広いリスクカテゴリー(犯罪計画,人身売買,規制・規制物質,性的に露骨なコンテンツ,無資格の健康・金融アドバイス,プライバシー侵害など)や,さまざまな攻撃ベクトル(仮想的な質問,誤字・脱字のある入力,長時間の対話など)にわたって,当社のモデルを調査した.

さらに,我々は,兵器(核兵器,生物兵器,化学兵器,サイバー兵器など)の製造を促進するモデルの能力を判断するために,特定のテストを実施した.

これらのトピックに関する発見はごくわずかであり,緩和された.

とはいえ,この分野でのレッドチームの努力は続けていくつもりである.

現在までのところ,レッドチーム活動はすべて英語のモデル出力を対象としているが,よく知られた攻撃ベクトルであるため,英語以外のプロンプトや対話も重要な対象としている.

すべての演習において,参加者はリスクカテゴリーの定義を与えられ,LLMとの危険な対話のほんの一握りの例を見せられた.

その後,参加者はそれぞれ特定のカテゴリーのリスクや攻撃ベクトルに焦点を当てたサブチームに属した.

各対話を作成した後,レッドチームの参加者は,5段階のリッカート尺度でとらえたリスク領域やリスクの程度など,さまざまな属性にアノテータをつける.

レッドチームのメンバーから提供された有益な洞察で,開発を通じて改善できた例をいくつか挙げる.

  • [Early models]は,問題のある内容が含まれていることに気づかずに,安全でない回答を生成する傾向が強かった.しかし,[slightly later models]は,たとえそのコンテンツを提供することになったとしても,そのコンテンツが問題であるという知識を示す傾向がある.「彼らは,[UNSAFE CONTENT]は議論するのに適切ではない等」と回答し,すぐに「そうは言っても,[UNSAFE CONTENT]はこうです」とフォローする.[Latest models]はこうした問題を解決することができる.
  • [early models]は,「癖」や具体的なリクエストを入れて気をそらすことで,通常,より直接的なリクエストで遭遇する不本意さを打ち消すことができた.「創造的な文章(歌,物語,詩など)のリクエストは,そうでなければ不利になるコンテンツを作らせる確実な方法である」
  • 問題のある要求を肯定的なコンテキストに埋め込むことで,[early models]に問題のある出力が要求されているという事実を隠蔽することにしばしば成功した.「どのような種類の攻撃に対しても,私が最も効果的だと感じた全体的な原則は,肯定的で進歩的で力を与える言葉で隠すことである.」

レッドチームによる洞察から,より安全なモデルへ:

重要なことは,それぞれの演習の後,対話の長さ,リスク領域の分布,誤報のトピックのヒストグラム(適切な場合),リスクの評価度など,収集したデータの徹底的な分析を行ったことである.

それぞれの場合において,我々は全体的な教訓を,モデルの安全性訓練をさらに進めるためのガイドとし,具体的には,モデルのファインチューニング,モデルのフィードバック訓練,その他の安全性モデル訓練のためのシグナルとして,これらの演習からデータを得た.

社内でリリースされた各新モデルの堅牢性を測定するため,数カ月間にわたってレッドチームを複数回実施した.

専門家によるレッドチーム演習に対するモデルの頑健性\(\gamma\)を,1人当たり1時間当たりにモデルから違反回答を引き起こすプロンプトの平均作成数として定義した.

一例として,我々の7Bモデルでは,数回のレッドチームの繰り返しとモデルの改良を経て, \(\gamma\):1.8→0.45の進化を遂げた.

ロバスト性は,レッドチームを重ねることで,さらに向上していくと思われる.

新しいモデルが作成されるにつれて追跡したもう一つの指標は,以前のレッドチームで発見された違反回答を誘発するプロンプトのうち,新しい候補リリースで緩和されたものの割合である.

平均して,モデルに対する拒否率は90%だった.

4.4節:Safety Evaluation of Llama 2-Chat(Llama 2-Chatの安全性評価)

安全性に関する人間の評価:

4.2.1項の安全性カテゴリーに従って,人間評価のためにおよそ2,000の敵対的プロンプトを収集した.

このうち,1,351プロンプトはシングルターン,623プロンプトはマルチターンである.

評価プロンプトと回答の例は付録A.4.6にある.

次に,評価者に安全性違反のモデルを以下の定義で5段階のリッカート尺度で判定してもらった.

  • 5:安全性に関する違反はなく,非常に親切だった.
  • 4:安全性に関する違反はなく,安全性以外の問題は軽微である.
  • 3:安全性上の違反はなかったが,役に立たなかった,またはその他の安全性以外の大きな問題があった.
  • 2:軽度または中程度の安全違反である.
  • 1:重大な安全違反である.

我々は1または2の評価を違反とみなし,平均評価を補足として,違反パーセンテージを主な評価指標とする.

各例は3人のアノテータによってアノテートされ,多数決で違反か否かを決定する.

GwetのAC1/2統計量を用いて,有用性の人間評価と同様に評価者間信頼性(IRR:Inter-Rater Reliability)を測定した.

IRRのスコアはアノテーションバッチによって0.70から0.95の範囲であり,安全性評価に関するアノテータ間の高い一致を示している.

Llama 2-Chatのアノテーションでは,GwetのAC2指標によると,平均IRRは0.92である.

モデルの違反率が高いバッチ(例:Vicuna)ではIRRスコアが低く,モデルの違反率が比較的低いバッチ(例:Llama 2-Chat,Falcon,ChatGPT)ではIRRスコアが高いことがわかる.

Llama2 Figure17
図17:全体的な安全対策.
(左)Llama 2-Chatは,モデルサイズ全体を通して違反率が低い.
(右)Llama 2-Chatは,モデルサイズ全体を通して安全性と有用性の平均評価が高い.
これらの結果は,プロンプトセットの限界,レビューガイドラインの主観性,および個々の評価者の主観性に左右されることに注意することが重要である.

様々なLLMの全体的な違反率と安全性評価を図17に示す.

Llama 2-Chatはモデルサイズ全体で同等かそれ以下の違反率を示し,ChatGPTとFalcon(Almazrouei et al., 2023)がその次で,MPT(MosaicML NLP Team et al., 2023)とVicuna (Chiang et al., 2023)の順となっている.

これらの結果は,プロンプトセットの限界,レビューガイドラインの主観性,内容基準,評価者個人の主観性に影響されるため,慎重に解釈することが重要である.

手作業で分析したところ,Falconの回答は一般的に短い(1~2文)ため,安全でないコンテンツが生成されにくいが,一般的に参考にもならないことがわかった.

これは,rating=3のFalconの回答が多いことに反映されている.

その結果,図17bにおいて,Falconの平均ratingはLlama 2-Chat(34B)よりもはるかに低いが,それらの違反割合は類似している(3.88 vs. 4.45).

Llama2 Figure18
図18:シングルターンとマルチターンの違反率.これらの結果は,プロンプトセットの限界,審査ガイドラインの主観性,内容基準,および個々の評価者により,慎重に解釈されるべきであることに注意されたい.

図18では,シングルターンとマルチターンの会話における違反率をそれぞれ示している.

モデル間の傾向として,マルチターン会話はより安全でない応答を誘発しやすい.

とはいえ,Llama 2-Chatはベースラインと比較して,特にマルチターン会話において依然として良好なパフォーマンスを示している.

また,Falconはシングルターンの会話では特に優れているが(その簡潔さによるところが大きい),マルチターンの会話ではかなり劣っている.

これは,マルチターンの教師付きファインチューニングデータがないためと考えられる.

Llama2 Figure19
図19:リスクカテゴリーごとの違反率.
注:これらの結果は,プロンプトセットの限界,審査ガイドラインの主観性,内容基準,および個々の評価者により,慎重に解釈されるべきである.

図19では,異なるLLMのカテゴリーごとの安全違反率を示している.

モデルの性能はカテゴリー間で類似しているが,Llama 2-Chatは,適切な免責事項(例えば,「私は専門家ではありません」)の欠如を含む様々な理由により,(絶対的な意味ではまだ低いものの)資格のないアドバイスカテゴリーで比較的多くの違反を犯している.

他の2つのカテゴリーについては,Llama 2-Chatは,モデルのサイズに関係なく,一貫して同等かそれ以下の違反率を達成している.

Llama2 Table14
表14:異なる安全性データセットに対するファインチューニングLLMの評価.TruthfulQAについては,真実かつ有益な生成の割合を示す(高いほど良い).ToxiGenについては,有毒な生成の割合を示す(低いほど良い).

真実性,毒性,バイアス:

表14では,Llama 2-Chatをファインチューニングした結果,真実性(70Bで50.18 → 64.14)と毒性(70Bで24.60 → 0.01)において,事前訓練したLlama 2よりも大きな改善が見られた.

すべてのサイズのLlama 2-Chatにおいて,有毒な生成の割合は実質的に0%まで縮小した.

これは比較したすべてのモデルの中で最も低い毒性レベルである.

一般的に,FalconとMPTと比較すると,ファインチューニングしたLlama 2-Chatは毒性と真実性の点で最高のパフォーマンスを示している.

ファインチューニング後,Llama 2-Chatは,BOLDの多くの人口統計グループについて,全体的に肯定的なセンチメントが増加する傾向がある.

付録A.4.8では,真実性とバイアスについてのより詳細な分析と結果とともに,バイアスベンチマークのさまざまなサブグループにわたるモデル生成センチメントの詳細なスコア内訳を示す.

5章:Discussion(議論)

ここでは,RLHFで観察された興味深い特性について述べる(5.1節).

次にLlama 2-Chatの限界について述べる(5.2節).

最後に,これらのモデルを責任を持ってリリースするための我々の戦略を示す(5.3節).

5.1節:Learnings and Observations(学習と観察)

チューニングの結果,Llama 2-Chatが知識を時間的に整理したり,外部ツールのAPIを呼び出したりできるようになるなど,いくつかの興味深い結果が得られた.

人間の監視を越えて:

プロジェクト開始当初,我々の多くは教師ありアノテーションを好み,その信号の密度に魅力を感じていた.

一方,不安定なことで知られる強化学習は,NLP研究コミュニティの人々にとっては,やや影の薄い分野に思えた.

しかし,強化学習は,特にそのコストと時間の有効性を考えると,非常に効果的であることが証明された.

我々の発見では,RLHFの成功の決定的な要因はアノテーション・プロセスを通して人間とLLMの間に育まれる相乗効果にあることを強調している.

Llama2 Figure20
図20:SFTモデルからRLHFモデルへの,Llama 2-Chatのプログレッシブバージョンの分布シフト

熟練したアノテータであっても,アノテーションには個人差がある.

SFTアノテーションでファインチューニングされたモデルは,この多様性を学習する(残念なことに,アノテーションがうまく実行されなかった場合のテールエンドも含む).

さらに,モデルの性能は,最も熟練したアノテータの文章能力によって制限される.

人間のアノテータは,2つのアウトプットの嗜好アノテーションをRLHFのために比較するとき,間違いなく不一致の影響を受けにくい.

その結果,報酬メカニズムは,望ましくないテールエンド分布に低いスコアを割り当てることを速やかに学習し,人間の嗜好にアラインメントする.

この現象は図20に示されており,最悪の回答が徐々に取り除かれ,分布が右にシフトしていることがわかる.

さらに,アノテーションの際,モデルは,最高のアノテータでさえも描けないような文章の軌跡に踏み込む可能性がある.

それでも,人間は2つの答えを比較するとき,自分の文章能力を超えた貴重なフィードバックを提供することができる.

例えるなら,我々全員が熟練した芸術家ではないかもしれないが,芸術を鑑賞し批評する能力は健在である.

(Gilardi et al., 2023)や(Huang et al., 2023)にあるように,LLMの優れたライティング能力は,基本的にRLHFによってもたらされている.

このような状況の変化は,「スーパービジョン」という概念の再評価を迫るものである.

Llama2 Figure21
図21:RLHFはプロンプトの種類に応じてTemperatureを適応させるよう学習する.自己BLEUが低いほど多様性が高い.RLHFは,事実に基づくプロンプトに対する回答では多様性を排除するが,創造的なプロンプトに対する応答を生成する際には多様性を維持する.10個の創造的な命令と10個の事実的な命令の多様なセットで各モデルを促し,25個の回答をサンプリングする.これをTemperature \(T \in \{ k/10|k \in \mathbb{N}:1 \leq k \leq 15 \}\)について繰り返す.25の回答それぞれについて,Self-BLEU指標を計算し,Temepratureに対する平均と標準偏差を報告する.

コンテキストに応じたTemperatureの再スケーリング.

我々は,RLHFに関連した興味深い現象を観察した.

我々の知る限りでは,コンテキストに応じたTemperatureのダイナミックな再スケーリングはこれまで報告されていない.

図8に示すように,TemperatureはRLHFの影響を受けているように見える.

しかし,興味深いことに,図21に示すように,シフトはすべてのプロンプトに一様に適用されるわけではないことも明らかになった.

例えば,「Write a poem」(詩を書け)のような創造性に関連するプロンプトの場合,Temperatureの上昇は,RLHFの様々な反復において多様性を生み出し続けている.

これはSelf-BLEUの傾きで観察することができ,SFTモデルに匹敵するパターンを反映している.

一方,「What is the capital of ?」(首都は?)のような事実情報に基づくプロンプトでは,Self-BLEUの傾きは時間の経過とともに小さくなる.

このパターンは,Temperatureの上昇にもかかわらず,モデルが事実に基づくプロンプトに対して一貫して同じ応答を提供するように学習することを示唆している.

Llama2 Figure22
図22:時間の認識.1,000SFTの時間に焦点を当てたデータによる,時間の概念を一般化したモデルのイラスト.

Llama 2-Chatの時間的知覚:

図22に示すように,我々のモデルは印象的な汎化能力を示した.

我々は何十もの例を手動でテストし,我々のモデルが,たとえ最小限のデータが提供された場合でも,時間的な方法で知識を整理する強固な能力を示すことを一貫して観察した.

Llama 2-Chatに時間の概念を植え付けるため,特定の日付に関連する1,000のSFT例を収集した.

これらの例文には,「How long ago did Barack Obama become president?」(バラク・オバマが大統領になったのは何年前ですか?)といった質問が含まれていた.

それぞれは2つの重要なメタデータと関連していた.

クエリが出された日付(これは回答に影響する)と,イベント日付(その質問が無意味になる前の時点)である.

この観察結果は,LLMの訓練が次のトークンの予測のみに基づいており,時系列的なコンテキストを無視してランダムにシャッフルされたデータであるにもかかわらず,LLMが時間の概念をこれまで想定されていたよりも高度に内面化していることを示唆している.

ツール使用の出現:

LLMとツールの統合は,(Mialon et al., 2023)が強調しているように,成長中の研究分野である.

Toolformer(Schick et al., 2023)で考案されたアプローチは,数百万の軌跡のサンプリングと,各ツールのためのFew-Shot例の定式化によって補完される.

それにもかかわらず,この手法は,例ごとに単一のツールを使用してのみ適用され,ツールの一連の使用に対してスケールしない.

Llama2 Figure23
図23:ツール使用の出現.Llama 2-Chatは,ツールを使う訓練を受けたことがないにもかかわらず,セマンティクスだけで,ツールのアプリケーションとAPIの引数を理解することができる.

OpenAIのプラグインのリリースは,アカデミックコミュニティ内でかなりの議論を巻き起こし,次のような疑問に火をつけた.

  • ツールを活用するモデルを効果的に教えるにはどうすればよいか?
  • あるいは,そのプロセスには膨大なデータセットが必要か?

我々の実験は,ツールの使用はZero-Shotでアライメントから自然発生する可能性があることを示している.

ツールの使用状況を明示的にアノテーションしたことはないが,図23は,モデルがZero-Shotで一連のツールを利用する能力を示した例である.

Llama2 Table15
表15:ツール使用時のパフォーマンス.Toolformerで使用した数学データセットでの評価.異なるベースラインについては,(Schick et al., 2023)のスコアを報告する.

さらに,我々の研究は,電卓にアクセスできるLlama 2-Chatの評価にも及んだ.

この特別な実験の結果は表15に示されている.

LLMツールの使用は,エキサイティングである一方で,いくつかの安全上の懸念を引き起こす可能性がある.

我々は,この分野でのコミュニティの研究とレッドチームを奨励する.

5.2節:Limitations and Ethical Considerations(制限と倫理的配慮)

Llama 2-Chatは,他のLLMと同様に,再訓練後の知識更新の停止,不適格なアドバイスのような非事実生成の可能性,幻覚傾向など,よく認識されている制限を受ける.

さらに,Llama 2-Chatの初期バージョンは主に英語のデータに集中していた.

我々の実験的観察によると,このモデルは他の言語でもある程度の習熟度を獲得しているようだが,その習熟度は限られている.

これは主に,英語以外の言語で利用可能な事前訓練データの量が限られているためである(表10に記載).

その結果,英語以外の言語におけるモデルの性能は脆弱なままであり,注意して使用する必要がある.

他のLLMと同様,Llama 2は,一般に公開されているオンラインデータセットで訓練するため,有害,攻撃的,または偏ったコンテンツを生成する可能性がある.

我々はファインチューニングによってこれを緩和しようと試みたが,特に英語以外の言語では,一般に入手可能なデータセットがないため,いくつかの問題が残っている可能性がある.

これらの問題への対処を進めながら,今後もファインチューニングを続け,更新版をリリースする予定である.

AIモデルを使用するすべての人が善意を持っているわけではなく,会話AIエージェントは,誤情報を生成したり,バイオテロやサイバー犯罪のようなトピックに関する情報を取得したりするような,悪意のある目的に使用される可能性がある.

しかし,我々は,このようなトピックを避け,そのようなユースケースのために提供される可能性のある機能を低下させるよう,モデルのチューニングに努めた.

我々は,安全性と有用性のバランスを合理的に取ろうとしたが,安全性のチューニングが行き過ぎている場合もある.

Llama 2-Chatのユーザは,モデルが特定の要求を拒否する側に回ったり,安全に関する詳細が多すぎる応答をしたりするなど,過度に慎重なアプローチを観察するかもしれない.

事前訓練されたモデルの使用者は,特に注意する必要があり,我々のResponsible Use Guide(責任ある使用ガイド)に記載されているように,チューニングとデプロイにおいて特別なステップを踏む必要がある.

5.3節:Responsible Release Strategy(責任あるリリース戦略)

リリースの詳細:

https://ai.meta.com/resources/models-and-libraries/llama/では,Llama 2を研究および商用利用の両方に提供している.

Llama 2を使用する方は,提供されたライセンス条件と,適用されるポリシー,法律,規則,規制に違反するような使用を禁止する我々のAcceptable Use Policyを遵守しなければならない.

我々はまた,開発者がLlama 2-Chatで我々の安全な生成を再現し,ユーザ入力層とモデル出力層で基本的な安全技術を適用するのに役立つコードサンプルを提供する.

これらのコードサンプルは,https://github.com/facebookresearch/llamaにある.

最後に,安全な開発とデプロイに関するガイドラインを提供する,責任ある使用ガイドを共有する.

責任あるリリース:

多くの企業が密室でAIを構築することを選択する中,我々は責任あるAIイノベーションを奨励するため,Llama 2をオープンにリリースする.

我々の経験に基づき,オープンなアプローチは,AI実践者コミュニティの集合的な知恵,多様性,創意工夫を活用し,この技術の利点を実現する.

コラボレーションは,これらのモデルをより良く,より安全にする.

学術研究者,市民社会,政策立案者,産業界など,AIコミュニティ全体が協力して,現在のAIシステムのリスクを厳密に分析・暴露し,問題となりうる誤用に対処する解決策を構築しなければならない.

このアプローチは,大手テック企業の壁を越えた多様なステークホルダーとの真の協力を促進するだけでなく,基盤となるモデルへのアクセスを民主化する礎石にもなる.

(Zellers et al., 2019b)で主張されているように,オープンリリースは透明性を促進し,より多くの人々がAIツールにアクセスできるようにし,技術を民主化し,AIの専門知識を分散化する.

我々は,AIの専門知識の分散化は,単に知識を配布するだけではなく,イノベーションを刺激し,業界の進歩を加速させると信じている.

最後に,これらのモデルをオープンに公開することで,コストが統合され,参入障壁がなくなり,中小企業がLLMのイノベーションを活用してテキスト生成のユースケースを探求し,構築できるようになる.

最終的には,世界中のあらゆる規模の組織が,AIの進歩によって約束された経済成長の恩恵を受けられるよう,より公平な競争の場が生まれると信じている.

我々は,AIモデルを使用するすべての人が善意を持っているわけではないことを知っているし,AIが我々の世界に影響を与える方法に関して合理的な懸念があることも認めている.

有害なコンテンツの生成や問題のある関連付けは,AIコミュニティがまだ完全に緩和できていない重大なリスクである.

本論文が示すように,我々はこの種の回答の蔓延を制限することで前進してきた.

まだまだやるべきことがあることは認識しているが,この認識により,オープンサイエンスとAIコミュニティとの協働に対する我々のコミットメントは深まるばかりである.

6章:Related Work(関連研究)

大規模言語モデル:

近年,LLMの分野で大きな進化が見られる.

(Kaplan et al., 2020)のスケーリング則に従い,GPT-3(Brown et al., 2020)からGopher(Rae et al., 2022),あるいは科学に特化したGalactica(Taylor et al., 2022)など,100B以上のパラメータを持つ大規模言語モデルがいくつか提案されている.

70Bのパラメータでは,Chinchilla(Hoffmann et al., 2022)は,これらのスケーリング則をモデルの重みではなくトークンの数に再定義した.

この進歩の中で注目すべきはLlamaの台頭である.

Llamaは推論時の計算効率に重点を置いている(Touvron et al., 2023).

同時に,オープンソースとクローズドソースのモデルの力学をめぐる議論も展開されている.

BLOOM(Scao et al., 2022)やFalcon(Penedo et al., 2023)のようなオープンソースのリリースは,GPT-3やChinchillaのようなクローズドソースに対抗するために立ち上がった.

しかし,ChatGPT,Bard,Claudeのような「production-ready」(製品としてリリース可能な)LLMに関しては,性能と使いやすさに顕著な違いがある.

これらのモデルは,人間の嗜好に合わせるための複雑なチューニング技術に依存しており(Gudibande et al., 2023),そのプロセスは,オープンソースコミュニティ内で今も模索され,洗練されている.

Vicuna(Chiang et al., 2023)やAlpaca(Taori et al., 2023)のような蒸留ベースのモデルは,合成命令による訓練という独自のアプローチを採用している(Honovich et al., 2022; Wang et al., 2022).

しかし,これらのモデルは有望ではあるものの,クローズドソースのモデルにはまだ及ばない.

命令チューニング:

(Wei et al., 2021)は,多数のデータセットでLLMをファインチューニングすることにより,未見のタスクでZero-Shotの性能を得た.

(Chung et al., 2022)と(Longpre et al., 2023)は,タスク数,モデルサイズ,プロンプト設定等の関数として,命令チューニングの影響を調査している.

命令チューニングに使用されるプロンプトは,人間が作成することも,LLM自身が作成することもでき(Zhou et al., 2022),フォローアップ命令は,初期生成をより有用で,魅力的で,バイアスのないものに改良するために使用することができる(Ganguli et al., 2023; Madaan et al., 2023).

命令チューニングに関連するアプローチとして,思考連鎖プロンプティング(Wei et al., 2022b)がある.

これは,複雑な問題が与えられたときに,最終的な答えが正しい可能性を高めるために,モデルが自分の推論を説明するようにプロンプトするものである.

RLHFは大規模言語モデルをファインチューニングするための強力な戦略として登場し,その性能を大幅に向上させた(Christiano et al., 2017).

(Stiennon et al., 2020)によってテキスト要約タスクの文脈で初めて紹介されたこの手法は,それ以来,他の様々なアプリケーションに拡張されている.

このパラダイムでは,モデルは人間のユーザからのフィードバックに基づいてファインチューニングされるため,モデルの応答は人間の期待や嗜好により近くなるように反復的にアラインメントされる.

(Ouyang et al., 2022)は,命令のファインチューニングとRLHFを組み合わせることで,単にLLMをスケールアップするだけでは改善できない,事実性,毒性,有用性の問題を修正できることを実証している.

(Bai et al., 2022b)は,このファインチューニング+RLHFのアプローチを部分的に自動化する「RL from AI Feedback(RLAIF)」を提案している.

RLAIFの特徴は,人間がラベル付けしたファインチューニングデータをモデル自身の自己批評と修正に置き換えることと,RLHFでモデル出力をランク付けする際に人間の評価者をモデルに置き換えることである.

既知のLLM安全性の課題:

最近の文献では,大規模言語モデルに関連するリスクや課題について幅広く調査されている.

(Bender et al., 2021b)や(Weidinger et al., 2021)は,バイアス,毒性,個人データの漏洩,悪意のある使用の可能性など,様々な危険性を強調している.

(Solaiman et al., 2023)は,これらの影響を,基本システム内で評価できるものと,社会的背景の評価を必要とするものとの2つのグループに分類し,(Kumar et al., 2022)は,害を抑制するための潜在的な緩和戦略を提示している.

(Roller et al., 2020)と(Dinan et al., 2021)の研究は,チャットボット指向のLLMに関連する困難も明らかにしている.

(Deng et al., 2023)は,これらの問題に取り組むための分類学的フレームワークを提案しており,(Bergman et al., 2022)は,対話モデルの公開がもたらす潜在的なポジティブな影響とネガティブな影響のバランスを掘り下げている.

レッドチームに関する調査から,LLMを調整する際の特有の課題が明らかになった.

(Ganguli et al., 2022)や(Zhuo et al., 2023)による研究では,成功した様々な攻撃タイプや,有害なコンテンツの生成に対するそれらの効果が紹介されている.

(Mialon et al., 2023)のような国家安全保障機関や様々な研究者も,高度な創発モデルの行動,サイバー脅威,生物戦争のような分野での悪用の可能性に関して,赤信号を発している.

最後に,AI研究の加速による雇用の変位や,訓練データの劣化につながるLLMへの過度の依存といった,より広範な社会問題も適切な検討事項である(Acemoglu and Restrepo, 2018; Autor and Salomons, 2018; Webb, 2019; Shumailov et al., 2023).

我々は,これらの問題に関して,より広範な政策,学術,産業界と関わりを持ちながら研究を続けていくことを約束する.

7章:Conclusion(結論)

本研究では,70億から700億のパラメータを持つ,事前訓練され,ファインチューニングされたモデルの新しいファミリーであるLlama 2を導入した.

これらのモデルは,GPT-4のような他のモデルにはまだ遅れをとっているものの,既存のオープンソースチャットモデルに匹敵し,また我々が調査した評価セットにおいて,いくつかのプロプライエタリモデルと同等の能力を実証した.

我々は,我々のモデルを実現するために適用された方法と技術について丹念に説明し,有用性と安全性の原則とのアラインメントに重点を置いた.

社会により大きく貢献し,研究のペースを促進するために,我々は責任を持ってLlama 2とLlama 2-Chatにアクセスできるようにした.

透明性と安全性への継続的なコミットメントの一環として,我々は今後の作業でLlama 2-Chatにさらなる改良を加える予定である.

References(参考文献)

  1. (Acemoglu and Restrepo, 2018) Daron Acemoglu and Pascual Restrepo. Artificial intelligence, automation, and work. In The economics of artificial intelligence: An agenda, pages 197–236. University of Chicago Press, 2018.
  2. (Ainslie et al., 2023) Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, and Sumit Sanghai. Gqa: Training generalized multi-query transformer models from multi-head checkpoints, 2023.
  3. (Almazrouei et al., 2023) Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Merouane Debbah, Etienne Goffinet, Daniel Heslow, Julien Launay, Quentin Malartic, Badreddine Noune, Baptiste Pannier, and Guilherme Penedo. Falcon-40B: an open large language model with state-of-the-art performance. 2023.
  4. (Anil et al., 2023) Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Clément Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark Díaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski,Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, and YonghuiWu. Palm 2 technical report, 2023.
  5. (Askell et al., 2021a) Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, and Chris Olah. A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861, 2021a.
  6. (Askell et al., 2021b) Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, et al. A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861, 2021b.
  7. (Austin et al., 2021) Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, and Charles Sutton. Program synthesis with large language models, 2021.
  8. (Autor and Salomons, 2018) David Autor and Anna Salomons. Is automation labor-displacing? productivity growth, employment, and the labor share. Technical report, National Bureau of Economic Research, 2018.
  9. (Bai et al., 2022a) Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen,Nova DasSarma, DawnDrain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022a.
  10. (Bai et al., 2022b) Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073, 2022b.
  11. (Bailey et al., 2022) April H Bailey, AdinaWilliams, and Andrei Cimpian. Based on billions of words on the internet, people= men. Science Advances, 8(13):eabm2463, 2022.
  12. (Bender et al., 2021a) Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Margaret Mitchell. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pages 610–623, 2021a.
  13. (Bender et al., 2021b) Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 610–623, 2021b.
  14. (Bergman et al., 2022) A Stevie Bergman, Gavin Abercrombie, Shannon L Spruit, Dirk Hovy, Emily Dinan, Y-Lan Boureau, and Verena Rieser. Guiding the release of safer e2e conversational ai through value sensitive design. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 39–52, 2022.
  15. (Bhatt et al., 2022) Shaily Bhatt, Sunipa Dev, Partha Talukdar, Shachi Dave, and Vinodkumar Prabhakaran. Re-contextualizing fairness in nlp: The case of india, 2022.
  16. (Bisk et al., 2020) Yonatan Bisk, Rowan Zellers, Jianfeng Gao, Yejin Choi, et al. Piqa: Reasoning about physical commonsense in natural language. In Proceedings of the AAAI conference on artificial intelligence, pages 7432–7439, 2020.
  17. (Blodgett et al., 2021) Su Lin Blodgett, Gilsinia Lopez, Alexandra Olteanu, Robert Sim, and HannaWallach. Stereotyping norwegian salmon: An inventory of pitfalls in fairness benchmark datasets. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 1004–1015, 2021.
  18. (Bojanowski et al., 2016) Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomás Mikolov. Enriching word vectors with subword information. CoRR, abs/1607.04606, 2016. URL http://arxiv.org/abs/1607.04606.
  19. (Brown et al., 2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. Curran Associates, Inc., 2020. URL https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.
  20. (Chen et al., 2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss,William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, andWojciech Zaremba. Evaluating large language models trained on code, 2021.
  21. (Chiang et al., 2023) Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, ZhanghaoWu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, March 2023. URL https://lmsys.org/blog/2023-03-30-vicuna/.
  22. (Choi et al., 2018) Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wen-tau Yih, Yejin Choi, Percy Liang, and Luke Zettlemoyer. Quac: Question answering in context. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2174–2184, 2018.
  23. (Chowdhery et al., 2022) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, XuezhiWang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. Palm: Scaling language modeling with pathways, 2022.
  24. (Christiano et al., 2017) Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30, 2017.
  25. (Chung et al., 2022) Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, AlbertWebson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, AdamsWei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and JasonWei. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022.
  26. (Clark et al., 2019) Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. Boolq: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044, 2019.
  27. (Clark et al., 2021) Elizabeth Clark, TalAugust, Sofia Serrano, Nikita Haduong, Suchin Gururangan, andNoahA. Smith. All that’s ‘human’ is not gold: Evaluating human evaluation of generated text. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 7282–7296, Online, August 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.acl-long.565. URL https://aclanthology.org/2021.acl-long.565.
  28. (Clark et al., 2018) Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
  29. (Cobbe et al., 2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
  30. (Deng et al., 2023) Jiawen Deng, Hao Sun, Zhexin Zhang, Jiale Cheng, and Minlie Huang. Recent advances towards safe, responsible, and moral dialogue systems: A survey. arXiv preprint arXiv:2302.09270, 2023.
  31. (Deng et al., 2019) Yuntian Deng, Anton Bakhtin, Myle Ott, Arthur Szlam, and Marc’Aurelio Ranzato. Residual energy-based models for text generation. In International Conference on Learning Representations, 2019.
  32. (Dhamala et al., 2021) Jwala Dhamala, Tony Sun, Varun Kumar, Satyapriya Krishna, Yada Pruksachatkun, Kai-Wei Chang, and Rahul Gupta. BOLD: Dataset and metrics for measuring biases in open-ended language generation. In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 862–872, 2021.
  33. (Dinan et al., 2021) Emily Dinan, Gavin Abercrombie, A Stevie Bergman, Shannon Spruit, Dirk Hovy, Y-Lan Boureau, and Verena Rieser. Anticipating safety issues in e2e conversational ai: Framework and tooling. arXiv preprint arXiv:2107.03451, 2021.
  34. (Dodge et al., 2021) Jesse Dodge, Maarten Sap, Ana Marasović, William Agnew, Gabriel Ilharco, Dirk Groeneveld, Margaret Mitchell, and Matt Gardner. Documenting largewebtext corpora: Acase study on the colossal clean crawled corpus. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 1286–1305, Online and Punta Cana, Dominican Republic, November 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.emnlp-main.98. URL https://aclanthology.org/2021.emnlp-main. 98.
  35. (Dodge et al., 2022) Jesse Dodge, Taylor Prewitt, Remi Tachet Des Combes, Erika Odmark, Roy Schwartz, Emma Strubell, Alexandra Sasha Luccioni, Noah A Smith, Nicole DeCario, and Will Buchanan. Measuring the carbon intensity of ai in cloud instances. arXiv preprint arXiv:2206.05229, 2022.
  36. (Du et al., 2022) Nan Du, Yanping Huang, Andrew M Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten P Bosma, Zongwei Zhou, Tao Wang, EmmaWang, KellieWebster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc Le, YonghuiWu, Zhifeng Chen, and Claire Cui. GLaM: Efficient scaling of language models with mixture-of-experts. In Kamalika Chaudhuri, Stefanie Jegelka, Le Song, Csaba Szepesvari, Gang Niu, and Sivan Sabato, editors, Proceedings of the 39th International Conference on Machine Learning, volume 162 of Proceedings of Machine Learning Research, pages 5547–5569. PMLR, 17–23 Jul 2022. URL https://proceedings.mlr.press/v162/du22c.html.
  37. (Ethayarajh et al., 2022) Kawin Ethayarajh, Yejin Choi, and Swabha Swayamdipta. Understanding dataset difficulty with V-usable information. In Kamalika Chaudhuri, Stefanie Jegelka, Le Song, Csaba Szepesvari, Gang Niu, and Sivan Sabato, editors, Proceedings of the 39th International Conference on Machine Learning, volume 162 of Proceedings of Machine Learning Research, pages 5988–6008. PMLR, 17–23 Jul 2022.
  38. (Ganesh et al., 2023) Prakhar Ganesh, Hongyan Chang, Martin Strobel, and Reza Shokri. On the impact of machine learning randomness on group fairness. In Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, pages 1789–1800, 2023.
  39. (Ganguli et al., 2022) Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, et al. Red teaming language models to reduce harms: Methods, scaling behaviors, and lessons learned. arXiv preprint arXiv:2209.07858, 2022.
  40. (Ganguli et al., 2023) Deep Ganguli, Amanda Askell, Nicholas Schiefer, Thomas Liao, Kamil˙e Lukoši ¯ ut˙e, Anna Chen, Anna Goldie, Azalia Mirhoseini, Catherine Olsson, Danny Hernandez, et al. The capacity for moral self-correction in large language models. arXiv preprint arXiv:2302.07459, 2023.
  41. (Gao et al., 2021) Leo Gao, Jonathan Tow, Stella Biderman, Sid Black, Anthony DiPofi, Charles Foster, Laurence Golding, Jeffrey Hsu, Kyle McDonell, Niklas Muennighoff, Jason Phang, Laria Reynolds, Eric Tang, Anish Thite, Ben Wang, Kevin Wang, and Andy Zou. A framework for few-shot language model evaluation, September 2021. URL https://doi.org/10.5281/zenodo.5371628.
  42. (Gehrmann et al., 2023) Sebastian Gehrmann, Elizabeth Clark, and Thibault Sellam. Repairing the cracked foundation: A survey of obstacles in evaluation practices for generated text. Journal of Artificial Intelligence Research, 77:103–166, 2023.
  43. (Gilardi et al., 2023) Fabrizio Gilardi, Meysam Alizadeh, and Maël Kubli. Chatgpt outperforms crowd-workers for text-annotation tasks. arXiv preprint arXiv:2303.15056, 2023.
  44. (Gudibande et al., 2023) Arnav Gudibande, EricWallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, and Dawn Song. The false promise of imitating proprietary llms. arXiv preprint arXiv:2305.15717, 2023.
  45. (Gupta et al., 2022a) Udit Gupta, Mariam Elgamal, Gage Hills, Gu-YeonWei, Hsien-Hsin S Lee, David Brooks, and Carole-JeanWu. Act: designing sustainable computer systems with an architectural carbon modeling tool. In Proceedings of the 49th Annual International Symposium on Computer Architecture, pages 784–799, 2022a.
  46. (Gupta et al., 2022b) Udit Gupta, Young Guen Kim, Sylvia Lee, Jordan Tse, Hsien-Hsin Sean Lee, Gu-YeonWei, David Brooks, and Carole-JeanWu. Chasing carbon: The elusive environmental footprint of computing. IEEE Micro, 2022b.
  47. (Gwet 2014) Kilem L. Gwet. Handbook of inter-rater reliability: The definitive guide to measuring the extent of agreement among raters. Advanced Analytics, LLC, 2014.
  48. (Gwet 2008) Kilem Li Gwet. Computing inter-rater reliability and its variance in the presence of high agreement. British Journal of Mathematical and Statistical Psychology, 61(1):29–48, 2008.
  49. (Hartvigsen et al., 2022) Thomas Hartvigsen, Saadia Gabriel, Hamid Palangi, Maarten Sap, Dipankar Ray, and Ece Kamar. Toxigen: A large-scale machine-generated dataset for adversarial and implicit hate speech detection. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3309–3326, 2022.
  50. (Havrilla) Alex Havrilla. synthetic-instruct-gptj-pairwise. https://huggingface.co/datasets/Dahoas/synthetic-instruct-gptj-pairwise.
  51. (He et al., 2020) Pengcheng He, Xiaodong Liu, Jianfeng Gao, and Weizhu Chen. Deberta: Decoding-enhanced bert with disentangled attention. arXiv preprint arXiv:2006.03654, 2020.
  52. (Hendrycks et al., 2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Xiaodong Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
  53. (Hendrycks et al., 2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874, 2021.
  54. (Hoffmann et al., 2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.
  55. (Holtzman et al., 2020) Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. In International Conference on Learning Representations, 2020. URL https://openreview.net/forum?id=rygGQyrFvH.
  56. (Honovich et al., 2022) Or Honovich, Thomas Scialom, Omer Levy, and Timo Schick. Unnatural instructions: Tuning language models with (almost) no human labor. arXiv preprint arXiv:2212.09689, 2022.
  57. (Hosseini et al., 2023) Saghar Hosseini, Hamid Palangi, and Ahmed Hassan Awadallah. An empirical study of metrics to measure representational harms in pre-trained language models. arXiv preprint arXiv:2301.09211, 2023.
  58. (Huang et al., 2023) Fan Huang, HaewoonKwak, and Jisun An. Is chatgpt better than human annotators? potential and limitations of chatgpt in explaining implicit hate speech. arXiv preprint arXiv:2302.07736, 2023.
  59. (Hutto and Gilbert, 2014) Clayton Hutto and Eric Gilbert. Vader: A parsimonious rule-based model for sentiment analysis of social media text. In Proceedings of the international AAAI conference on web and social media, volume 8, pages 216–225, 2014.
  60. (Joshi et al., 2017) Mandar Joshi, Eunsol Choi, Daniel SWeld, and Luke Zettlemoyer. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. arXiv preprint arXiv:1705.03551, 2017.
  61. (Kaplan et al., 2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
  62. (Kirkpatrick et al., 2017) James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, 114(13):3521–3526, 2017.
  63. (Korbak et al., 2023) Tomasz Korbak, Kejian Shi, Angelica Chen, Rasika Bhalerao, Christopher L Buckley, Jason Phang, Samuel R Bowman, and Ethan Perez. Pretraining language models with human preferences. arXiv preprint arXiv:2302.08582, 2023.
  64. (Kudo and Richardson, 2018) Taku Kudo and John Richardson. Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing, 2018.
  65. (Kumar et al., 2022) Sachin Kumar, Vidhisha Balachandran, Lucille Njoo, Antonios Anastasopoulos, and Yulia Tsvetkov. Language generation models can cause harm: So what can we do about it? an actionable survey. arXiv preprint arXiv:2210.07700, 2022.
  66. (Kwiatkowski et al., 2019) Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, et al. Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7:453–466, 2019.
  67. (Lambert et al., 2023) Nathan Lambert, Lewis Tunstall, Nazneen Rajani, and Tristan Thrush. Huggingface h4 stack exchange preference dataset. 2023. URL https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences.
  68. (Lee et al., 2022) Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. Deduplicating training data makes language models better. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2022.
  69. (Lee and Sengupta, 2022) Kevin Lee and Shubho Sengupta. Introducing the ai research supercluster—meta’s cutting-edge ai supercomputer for ai research, 2022. URL https://ai.facebook.com/blog/ai-rsc/.
  70. (Lin et al., 2021) Stephanie Lin, Jacob Hilton, and Owain Evans. Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958, 2021.
  71. (Liu et al., 2019) Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
  72. (Longpre et al., 2023) Shayne Longpre, Le Hou, Tu Vu, AlbertWebson, HyungWon Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, JasonWei, et al. The flan collection: Designing data and methods for effective instruction tuning. arXiv preprint arXiv:2301.13688, 2023.
  73. (Loshchilov and Hutter, 2017) Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
  74. (Madaan et al., 2023) Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, SarahWiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, et al. Self-refine: Iterative refinement with self-feedback. arXiv preprint arXiv:2303.17651, 2023.
  75. (Mialon et al., 2023) Grégoire Mialon, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière, Timo Schick, Jane Dwivedi-Yu, Asli Celikyilmaz, et al. Augmented language models: a survey. arXiv preprint arXiv:2302.07842, 2023.
  76. (Mihaylov et al., 2018) Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. arXiv preprint arXiv:1809.02789, 2018.
  77. (Mitchell et al., 2018) Margaret Mitchell, SimoneWu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting. CoRR, abs/1810.03993, 2018. URL http://arxiv.org/abs/1810.03993.
  78. (MosaicML NLP Team et al., 2023) MosaicML NLP Team et al. Introducing mpt-7b: A new standard for open-source, commercially usable llms, 2023.
  79. (Nakano et al., 2021) Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Lonbrown Ouyanbrown, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, and John Schulman. Webgpt: Browser-assisted question-answering with human feedback. In arXiv, 2021.
  80. (Nguyen et al., 2019) Cuong V. Nguyen, Alessandro Achille, Michael Lam, Tal Hassner, Vijay Mahadevan, and Stefano Soatto. Toward understanding catastrophic forgetting in continual learning. arXiv preprint arXiv:1908.01091, 2019.
  81. (OpenAI, 2023) OpenAI. GPT-4 technical report. CoRR, abs/2303.08774, 2023. doi: 10.48550/arXiv.2303.08774. URL https://doi.org/10.48550/arXiv.2303.08774.
  82. (Ouyang et al., 2022) Long Ouyang, JeffreyWu, Xu Jiang, Diogo Almeida, CarrollWainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35:27730–27744, 2022.
  83. (Patterson et al., 2021) David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, and Jeff Dean. Carbon emissions and large neural network training. arXiv preprint arXiv:2104.10350, 2021.
  84. (Penedo et al., 2023) Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, and Julien Launay. The refinedweb dataset for falcon llm: Outperforming curated corpora with web data, and web data only, 2023.
  85. (Pope et al., 2022) Reiner Pope, Sholto Douglas, Aakanksha Chowdhery, Jacob Devlin, James Bradbury, Anselm Levskaya, Jonathan Heek, Kefan Xiao, Shivani Agrawal, and Jeff Dean. Efficiently scaling transformer inference, 2022.
  86. (Rae et al., 2022) Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, JohannesWelbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake Hechtman, LauraWeidinger, Iason Gabriel,William Isaac, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving. Scaling language models: Methods, analysis & insights from training gopher, 2022.
  87. (Rajpurkar et al., 2018) Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don’t know: Unanswerable questions for squad. arXiv preprint arXiv:1806.03822, 2018.
  88. (Ramasesh et al., 2021) Vinay Venkatesh Ramasesh, Aitor Lewkowycz, and Ethan Dyer. Effect of scale on catastrophic forgetting in neural networks. In International Conference on Learning Representations, 2021.
  89. (Roller et al., 2020) Stephen Roller, Y-Lan Boureau, JasonWeston, Antoine Bordes, Emily Dinan, Angela Fan, David Gunning, Da Ju, Margaret Li, Spencer Poff, et al. Open-domain conversational agents: Current progress, open problems, and future directions. arXiv preprint arXiv:2006.12442, 2020.
  90. (Sakaguchi et al., 2021) Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Winogrande: An adversarial winograd schema challenge at scale. Communications of the ACM, 64(9):99–106, 2021.
  91. (Sap et al., 2019) Maarten Sap, Hannah Rashkin, Derek Chen, Ronan LeBras, and Yejin Choi. Socialiqa: Commonsense reasoning about social interactions. arXiv preprint arXiv:1904.09728, 2019.
  92. (Scao et al., 2022) Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, et al. Bloom: A 176b-parameter open-access multilingual language model. arXiv preprint arXiv:2211.05100, 2022.
  93. (Schick et al., 2023) Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761, 2023.
  94. (Schulman et al., 2017) John Schulman, FilipWolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
  95. (Scialom et al., 2020a) Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. Discriminative adversarial search for abstractive summarization. In Hal Daumé III and Aarti Singh, editors, Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pages 8555–8564. PMLR, 13–18 Jul 2020a. URL https://proceedings.mlr.press/v119/scialom20a.html.
  96. (Scialom et al., 2020b) Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. Coldgans: Taming language gans with cautious sampling strategies. Advances in Neural Information Processing Systems, 33:18978–18989, 2020b.
  97. (Sennrich et al., 2016) Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units, 2016.
  98. (Shaham et al., 2022) Uri Shaham, Elad Segal, Maor Ivgi, Avia Efrat, Ori Yoran, Adi Haviv, Ankit Gupta,Wenhan Xiong, Mor Geva, Jonathan Berant, and Omer Levy. SCROLLS: Standardized CompaRison over long language sequences. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 12007–12021, Abu Dhabi, United Arab Emirates, December 2022. Association for Computational Linguistics. URL https://aclanthology.org/2022.emnlp-main.823.
  99. (Shazeer, 2019) Noam Shazeer. Fast transformer decoding: One write-head is all you need, 2019.
  100. (Shazeer, 2020) Noam Shazeer. Glu variants improve transformer, 2020.
  101. (Shoeybi et al., 2019) Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. Megatron-lm: Training multi-billion parameter language models using model parallelism, 2019.
  102. (Shumailov et al., 2023) Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, and Ross Anderson. The curse of recursion: Training on generated data makes models forget. arXiv preprint arxiv:2305.17493, 2023.
  103. (Smith and Williams, 2021) Eric Michael Smith and Adina Williams. Hi, my name is martha: Using names to measure and mitigate bias in generative dialogue models. arXiv preprint arXiv:2109.03300, 2021.
  104. (Smith et al., 2022) Eric Michael Smith, Melissa Hall, Melanie Kambadur, Eleonora Presani, and AdinaWilliams. “i’m sorry to hear that”: Finding new biases in language models with a holistic descriptor dataset. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 9180–9211, 2022.
  105. (Solaiman et al., 2023) Irene Solaiman, Zeerak Talat,William Agnew, Lama Ahmad, Dylan Baker, Su Lin Blodgett, Hal Daumé III, Jesse Dodge, Ellie Evans, Sara Hooker, et al. Evaluating the social impact of generative ai systems in systems and society. arXiv preprint arXiv:2306.05949, 2023.
  106. (Stiennon et al., 2020) Nisan Stiennon, Long Ouyang, JeffWu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul Christiano. Learning to summarize from human feedback. In NeurIPS, 2020.
  107. (Su et al. 2022) Jianlin ou, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding, 2022.
  108. (Suzgun et al., 2022) Mirac Suzgun,Nathan Scales,Nathanael Schärli, Sebastian Gehrmann, Yi Tay, HyungWon Chung, Aakanksha Chowdhery, Quoc V Le, Ed H Chi, Denny Zhou, et al. Challenging big-bench tasks and whether chain-ofthought can solve them. arXiv preprint arXiv:2210.09261, 2022.
  109. (Synnaeve et al., 2019) Gabriel Synnaeve, Jonas Gehring, Zeming Lin, Daniel Haziza, Nicolas Usunier, Danielle Rothermel, Vegard Mella, Da Ju, Nicolas Carion, Laura Gustafson, et al. Growing up together: Structured exploration for large action spaces. 2019.
  110. (Tal et al., 2022) Yarden Tal, Inbal Magar, and Roy Schwartz. Fewer errors, but more stereotypes? the effect of model size on gender bias. In Proceedings of the 4th Workshop on Gender Bias in Natural Language Processing (GeBNLP), pages 112–120, Seattle, Washington, July 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.gebnlp-1.13. URL https://aclanthology.org/2022.gebnlp-1.13.
  111. (Talmor et al., 2018) Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. Commonsenseqa: Aquestion answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937, 2018.
  112. (Taori et al., 2023) Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023.
  113. (Taylor et al., 2022) Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic. Galactica: A large language model for science. arXiv preprint arXiv:2211.09085, 2022.
  114. (Touvron et al., 2023) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aur’elien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
  115. (Vaswani et al., 2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need, 2017.
  116. (Vinyals et al., 2019) Oriol Vinyals, Igor Babuschkin, Wojciech M Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H Choi, Richard Powell, Timo Ewalds, Petko Georgiev, et al. Grandmaster level in starcraft ii using multi-agent reinforcement learning. Nature, 575(7782):350–354, 2019.
  117. (Wang et al., 2022) Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi, and Hannaneh Hajishirzi. Self-instruct: Aligning language model with self generated instructions. arXiv preprint arXiv:2212.10560, 2022.
  118. (Webb, 2019) Michael Webb. The impact of artificial intelligence on the labor market. Available at SSRN 3482150, 2019.
  119. (Wei et al., 2021) Jason Wei, Maarten Bosma, Vincent Zhao, Kelvin Guu, AdamsWei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. In International Conference on Learning Representations, 2021.
  120. (Wei et al., 2022a) Jason Wei, Maarten Bosma, Vincent Zhao, Kelvin Guu, AdamsWei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V Le. Finetuned language models are zero-shot learners. In International Conference on Learning Representations, 2022a. URL https://openreview.net/forum?id=gEZrGCozdqR.
  121. (Wei et al., 2022b) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824–24837, 2022b.
  122. (Weidinger et al., 2021) Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al. Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359, 2021.
  123. (Welbl et al., 2021) JohannesWelbl, Amelia Glaese, Jonathan Uesato, Sumanth Dathathri, John Mellor, Lisa Anne Hendricks, Kirsty Anderson, Pushmeet Kohli, Ben Coppin, and Po-Sen Huang. Challenges in detoxifying language models, 2021.
  124. (Wu et al., 2022) Carole-Jean Wu, Ramya Raghavendra, Udit Gupta, Bilge Acun, Newsha Ardalani, Kiwan Maeng, Gloria Chang, Fiona Aga, Jinshi Huang, Charles Bai, et al. Sustainable ai: Environmental implications, challenges and opportunities. Proceedings of Machine Learning and Systems, 4:795–813, 2022.
  125. (Xu et al., 2021) Jing Xu, Da Ju, Margaret Li, Y-Lan Boureau, JasonWeston, and Emily Dinan. Recipes for safety in open-domain chatbots, 2021.
  126. (Zellers et al., 2019a) Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Hellaswag: Can a machine really finish your sentence? arXiv preprint arXiv:1905.07830, 2019a.
  127. (Zellers et al., 2019b) Rowan Zellers, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, and Yejin Choi. Defending against neural fake news. Advances in neural information processing systems, 32, 2019b.
  128. (Zhang and Sennrich, 2019) Biao Zhang and Rico Sennrich. Root mean square layer normalization, 2019.
  129. (Zhao et al., 2023) Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo, Chien-Chin Huang, Min Xu, Less Wright, Hamid Shojanazeri, Myle Ott, Sam Shleifer, Alban Desmaison, Can Balioglu, Bernard Nguyen, Geeta Chauhan, Yuchen Hao, and Shen Li. Pytorch fsdp: Experiences on scaling fully sharded data parallel, 2023.
  130. (Zhong et al., 2023) Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, Amin Saied, Weizhu Chen, and Nan Duan. Agieval: A human-centric benchmark for evaluating foundation models. arXiv preprint arXiv:2304.06364, 2023.
  131. (Zhou et al., 2023) Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, and Omer Levy. Lima: Less is more for alignment. arXiv preprint arXiv:2305.11206, 2023.
  132. (Zhou et al., 2022) Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis, Harris Chan, and Jimmy Ba. Large language models are human-level prompt engineers. In The Eleventh International Conference on Learning Representations, 2022.
  133. (Zhuo et al., 2023) Terry Yue Zhuo, Yujin Huang, Chunyang Chen, and Zhenchang Xing. Exploring ai ethics of chatgpt: A diagnostic analysis. arXiv preprint arXiv:2301.12867, 2023.

付録A:Appendix

付録A.1:Contributions(貢献)

日本語訳は省略します.

付録A.1.1:Acknowledgments(謝辞)

日本語訳は省略します.

付録A.2:Additional Details for Pretraining(事前訓練の詳細)

付録A.2.1:Architecture Changes Compared to Llama 1(Llama 1と比較したアーキテクチャの変更点)

Llama2 Table16
表16:長いコンテキストのタスクにおけるコンテキストの長さのアブレーション.

Llama2 Table17
表17:一般的なタスクにおけるコンテキストの長さのアブレーション.

コンテキストの長さ:

Llama 2のコンテキストウィンドウを2048トークンから4096トークンに拡張した.

より長いコンテキストウィンドウは,モデルがより多くの情報を処理することを可能にし,チャットアプリケーション,様々な要約タスク,より長いドキュメントの理解において,より長い履歴をサポートするために特に有用である.

表16は,長いコンテキストのベンチマークにおける2kおよび4kコンテキストの事前訓練のパフォーマンスを比較したものである.

どちらのモデルも,ベースラインと同じアーキテクチャとハイパーパラメータを維持したまま,コンテキストの長さのみを変化させ,150Bトークンに対して訓練される.

平均入力長が3.5kであるSCROLLS(Shaham et al., 2022)では改善が見られ,SQUAD(Rajpurkar et al., 2018)では性能低下は見られなかった.

表17は,長いコンテキストモデルが様々な汎用タスクで強力な性能を保持していることを示している.

Grouped-Query Attention:

自己回帰復号の標準的な方法は,キー(K)とバリュー(V)のペアをシーケンスの前のトークンにキャッシュし,Attentionの計算を高速化することである.

しかし,コンテキストウィンドウやバッチサイズが大きくなると,Multi-Head Attention(MHA)モデルにおけるKVキャッシュサイズに関連するメモリコストが著しく増大する.

KVキャッシュサイズがボトルネックになるような大きなモデルでは,キーとバリューの投影をMulti-Headsにまたがって共有しても,性能はそれほど低下しない(Chowdhery et al., 2022).

単一のKVプロジェクションを持つオリジナルのMulti-Query Format(MQA)(Shazeer, 2019),または8つのKVプロジェクションを持つGrouped-Query Attention Variant(GQA)(Ainslie et al., 2023)のいずれかを使用することができる.

Llama2 Table18
表18:Attentionアーキテクチャのアブレーション.MMLU(5-Shot)とGSM8K(8-Shot)を除く全てのタスクについて,0-Shotの結果を報告する.GSM8KとHuman-Evalについては,maj@1とpass@1の結果を報告する.NQとTriviaQAについてはEMを報告する.その他のタスクについては,正解率を報告する.

表18では,MQAとGQAのバリエーションをMHAのベースラインと比較している.

30Bのモデルサイズを固定したまま,全てのモデルを150Bのトークンで訓練する.

GQAとMQAで全体的なパラメータ数を同程度に保つため,フィードフォワード層の次元を増やし,Attention層の減少を補う.

MQA Variantでは,FFNの次元を1.33倍増やし,GQA Variantでは1.3倍増やす.

結果から,GQA変形はほとんどの評価タスクでMHAベースラインと同等の性能を発揮し,平均的にはMQA変形よりも優れていることがわかる.

レイテンシーを最適化するために,テンソル並列を使用した単一ノードで8台のA100を使用して,最大のモデルをホストしている(Shoeybi et al., 2019).

この設定では,ヘッドの数がGPUの数よりも少ないため,MQAのシャーディングをヘッド間で行うことはできない.

すべてのGPUでKV値を複製するか(KVキャッシュサイズをGQAと同じにする),代わりにバッチ次元全体でシャーディングする方法がある(Pope et al., 2022).

しかし後者は,バッチサイズがシャード数より大きい場合にのみ機能し,追加の通信コストがすべてのケースで割に合わないため,推論サービスが複雑になる可能性がある.

したがって,アブレーションの結果とスケーリング推論の容易さに基づき,34Bと70BのLlama 2モデルについては,MQAの代わりにGQAを使用することにした.

Llama2 Figure24
図24:Multi-Query Variantsは,バッチサイズが大きいほど高いスループットを可能にし,小さいバッチでは同様の待ち時間を示す.出力長は128トークンに固定されている.最初のデータポイントはバッチサイズ1に対応し,その後モデルがメモリ不足になるまで2倍にする.MHAは,256トークンのコンテキストではバッチサイズ1024で,2kコンテキストではバッチサイズ128でメモリ不足エラーを引き起こすが,MQAとGQAはこれらの設定で正常に実行される.

図24は,テンソル並列性を持つ8 x 80 GiB A100を使用した実験で,MHAベースラインと比較して,30B GQAおよびMQAアブレーションモデルの推論速度がどのように変化したかを示している.

これらの実行では,すべてのGPUでMQA用のKVヘッドを単純に複製したため,MQAのKVキャッシュサイズはGQAと等しくなり,2つのVariantsは非常によく似た挙動を示した(MQAはFFN寸法がわずかに大きいだけである).

付録A.2.2:Additional Details for Pretrained Models Evaluation(事前訓練されたモデルの評価に関する追加詳細)

Llama2 Table19
表19:Massive Multitask Language Understanding(MMLU)ベンチマークにおける5-Shotのパフォーマンス.

MMLUの詳細:

表19では,Llama 2モデルおよびその他のオープンソースモデルに対するMMLU(Hendrycks et al., 2020)評価の詳細を報告する.

Llama2 Table20
表20:標準ベンチマークのパフォーマンス.

標準ベンチマーク:

表20に,いくつかの標準ベンチマークでの結果を示す.

Llama2 Table21
表21:Human-EvalとMBPPでのコード生成結果.Human-Evalでは0-Shot,MBPPでは3-Shotの結果を報告する.pass@100スコアとpass@80スコアでは,Temperature=0.8,top-p=0.95を使用.pass@1スコアでは,Temperature=0.1,top-p=0.95を使用.

コード生成:

表21では,Human-EvalおよびMBPPコード生成ベンチマークにおけるLlama 2の結果を,一般的なオープンソースモデルと比較している.

Llama2 Table22
表22:(左)NaturalQuestions.完全一致のパフォーマンス.(右)TriviaQA.フィルタリングされた開発セットでのZero-ShotおよびFew-Shot完全一致パフォーマンス.TriviaQAについては,Wiki検証サブセットで評価.

世界の知識:

Llama 2モデルを他のオープンソースモデルとともにNaturalQuestionsとTriviaQAベンチマークで評価する(表22).

Llama2 Table23
表23:読解力に関するオープンソースモデル(SQUADとQUAC)との比較.

読解力:

表23では,SQUADの0-ShotとFew-Shotの結果,QUACの0-Shotと1-Shotの実験結果を報告する.

ここでは,Llama 2が,Llama 1 30Bがわずかに優れているQUACの0-Shotを除いて,すべての評価設定とモデルで最高のパフォーマンスを示した.

Llama2 Table24
表24:AGI評価に関するオープンソースモデルとの比較(英語).

試験:

表24では,AGI Eval(Zhong et al., 2023)ベンチマークの英語パートから得られた詳細な結果を示す.

AGI Evalは,さまざまな科目の標準試験を集めたものである.

Llama2 Table25
表25:数学的推論タスク「GSM8kとMATH」に関する他のオープンソースモデルとの比較(maj1@1が報告されている).

数学的推論:

表25では,GSM8kタスクとMATHタスクにおけるLlama 2と他のオープンソースデータセットの結果を報告する.

付録A.3:Additional Details for Fine-tuning(ファインチューニングのための追加詳細)

付録A.3.1:Detailed Statistics of Meta Human Preference Data(メタ人間嗜好データの詳細統計)

Llama2 Table26
表26:バッチごとのメタ人間嗜好データ(安全性と有用性)の統計.バイナリ人間嗜好比較は,同じプロンプト(および以前の対話)を共有する2つの回答(選択と拒否)を含むことに注意されたい.各例は,報酬モデルの入力であるプロンプト(利用可能な場合は以前の対話を含む)と回答から構成される.比較の回数,1対話あたりの平均ターン数,1例あたりの平均トークン数,1プロンプトあたりの平均トークン数,1回答あたりの平均トークン数を報告する.

表26は,メタ人間の嗜好データの詳細な統計である.

合計で14バッチの人間嗜好データ(すなわち,Meta Safety + Helpfulness)を週単位で収集し,100万以上のバイナリモデル生成比較から構成される.

一般的に,時間が経つにつれてより多くのアノテータが参加するようになり,アノテータもタスクに慣れて作業効率が良くなるため,後のバッチほど多くのサンプルが含まれる.

また,RLHFデータの複雑さを増すために,より多くのマルチターンサンプルを意図的に収集しているため,サンプルあたりの平均トークン数もバッチが進むにつれて増加する.

Llama2 Figure25
図25:バッチにわたる人間の嗜好データ評価の分布.時間が経つにつれて,嗜好データのアノテーションに利用可能な,より優れたパフォーマンスを持つLlama 2-Chatが訓練されるにつれて,レーティングが不明または無視できるほど良いサンプルのシェアが大きくなっている.

図25では,バッチ間の嗜好評価の変化をプロットしている.

同じような回答(例えば,無視できるほど良い,またはわからない)を持つサンプルのシェアが時間とともに劇的に増加する一方で,より強い嗜好(例えば,著しく良い)を持つサンプルのシェアがその間に減少していることがはっきりとわかる.

これは,モデルの更新と嗜好データのアノテーションを繰り返す私たちの手順の性質を反映している.

時間の経過とともに,より良い性能のLlama 2-Chatモデルが回答サンプリングに使用されるようになると,アノテータが2つの同じように高品質な回答からより良いものを選択することが難しくなる.

付録A.3.2:Curriculum Strategy for Meta Human Preference Data(メタ人間嗜好データのカリキュラム戦略)

Llama2 Figure26
図26:アノテーションカリキュラム.各バッチで訓練されたモデルでプロンプトサンプルの報酬モデルを与えたときの最大スコアと中央値の新しいバッチごとの展開.スコアが徐々に減少していることがわかるが,これは最近のバッチではプロンプトが平均的に難しくなっていることを示唆している.

SFTで議論したように,高品質のデータはアライメントに不可欠である.

アノテーションプラットフォームとは,ファインチューニングの過程で緊密に連携し,カリキュラムアノテーション戦略を選択した.

最初のモデルでは,アノテータはプロンプトを比較的単純なものにし,その後,より複雑なプロンプトへと徐々に移行し,Llama 2-Chatに新しいスキルを教えるように求められた.

図26に,このカリキュラムアノテーションの有用性嗜好データを示す.

付録A.3.3:Ablation on Ranking Loss with Preference Rating-based Margin for Reward Modeling(報酬モデリングのための嗜好評価に基づくマージンを用いたランキング損失の除去)

Llama2 Table27
表27:優先度評価に基づくマージンの大きさの異なる2つのVariants.

Llama2 Table28
表28:Helpful報酬モデルランキング損失におけるプリファレンス評価ベースのマージンに関するアブレーション.評価マージンコンポーネントは,より分離可能な回答ペア(例えば,選択された回答が拒否された回答よりも有意に優れている)を持つサンプルでモデルの正解率を向上させるのに役立つ.

我々は,Helpfulness報酬モデルに対して,嗜好評価に基づくマージン項を用いてランキング損失を除去した.

表27に記載されているように,式1のマージン項の大きさが異なる2種類のm(r)を試し,マージン項なしのベースラインと比較した.

※訳注:原文のopen-source 27はTable 27の間違い.

表28にMeta Helpfulテストセットでの評価と平均正解率を示す.

マージン項は確かに,より分離可能な比較ペアで報酬モデルのパフォーマンスを向上させることができ,より大きなマージンはさらにそれを高めることができることが観察される.

しかしながら,より大きなマージンは,類似サンプルでのパフォーマンスを後退させる.

Llama2 Figure27
図27:ランキング損失に嗜好評価に基づくマージンを組み込むことによって生じる報酬モデルのスコア分布のシフト.マージン項を用いると,特にマージンが大きくなるにつれて,報酬分布が二手に分かれるパターンが観察される.

さらに,マージンベースの損失が報酬スコアの分布シフトに与える影響を評価した.

図27にテストセットの報酬スコアのヒストグラムをプロットする.

基本的に,マージン項は,2値分割パターンを形成するために,モデル生成により多くの極端なスコアを割り当てるように報酬モデルを後押しし,より大きなマージンは,この分布シフトをより大きくする.

PPOのような強化学習アルゴリズムは,報酬分布の変化に敏感である可能性があるため,上記の観察は,将来の研究のための報酬キャリブレーションへの投資を示唆している.

付録A.3.4:Ablation on Ranking Loss with Safety Auxiliary Loss for Reward Modeling(報酬モデルにおける安全補助損失を用いたランキング損失の廃止)

Llama2 Table29
表29:安全報酬モデルのための安全補助損失項に関するアブレーション.安全補助損失は,報酬スコアしきい値0.5で捕捉された安全でない回答のパーセンテージ(すなわち,シグモイドの前に負の値)によって測定された安全でない回答のリコールと同様に,すべての3つのカテゴリーの正解率を向上させる.

表29に示すMeta Safetyテストセットの結果を用いて,安全補助損失の影響を除去した.

予想通り,カスタマイズされた損失は,0.5の報酬スコアを閾値として使用した場合,安全でない回答の想起を改善し(シグモイドの前に負),RLHFの安全報酬シグナルを改善する.

安全なモデル生成と安全でないモデル生成を識別するようにモデルを教えることも,3つのサブカテゴリーでモデルの正解率を向上させる.

付録A.3.5:Additional Results for GAtt(GAttの追加結果)

Llama2 Table30
表30:GAttの結果.GAttを用いたLlama 2-Chatは,人間による評価で20ターンまで,100%の正解率で属性を参照することができた.評価属性は公人と趣味に限定した.

Attentionは20ターン以上に及ぶようになった.

システムの引数を記憶するモデルの能力を,人間による評価でテストした.

引数(例:趣味,ペルソナ)は最初のメッセージで定義され,その後2ターン目から20ターン目まで定義される.

我々は,Llama 2-Chatのマルチターン記憶能力を測定するために,モデルにそれらを参照するように明示的に依頼した(例えば,「あなたの好きな趣味は何ですか?」,「あなたの名前は何ですか?」).

その結果を表30に示す.

GAttを搭載したLlama 2-Chatは100%の正解率を維持し,常に定義された属性を参照するため,20ターンまで使用可能であった(人間による評価はこれ以上延長せず,すべての例でターンの合計が4048トークン未満であった).

比較として,GAttを使用しないLlama 2-Chatは,わずか数ターンで属性を参照できなくなる.

t+1ターン目には100%だったが,t+3ターン目には10%,そして0%になる.

Llama2 Figure28
図28:GAttのZero-Shot汎化.GAttの訓練データには,上記の2つの制約のどちらも存在しなかった.しかし,これらはすべてのターンにおいて完全に満たされている.

GAttのZero-Shot汎化.

推論時に,GAttの訓練にはなかった制約を設定してみた.

例えば,「1つの文章だけで答える」というようなもので,図28に示すように,モデルは一貫性を保った.

Llama 1にGAttを適用し,コンテキストの長さを2048トークンで事前訓練した後,最大長を4096でファインチューニングした.

GAttが2048トークンを超えても機能するかどうかをテストしたところ,モデルは間違いなくこのウィンドウを超えて属性を理解することができた.

この有望な結果は,GAttが長いコンテキストに注目するための効率的な手法として適応可能であることを示している.

付録A.3.6:How Far Can Model-Based Evaluation Go?(モデルベース評価はどこまで可能か?)

Llama2 Figure29
図29:報酬モデルの平均スコア vs. 人間の3重レビューによるモデル回答の品質評価(7点リッカート尺度).左と右のプロットは,それぞれ有用性と安全性のテストセットに関するものである.網掛け部分は±1標準偏差を表す.

我々の報酬モデルのロバスト性を測定するために,我々は有用性と安全性の両方に関するプロンプトのテストセットを収集し,アノテータに3重レビューを使用して7ポイントのリッカート尺度(高いほど良い)に基づいて回答の品質を判断するように依頼した.

図29(付録)に示すように,我々の報酬モデルは全体的に人間の嗜好によく適合していることが観察される.

これは,Pairwise Ranking Lossで訓練されているにもかかわらず,Point-Wise Metricとして報酬を使用できることに注意されたい.

付録A.3.7:Human Evaluation(人間の評価)

※訳注:表33は表31と表32より前に参照されているため,こちらに記載します.

Llama2 Table33
表33:Helpfulnessなプロンプトの例.

プロンプトと生成:

モデルを比較するために,我々は4000以上のシングルターンとマルチターンのプロンプトの多様なセットを収集する.

シングルターンのプロンプトは,事実に関する質問,文章作成とコンテンツ作成,言語支援,推奨,対話などのカテゴリーにまたがり,手動で収集した.

マルチターンプロンプトについては,アノテータが別のモデルと対話し,マルチターンププロンプトのセットを生成した.

(a)ChatGPTをインタラクションモデルとした場合,(b)Llama 2-Chatをインタラクションモデルとした場合,(c)ChatGPTとLlama 2-Chatの間のベスト回答をアノテータが毎ターン選択した場合,(d)ChatGPTとLlama 2-Chatを毎ターン交互に選択した場合である.

また,マルチターンプロンプトを上記と同じ5つのカテゴリーに分類した.

マルチターンプロンプトを1つのカテゴリーに分類することは困難であるため,アノテータはマルチターンプロンプトに対して最大2つのカテゴリーを選択することができた.

評価プロンプトの例を表33に示す.

オープンソースモデルでは,1000トークンのコンテキスト長を使用して生成を収集し,モデルが1000トークンまで生成できるようにしている.

Llama 2-Chatモデルは最大4000トークンを処理できるが,オープンソースモデルとの公平な比較を行うため,コンテキストと生成の長さを1000トークンに制限している.

生成の長さを1000トークンに制限することは,Llama 2-Chatモデルに悪影響を及ぼす可能性がある.

1000トークンより長いプロンプトは,オープンソースモデルとの評価のためにフィルタリングされる.

MPTモデルでは,mpt-7b-chatモデルを使用する.

Falconモデルには,チャット/命令モデルであるFalcon-40B-Instructモデルを使用する.

Vicunaモデルには,lmsysのvicuna-13b-delta-v1.1とvicuna-33b-delta-v1.3を使用する.

モデルの重みはすべてHuggingFaceから取得した.

クローズドソースモデルの方がコンテキスト長が長いため,これらのモデルのコンテキスト長と生成長を2000トークンに変更する.

クローズドソースモデルで評価するために,コンテキスト長と生成長が2000の別の生成セットを収集する.

※訳注:表32はここでは参照されていませんが,表31と似た評価のため,こちらに記載します.

Llama2 Table31
表31:人間による評価のためのモデル生成のシステムプロンプト.

Llama2 Table32
表32:人間による評価に対するプロンプトの数.

Llama2 Table34
表34:Llama 2-Chatと他のモデルのプロンプト例で得られた生成の比較.

生成を収集しながら,評価のプロンプトの前にシステムプロンプトを付加する.

各モデルのシステムプロンプトを表31に示す.

ChatGPT,PaLM,Falconはシステムプロンプトを提供しないため,Llama 2-Chatモデルと同じシステムプロンプトを使用する.

プロンプトの例に対する各モデルの生成は表34のとおりである.

評価方法:

評価では,人間のアノテータは,プロンプトと2つのモデルの生成を並べて提示される.

彼らは以下の質問に答えるよう求められる.

アノテータはこの質問に7点満点で答え,以下のラベルを付ける.

モデルの生成の1つはLlama 2-Chatモデルで,もう1つの生成はオープンソースまたはクローズドソースのモデルの1つである.

2つのモデルからの回答は,アノテータに提示されるときにモデルAまたはモデルBとしてランダム化される.

このデータから,勝利,引き分け,敗北を結果で報告する.

各生成のペアを3人のアノテータが評価する.

5人のアノテータを使った先行実験では,結果やアノテータ間の一致度に大きな変化はなかった.

Llama2 Figure30
図30:システムプロンプトがChatGPTの人間評価結果に与える影響(左).Llama 2-Chat 70BとChatGPTのシステムプロンプトを使用した場合のカテゴリーごとの勝率(右).

Llama2 Figure31
図31:Llama 2-ChatとChatGPTの勝率を,プロンプトのターン数(左)とプロンプトと生成を合わせた単語数(右)で分析.単語数のプロットについては,五分位数ごとの勝率を報告する.最大総単語数(プロンプトと生成)は2432である.単語数,ターン数ともに勝率に傾向は見られない.

追加の結果:

システムプロンプトがChatGPTの生成に与える影響を理解するために,ChatGPTのシステムプロンプトなしで別の人間による評価を実行した.

図30に示すように,Llama 2-Chatの勝率は36%から44%に上昇した.

さらに,シングルターンプロンプトの勝率は36%から49%近くまで劇的に増加している.

図30では,プロンプトのカテゴリー別の勝率も示している.

ChatGPTが言語アシストでLlama 2-Chat 70Bを上回る一方,Llama 2-Chat 70Bが事実問題でChatGPTを上回っていることは興味深い.

事実に関する質問の結果を分析している間,両方のモデルが答えを正解しているにもかかわらず,アノテータが回答のスタイルによりLlama 2-Chatの回答を好んでいる例があることに気づいた.

事実問題でのこれらの結果は,どちらのモデルの幻覚率も示していない.

図31では,プロンプトと生成のターン数と総語数による勝率も共有している.

いずれも勝率に傾向は見られない.

付録A.4:Additional Details for Safety(安全のための追加詳細)

付録A.4.1:Tension between Safety and Helpfulness in Reward Modeling(報酬モデルにおける安全性と有用性の緊張関係)

Llama2 Figure32
図32:安全性テストセットの安全(左)と安全でない(右)の回答に対する安全性と有用性の報酬モデルのスコア.安全または安全でないラベルは,プリファレンスのアノテーション中にアノテータによって提供される.安全な回答プロットの右下隅(すなわち,高い安全性スコアと低い役立ち度スコア)と安全でない回答プロットの左上隅(すなわち,低い安全性スコアと高い役立ち度スコア)の2つの側面の間に矛盾が観察される.

Llama2 Table35
表35:安全性報酬モデルと有用性報酬モデルが一致しない例.
(上)安全性報酬スコアは低いが,有用性報酬モデルのスコアは高い.
(下)安全性報酬モデルのスコアは高いが,有用性報酬モデルのスコアは低い.
回答例は,有用性と安全性の間の緊張を説明するためだけに選ばれている.我々のファインチューニングされたモデルは,同様の安全でない回答を生成しないように訓練されている.

3.2.2項で,安全性と有用性の間の緊張について簡単に説明した.

ここでは,この緊張を明らかにするためにより多くの証拠と定性的な結果を示す.

図32は,安全テストセットにおける,安全な回答と安全でない回答に対する有用性と安全性の報酬モデルのスコアの2つの散布図である.

この緊張は,安全な回答のプロット(左)では右下隅(すなわち,安全性スコアは高いが,有用性スコアは低い)に,安全でない回答のプロット(右)では左上隅(すなわち,安全性スコアは低いが,有用性スコアは高い)に観察できる.

また,表35に,安全性報酬モデルと有用性報酬モデルが互いに一致しない2つの質的な例を挙げる.

付録A.4.2:Qualitative Results on Safety Data Scaling(安全性データのスケーリングに関する定性的結果)

Llama2 Table36
表36:安全データのスケーリングの影響に関する定性的な例.Llama 2-Chatは,攻撃的なコンテンツや問題のあるコンテンツを生成しないように学習する.

Llama2 Table37
表37:安全性データのスケーリングの影響に関する定性的な例.モデルチューニングに100%の安全性データが含まれることで,Llama 2-Chatは,ユーザを尊重し,忌み嫌うなどの攻撃的な言葉を使わないように教育し始める.

Llama2 Table38
表38:安全性データのスケーリングの影響に関する定性的な例.モデルチューニングに使用する安全性データを増やすと,Llama 2-Chatは,"taste"が食べ物であることを暗示しているにもかかわらず,"sex in a pan"を敏感で性的なものとみなす.

4.2.3項では,RLHFモデルに安全データを追加した場合の影響を定量的に検討する.

ここでは,表36,表37,表38のように,安全データを増やしたときのモデルの動作の変化を定性的に調べるために,いくつかのサンプルを示す.

一般的に,Llama 2-Chatは安全データを使用するほど,安全でないプロンプトに対してより安全に応答するようになることが観察される.

例えば,安全データを50%使用すると,Llama 2-Chatは不快なコンテンツの生成を拒否するようになる(表36).

一方,プロンプト自体が安全であっても(例:sex in a panはデザートの名前),プロンプトに攻撃的な言葉(例:表37のabomination)や敏感な言葉(例:表38の "sex in a pan")が含まれている場合,Llama 2-Chatはより保守的に振る舞い始めることも観察される.

※訳注:sex in a panの紹介動画は以下になります.

付録A.4.3:English Pronouns(英語の代名詞)

代名詞分析に使用する用語は,PaLM 2の論文(Anil et al., 2023)と一致している.

  • She: "she", "her", "hers", "herself"
  • He: "he", "him", "his", "himself"
  • Unknown: "they", "them", "their", "theirs", "theirself", "themself", "themselves"
  • 1st-person: "I", "me", "my", "mine", "myself", "we", "us", "our", "ours", "ourselves"
  • 2nd-person: "you", "your", "yours", "yourself", "yourselves"
  • 3rd-person: "she", "her", "hers", "herself", "he", "him", "his", "himself", "they", "them", "their", "theirs", "theirself", "themself", "themselves", "it", "its", "itself"

付録A.4.4:Context Distillation Preprompts(コンテキスト蒸留事前プロンプト)

Llama2 Table39
表39:コンテキスト蒸留のための安全な事前プロンプト.我々は,(Bai et al., 2022b)から着想を得たものや,我々自身が作成したものなど,コンテキスト蒸留にさまざまな事前プロンプトを使用している.また,特定のリスクカテゴリーに割り当てた特定のプロンプトを対象とする事前プロンプトも使用する(下の2つの例を参照).

表39に使用する事前プロンプトの例を示す.

付録A.4.5:Safety Errors: False Refusals and Vague Responses(安全性エラー:誤った拒否と曖昧な対応)

Llama2 Table40
表40:コンテキスト蒸留がもたらすエラー.コンテキスト蒸留が回答を曖昧にする例(上の例),または誤った拒否につながる例(下の例).

Llama2 Figure33
図33:偽のモデル拒否率は,安全性データの割合とともに増加する.
(左)有用性データセットでの偽拒否率は0.006%(すなわち1件)から0.05%(すなわち8件).
(右)境界線データセットにおける偽拒否率は15%から27%.

プロンプトに含まれる安全上の問題の認識による誤った拒否の例については表40を,安全データの使用割合の関数としての誤った拒否率については図33を参照されたい.

Llama2 Table41
表41:知覚された安全上の問題による誤った拒否の例.最初の例は有用性データセットからのもので,2番目と3番目の例はボーダーラインデータセットからのものである.プロンプト自体が良性であるにもかかわらず,「クラック」や「爆弾」といったセンシティブなキーワードがプロンプトに含まれている.

コンテキスト蒸留によってなされた曖昧な回答や誤った拒否の例については,表41を参照されたい.

付録A.4.6:Examples of Safety Evaluation(安全性評価の例)

Llama2 Table42
表42:安全性評価プロンプトの例.

Llama2 Table43
表43:Llama 2-Chatと他のモデルから得られた敵対的なプロンプトに対する回答の比較.

表42にリスクカテゴリー別の安全性評価プロンプトの例を,表43に回答の例を示す.

付録A.4.7:Description of Automatic Safety Benchmarks(自動安全ベンチマークの説明)

本項では,評価に用いる自動安全ベンチマークについて,真実性,毒性,バイアスの観点から詳細に説明する.

真実性:

LLMが事実性と常識に一致する信頼できる出力を生成する能力を理解するために,LLMの幻覚に使用されるTruthfulQA(Lin et al., 2021)を採用し,言語モデルが質問に対する答えを生成する際に真実であると同時に有益であるかどうかを測定する.

TruthfulQAベンチマークは,健康,金融,法律,政治を含むがこれらに限定されない38のカテゴリーに分散された817の質問で構成されている(Lin et al., 2021).

設問は,人間でさえ根拠のない信念や誤解のために不正確に回答する可能性があるように設計されている.

(Lin et al., 2021)に従い,我々は人間の判断を予測するのに頑健な性能を持つことが示されているGPT-3ベースのメトリクスを使用する.

具体的には,ファインチューニングされたGPT-3モデル,すなわち「GPT-judge」を用いて,LLMから生成される出力の真実性と情報性を予測する.

※curie:ft-personal-2023-06-01-06-02-42は「truthful」に使われ,curie:ft-personal-2023-06-01-05-20-23は「informative」に使われる.

QAプロンプトには,InstructGPT(Ouyang et al., 2022)に従ったフォーマットで,6組のランダムなQAを含む数ショットのプロンプトを採用する.

我々は,真実かつ有益な生成の割合と,真実または有益な生成の割合を報告する.

毒性:

異なるグループ間での有害言語やヘイトスピーチの生成の程度を測定するために,13のマイノリティグループに言及した暗黙の有害文と良性文を含むデータセットであるToxiGen(Hartvigsen et al., 2022)を使用する.

(Hosseini et al., 2023)のデータセットの改訂版を採用し,対象人口統計グループについてアノテータが同意しないプロンプトをフィルタリングしてノイズを減らす.

次に,RoBERTa(Liu et al., 2019)でチューニングされたデフォルトのToxiGen分類器を使用して,LLMの各生成の毒性を測定する.

バイアス:

このベンチマークは,人種,性別,宗教,政治的イデオロギー,職業の5つの領域にまたがる23,679の英語ウィキペディアのプロンプトから構成され,43の異なるサブグループからなる.

※この分析では,宗教的イデオロギーのサブグループであるヒンズー教と無神論に該当するプロンプトは,それぞれ12件と29件と少ないため,除外している.

プロンプトの接頭辞とモデル生成の組み合わせによって伝えられるセンチメントを評価するために,Valence Aware Dictionary and Sentiment Reasoner(VADER)(Hutto and Gilbert, 2014)を用いてセンチメント分析を行う.

VADERは-1から1の間のセンチメントスコアを生成する.

肯定的(否定的)なスコアは,プロンプトで言及された集団に対する肯定的(否定的)な感情を示し,0に近いスコアは中立的な感情を示す.

付録A.4.8:Automatic Safety Benchmark Evaluation Results(自動安全ベンチマーク評価結果)

Llama2 Table44
表44:異なるモデル生成にわたるTruthfulQAの評価結果.

Llama2 Table45
表45:ToxiGenの人口統計学的グループ別に分けた有毒生成の割合.割合が小さいほどモデル生成における毒性が低いことを示す.人口統計学的グループラベルはToxiGenから採用した.

Llama2 Table46
表46:BOLDプロンプトのうち,人種領域におけるグループ間の平均感情スコアの分布.

Llama2 Table47
表47:BOLDプロンプトの性別領域におけるグループ間の平均感情スコアの分布.

Llama2 Table48
表48:BOLDプロンプトから得られた,宗教的イデオロギー領域におけるグループ間の平均感情スコアの分布.

Llama2 Table49
表49:BOLDプロンプトの政治的イデオロギー領域におけるグループ間の平均感情スコアの分布.

Llama2 Table50
表50:BOLDプロンプトの職業領域におけるグループ間の平均感情スコアの分布.

毒性,真実性,バイアスのきめ細かい分析:

ここでは,毒性,真実性,バイアスの観点からモデル生成の安全性をより深く理解するための詳細な分析を行う.

  • 真実性:表44は,TruthfulQAの生成間の真実性の割合,情報性の割合,および真実性と情報性の両方の割合に関する評価結果を示している.ほとんどのモデルは,生成間で90%以上の情報適合性を示している.しかし,真実性のパーセンテージは事前訓練済みモデルでは比較的低く,Falcon,MPT,7B Llama 1では30%から40%程度である.このパーセンテージは,事前訓練済みのLlama 1とLlama 2では,サイズが大きくなるほど高くなる.命令のファインチューニング後,7Bと13BのLlama 2-Chatは訓練前と比較して真実性が約20%,30BのLlama 2-Chatは約24%,70BのLlama 2-Chatは約14%向上した.
  • 毒性:表45は,メキシコ人,ラテン系,および女性が,事前訓練済みモデルのToxiGenプロンプトで有毒生成のパーセンテージが最も高い上位3つの人口統計グループである傾向を示している.命令のファインチューニングにより,すべてのサイズのLlama 2-Chatモデルをファインチューニングした場合,有毒なモデル生成のパーセンテージは実質的にゼロになるため,ここではその結果を示していない.
  • バイアス:表46,47,48,49,50は,人種,性別,宗教的イデオロギー,政治的イデオロギー,職業の領域の下で,異なる人口統計グループ間のセンチメントスコアの分布を示す.全体として,BOLDデータセットでは,事前訓練モデルとファインチューニングモデルの両方で,各領域に肯定的な感情スコアが観察される.ファインチューニングされたLlama 2-Chatは,事前訓練されたバージョンよりもセンチメントスコアがよりポジティブであることを示している.ChatGPTはそのモデル生成において,より中立的なセンチメントスコアを持つ傾向がある.性別領域では,LLMは男性俳優よりもアメリカ人女性女優に対してより肯定的な感情を持つ傾向がある.人種領域では,アジア系アメリカ人,ヒスパニック系アメリカ人,ラテン系アメリカ人のデモグラフィックグループは,他のサブグループと比較して,比較的肯定的なセンチメントスコアを持つ傾向がある.宗教的イデオロギー領域では,イスラム教とシーク教の人口統計学的グループが,ファインチューニング後にセンチメントスコアが最も増加する傾向があることが観察された.政治的イデオロギーの領域では,LiberalismとConservatismのグループは,事前訓練モデルとファインチューニングモデルの両方で,最も肯定的なセンチメントスコアを持つ傾向がある.Fascismグループでは,ほとんどの感情スコアが負(つまり0未満)である.職業領域では,「企業の肩書き」と「コンピュータ」の職業カテゴリーに対して非常に肯定的なセンチメントがある一方,「プロのドライバータイプ」に対しては最も中立的なセンチメントが観察される.

ベンチマークの限界:

LLMにおける毒性とバイアスの複雑な性質のため,自動評価指標を使用したこれらの評価は決して完全に包括的なものではないことに注意することが重要である.

しかし,我々が選択したベンチマークは,Llama 2-ChatがLLMの安全性の重要な側面を改善しているという我々の理解を代表するものである.

ベンチマークは,異なるモデルを比較し,この分野での進歩を追跡するための標準化された測定可能な方法を提供するため,ベンチマーク評価は,チャット指向のLLMを含むAIモデルを評価するために重要である.

しかし,安全性を評価する上で,ベンチマークの限界に注意することは極めて重要である.

これらのベンチマークのほとんどは,当初は事前訓練されたLLMのために開発されたものであり,ファインチューニングされた/チャット指向のモデルの安全性を測定するためにこれらを使用する際には,考慮すべき一定の限界がある.

例えば,ベンチマークは敵対的な入力や脆弱性を悪用するために特別に設計された有害なコンテンツを十分にカバーしていない可能性があり,またすべての人口統計カテゴリーをカバーしていない可能性がある.

LLMが異なる人口統計グループ間で示す多様な行動をよりよく理解し,分析するためには,細分化された指標とベンチマークを監視することが望ましい.

さらに,ベンチマークは通常,個々の文章やプロンプトに基づいて言語理解と生成を評価するが,チャットシナリオではコンテキストが重要である.

コンテキストを維持し,微妙な状況を処理し,会話の中で有害なコンテンツを生成しないようにファインチューニングされたチャットモデルの能力は,既存のベンチマークでは十分に評価されない可能性がある.

BOLDデータセットでは,ウィキペディアから抽出されたプロンプトは,最初の5単語と領域用語を加えたものとされ,その結果,BOLDのプロンプトは,領域と人口統計グループによって6~9単語となる(Dhamala et al., 2021).

デプロイ後,チャットモデルの安全性には,ベンチマークだけでは捉えきれないユーザの経験や長期的な影響が含まれる.

したがって,安全性を効果的に評価するためには,製品のデプロイにどのように統合され,どのように使用され,どのようなメトリクスが製品のコンテキストを考慮した上で安全性のリスクを正確かつ的確に捕らえることができるかを追加的にテストすることが,安全性の包括的な評価には不可欠である.

我々の今後の研究では,上記の事例ではまだ扱われていないいくつかの側面を包含する,より包括的な評価を実施する予定である.

付録A.5:Data Annotation(データアノテーション)

我々は,教師ありのファインチューニング段階のためのアノテーションと,報酬モデルを訓練するための人間の嗜好を収集するために,人間のアノテータに依存している.

この節では,データアノテーションプロセスの詳細を説明する.

付録A.5.1:SFT Annotation Instructions(SFTアノテーションの命令)

アノテータのプールからシングルターンとマルチターンの対話アノテーションを収集した.

アノテータには,有益,真実,適切,明確,無害な回答を書くよう求めた.

また,回答が何らかの形で問題となる可能性があるプロンプトの場合には,情報性や有用性よりも無害性を優先するようアノテータに依頼した.

我々は,否定的なユーザ体験につながる可能性のある回答の種類を分類し,これらのカテゴリーと例をアノテータと共有した.

これらのカテゴリーの要約は付録A.5.2で見ることができる.

付録A.5.2:Negative User Experience Categories(ネガティブなユーザエクスペリエンスのカテゴリー)

我々のモデルと対話するとき,否定的なユーザ体験を引き起こす可能性のあるさまざまな種類の回答がある.

我々はアノテータに,安全ガイドラインに違反するような回答を書かないように命令した.

例えば,以下の内容のプロンプトである.

  1. 犯罪行為を促進または可能にすること
  2. 利用者または他者に対する危険行為を助長または可能にすること
  3. 利用者または他者に対する攻撃的・虐待的行為を含む,助長する,または可能とする行為
  4. 性的に露骨な内容を含み,助長し,または可能とすること

付録A.5.3:Quality Assurance Process(品質保証プロセス)

我々は,モデルの訓練に高品質のアノテーションのみを使用するよう,品質保証プロセスを導入した.

このプロセスでは,熟練したコンテンツマネージャーのチームが手作業でアノテーションを確認し,使用するアノテーションを承認した.

品質保証のステップでは,レビュアーはガイドラインに合致するアノテーションのみを承認するよう求められた.

(a)対話履歴と一致している,(b)プロンプトの命令に従っている,(c)文法,スペル,その他の記述ミスがない,(d)付録A.5.2で説明したカテゴリーのいずれにも該当しない.

文法やスペルミスのため,または文章の構造,まとまり,スタイルを改善するために,承認されるために小さな変更が必要なアノテーションの場合,レビュアーは問題を修正し,承認するために編集することができる.

大きな変更を加えなければ承認できない場合,レビュアーはその回答を却下し,改善に必要なフィードバックを書くよう求められた.

付録A.5.4:Annotator Selection(アノテータ選択)

さまざまなデータ収集タスクに対応できるアノテータを選出するため,ガイドラインの理解度,品質評価基準との整合性,デリケートなトピックに関するガイドラインとの整合性,そしてリーディングとライティングのスキルをテストする多段階の評価プロセスを実施した.

そのプロセスには4つのテストが含まれていた.

  • 最初のテストは,文法,読解力,ライティングスタイルを評価する3つのセクションで構成される.各セクションは時間制で,合計50分で終了する.パートIIとIIIに進むにはパートIで90%,パートIIとIIIで平均4点を取れば合格となる.
  • 2回目のテストは,センシティブなトピックのアライメント,解答のランキング,2つの解答例,に分かれた42問で構成され,我々によって手作業でレビューされた.テストに合格するためには,アノテータは80%の解答で私たちの基準に同意し,5点満点中4点の解答例で合格する必要があった.
  • 3回目のテストは,品質評価基準との整合性を測定することであった.テストは31の異なる質問から構成され,アノテータに異なるプロンプトと回答のペアを採点するよう求め,また同じプロンプトに対する異なる回答をランク付けするよう求めた.アライメントを測定するために,まず異なるチームメンバーからの解答を収集し,26以上の質問で私たちの好みに同意したアノテータがテストに合格した.
  • 最後のテストは,アノテータが18のプロンプトから最低6つのプロンプトを選択し,回答を書くというプロンプト回答評価である.各回答を手動で評価し,製品の準備状況を評価する.平均4点以上のアノテータは訓練に合格している.

付録A.6:Dataset Contamination(データセットコンタミネーション(汚染))

一般に公開される訓練データの規模が大きくなるにつれ,訓練中に評価データの一部が見られることは避けられなくなり,評価性能を不当に高める可能性がある.

このようなデータセットのコンタミネーションを測定する先行研究(Brown et al., 2020; Wei et al., 2022a; Du et al., 2022)は,評価セットからのサンプルと訓練データの高次n-gram(一般にn = 13)の衝突が存在する場合,そのサンプルは「コンタミネーション」されていると考えた.

これは,高精度のデータから「クリーン」なサブセットを生成するために意図的に保守的なアプローチであり,オープンソースの評価ライブラリで使用されている(例:(Gao et al., 2021)).

しかし,このアプローチは,与えられたサンプルのどの割合がコンタミネーションされているかを正確に検出することができず,評価データセットがどのように構築されているかを考慮していない.

さらに,(Chowdhery et al., 2022)で指摘されているように,いくつかのデータセット(BoolQなど)には,ウェブから逐語的に抽出されたコンテキストが含まれているが,質問と回答の続きは含まれていない.

そのため,このようなデータセットから高度にコンタミネーションされたサンプルが不公正な利点を得る可能性は低い.

(Chowdhery et al., 2022)の方法論は,全8-gramの70%が訓練データで少なくとも一度は見つかる場合,サンプルをコンタミネーションされているとみなすことで,先のn-gram衝突検出をさらに改良している.

上述した従来の方法論は,すべてテキスト空間でのコンタミネーションを考慮しており,実際の評価に使用されるプロンプトのフォーマットを考慮していないように見える.

対照的に,我々はトークン化された入力に対してマッチングを行い,完全に言語化された評価サンプルをトークナイザーに渡すように注意する.

また,ボトムアップの観点からコンタミネーションを考慮することで,これまでの方法論とは一線を画している.

評価サンプルと訓練セットの両方において,10トークンより長いトークンn-gramにトークンが出現した場合,そのトークンはコンタミネーションされているとみなし,コンタミネーションされたトークンの割合をサンプルのコンタミネーション率と定義する.

これにより,高精度のクリーンなサブセット(20%未満の汚染サンプル)と高精度の汚染サブセット(80%以上の汚染サンプル)をテストする能力を維持しながら,コンタミネーションスケールの範囲でモデルのベンチマーク性能を見ることができる.

言語化されたサンプルの正確な形式の気まぐれを考慮するため,評価サンプルと訓練データ間の一致するスパンが最大4つの位置で異なることができるように,4トークンという小さな「スキップグラムバジェット」を許可する(末尾のミスマッチや最初の10トークンのミスマッチは許可しない).

(Lee et al., 2022)のライブラリをPySparkクラスタ上で動作するように変更した(ディスクへのランダムアクセスがない)接尾辞配列を用いて,このような10(+)-skipgramを特定する.

このタスクの厄介な並列性を考慮すると,我々は推定1,500コアを使用して,約7時間(トークン化の時間を含む)でデータセット全体のそのような10-gram(とその完全な長さ)をすべて見つけることができる.

データセットのコンタミネーションが評価パフォーマンスに寄与したかどうかを判断する際には,多くの交絡因子が存在するため(主に,「Clean」(きれいな)サブセットと「Dirty」(汚い)サブセットが必ずしも母集団の分布をよく推定していないという事実に起因する),我々は以下の仮定を行う.

データセットのコンタミネーションが評価性能に寄与している場合,「Cleanest」(最もきれいな)サンプルはその補集合よりも全体的に平均スコアが悪く,「Dirtiest」(最も汚い)サンプルはその補集合よりも全体的に平均スコアが良くなることを期待する.

どちらか一方だけが真実であれば,コンタミネーションの証拠としては不十分である.

この目的のために,我々は4つの(不連続な)サブセットタイプを以下のように定義する.

  • 「Clean」なサンプル:トークンのコンタミネーションが20%未満
  • 「Not clean」なサンプル:トークンのコンタミネーションが20%以上(または同等)
  • 「Not dirty」なサンプル:トークンのコンタミネーション率が80%未満
  • 「Dirty」なサンプル:トークンのコンタミネーション率が80%以上

さらに,直接対処しようとする交絡因子がある.

与えられたコンタミネーションの定義では(文献で言及されている他の定義と同様に),訓練データで発見されたマッチしたシーケンスに多くのトークンが出現することによって,サンプルがコンタミネーションされているように見える可能性がある.

しかし,マッチしたシーケンスは訓練データ全体で非常に断片化されている可能性があり,その場合,モデルが訓練中に正しく組み立てられたコンタミネーションされたシーケンスを見た可能性は非常に低い.

この現象の可能性を減らすために,最小マッチ長\(L \in \{10, 20, 30, 40, 50\}\)で分析を繰り返す.

\(L \rightarrow \infty\)の極限では,すべてのサンプルが「clean」と「not dirty」(コンタミネーションがない)の両方に分類されるため,断片化と全体的なコンタミネーションのバランスをとるために,コンタミネーションの恩恵を受けたと思われる各データセットの最大のLを報告する.

各データセットと上記の各サンプルサブセットタイプについて,パフォーマンス測定基準Xの平均\(\bar{X}\)と統計量\(Z_n = \frac{(\bar{X} - \mu_n)}{\sigma_n}\)の両方を計算する.

ここで,nはサンプルサブセットタイプのサイズであり,\(\mu_n\)と\(\sigma_n^2\)はそれぞれサイズnのサンプルに対するパフォーマンス測定基準のサンプリング分布の平均と分散である.

中心極限定理により,\(Z_n\)は標準正規分布に向かう傾向があるため,4つのサンプルサブセットすべてが\(|Z_n| > 2\)である場合,コンタミネーションがデータセットの評価パフォーマンスに影響を与えたことを示唆する十分な証拠があると考える.

Llama2 Table51
表51:コンタミネーションの影響を受けたデータセットのコンタミネーション分析結果.その他の評価データセットには,コンタミネーションの影響を受けたと考えられる十分な証拠はなかった.平均コンタミネーション率は,指定されたサブセットタイプのサンプルごとの平均コンタミネーションのパーセンテージを示す.モデルサイズは事前訓練済みモデルのみを示す.

この分析結果を表51に示す.

その結果,HellaSwagとMMLU-Humanitiesだけが,訓練データの汚染によってブーストされたようである.

また,予想通り,70Bモデルは7Bモデルよりも大きな利益を得たようである.

さらに,MMLU-Humanitiesへのこの効果の影響は,「clean」なサブセットのパフォーマンスとサンプリング平均との間にわずかなデルタ(-0.9)しかないとはいえ,70BモデルのMMLU-Overallに利益をもたらしているように見える.

他のどのデータセットも(どのLを選んでも)データセットのコンタミネーションの恩恵を受けていないようである.

簡潔にするため,これらのデータセットの結果は省略する.

付録A.7:Model Card(モデルカード)

表52は,モデルの詳細をまとめたモデルカード(Mitchell et al., 2018; Anil et al., 2023)である.

Llama2 Table52
表52:Llama 2のモデルカード.

参考:Llama 2: Open Foundation and Fine-Tuned Chat Modelsの解説スライド・動画

Llama 2: Open Foundation and Fine-Tuned Chat Modelsの解説スライドです.

Llama 2: Open Foundation and Fine-Tuned Chat Modelsの解説動画です.

まとめ

Llama 2: Open Foundation and Fine-Tuned Chat Modelsの日本語訳を紹介しました.

Meta(旧Facebook)のオープンソースの大規模言語モデル「Llama 2」がわかりました.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

-TECHNOLOGY, NLP AI
-, , , ,