【日本語訳】Training language models to follow instructions with human feedback【InstructGPT】【OpenAI】

悩んでいる人

Training language models to follow instructions with human feedbackの日本語訳を教えて！

こういった悩みにお答えします．

本記事の信頼性

リアルタイムシステムの研究歴12年．
東大教員の時に，英語でOS（Linuxカーネル）の授業．
2012年9月～2013年8月にアメリカのノースカロライナ大学チャペルヒル校（UNC）コンピュータサイエンス学部で客員研究員として勤務．C言語でリアルタイムLinuxの研究開発．
プログラミング歴15年以上，習得している言語: C/C++，Python，Solidity/Vyper，Java，Ruby，Go，Rust，D，HTML/CSS/JS/PHP，MATLAB，Assembler (x64，ARM)．
東大教員の時に，C++言語で開発した「LLVMコンパイラの拡張」，C言語で開発した独自のリアルタイムOS「Mcube Kernel」をGitHubにオープンソースとして公開．
2020年1月～現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務．2022年6月～現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO．
最近は自然言語処理AIとイーサリアムに関する有益な情報発信に従事．

（AI全般を含む）自然言語処理AIの論文の日本語訳や，AIチャットボット（ChatGPT，Auto-GPT，Gemini（旧Bard）など）の記事を50本以上執筆．アメリカのサンフランシスコ（広義のシリコンバレー）の会社でプロンプトエンジニア・マネージャー・Quality Assurance（QA）の業務委託の経験あり．
（スマートコントラクトのプログラミングを含む）イーサリアムや仮想通貨全般の記事を200本以上執筆．イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり．

こういった私から学べます．

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ．

: 【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト【初心者，中級者，上級者】【Triton/Mojo言語】【データサイエンス】

こういった悩みにお答えします．こういった私から学べます．【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト AIのプログラミング言語「C++/Python言語」を学 ...

続きを見る

独学が難しいあなたは，AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう．後悔はさせません！

: AI（人工知能）を学べるおすすめのオンラインプログラミングスクール3社【AIチャットボットやAIバスケロボが作れます】

こういった悩みにお答えします．こういった私から学べます．今すぐ学びたいあなたは，AIを学べるおすすめのオンラインプログラミングスクール3社は下表になります．オンラインプログラミングスクール価格お ...

続きを見る

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のAIエンジニアのおすすめ求人サイト【転職エージェント】【C++/Python言語】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のAIエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． AIエンジニアになるためには，主にC++/Pytho ...

続きを見る

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のプロンプトエンジニアのおすすめ求人サイト【転職エージェント】【AIチャットボット，ChatGPT，Auto-GPT，Gemini（旧Bard）】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のプロンプトエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． ※プロンプトエンジニアのことを，AIトレーナー ...

続きを見る

Training language models to follow instructions with human feedbackの日本語訳を紹介します．

OpenAIのInstructGPTがわかります．

※図表を含む論文の著作権はTraining language models to follow instructions with human feedbackの著者に帰属します．

Training language models to follow instructions with human feedbackの目次は以下になります．

Abstract
1章：Introduction
2章：Related work
3章：Methods and experimental details
4章：Results
5章：Discussion
References
付録A：Additional prompt data details
付録B：Additional human data collection details
付録C：Additional model details
付録D：Automatic evaluation details
付録E：Additional results
付録F：Model samples

Training language models to follow instructions with human feedbackを解説しつつ，私の考えも語ります．

Training language models to follow instructions with human feedbackの概要と私の日本語訳は以下になります．

Making language models bigger does not inherently make them better at following a user's intent.
言語モデルを大きくした場合ても，ユーザの意図に沿うことができるようになるとは限らない．

For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user.
例えば，大規模言語モデルは，真実味のない，有害な，あるいは単にユーザにとって役に立たない出力を生成することがある．

In other words, these models are not aligned with their users.
言い換えれば，これらのモデルはユーザとアラインメントしていない．

In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback.
本論文では，人間のフィードバックによってファインチューニングすることで，幅広いタスクにおいて言語モデルをユーザの意図にアラインメントする道を示す．

Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning.
まず，ラベラーが書いたプロンプトとOpenAI APIを通じて提出されたプロンプトのセットから始め，我々はラベラーが望ましいモデルの動作を示すデータセットを収集し，これを用いて教師あり学習でGPT-3をファインチューニングする．

We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback.
さらに，モデルの出力に対するランキングのデータセットを収集し，人間のフィードバックからの強化学習を用いて，この教師ありモデルをさらにファインチューニングする．

We call the resulting models InstructGPT.
このようにして得られたモデルをInstructGPTと呼ぶ．

In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters.
我々のプロンプト分布に対する人間の評価では，パラメータが100倍以上少ないにもかかわらず，1.3BパラメータのInstructGPTモデルの出力は，175BのGPT-3の出力よりも好まれた．

Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets.
さらに，InstructGPTモデルは，真実性の向上と有害な出力生成の削減を示し，公開NLPデータセットでの性能後退は最小限である．

Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.
InstructGPTはまだ単純なミスを犯すものの，我々の結果は，人間のフィードバックによるファインチューニングが，言語モデルを人間の意図にアラインメントするための有望な方向性であることを示している．

https://arxiv.org/abs/2203.02155

私の日本語訳の注意点は以下になります．

概要は英語と日本語を両方掲載しましたが，本文は私の日本語訳のみを掲載していること（英語で読みたいあなたは原文を読みましょう！）
基本的には原文の直訳ですが，わかりにくい箇所は意訳や説明を追加している箇所があること
原文の「Acknowledgements」（謝辞）は省略していること
本文中に登場する表記「(Bender et al., 2021; Bommasani et al., 2021; Kenton et al., 2021; Weidinger et al., 2021; Tamkin et al., 2021; Gehman et al., 2020)」などは参考文献ですので，興味がある方は本記事の参考文献を参照されたいこと

それでは，Training language models to follow instructions with human feedbackの本文を読みすすめましょう！

1章：Introduction（はじめに）

InstructGPT Figure1 — 図1：APIプロンプト分布における各種モデルの人間による評価．各モデルからの出力が175B SFTモデルからの出力よりも好まれる頻度によって評価．我々のInstructGPTモデル（PPO-ptx）および事前訓練なしで訓練されたその派生形（PPO）は，GPT-3ベースライン（GPT，GPT prompt）を大幅に上回り，我々の1.3B PPO-ptxモデルからの出力は175B GPT-3の出力よりも好ましい．論文中のエラーバーは95%信頼区間である．

大規模言語モデル（LLMs：Large Language Models）は，タスクのいくつかの例を入力として与えれば，自然言語処理（NLP：Natural Language Processing）タスクの範囲を実行するように「プロンプト」ことができる．

しかし，これらのモデルは，事実をでっち上げたり，偏ったテキストや有害なテキストを生成したり，単にユーザの命令に従わないなど，意図しない動作を示すことが多い(Bender et al., 2021; Bommasani et al., 2021; Kenton et al., 2021; Weidinger et al., 2021; Tamkin et al., 2021; Gehman et al., 2020)．

これは，最近の多くの大規模言語モデルで用いられている言語モデリングの目的である「インターネット上のウェブページの次のトークンを予測する」が，「ユーザの命令に親切かつ安全に従う」という目的とは異なるためである(Radford et al., 2019; Brown et al., 2020; Fedus et al., 2021; Rae et al., 2021; Thoppilan et al., 2022)．

このように，言語モデリングの目的がズレている（ミスアラインメント）と言うことである．

このような意図しない行動を回避することは，何百ものアプリケーションに展開され使用される言語モデルにとって特に重要である．

ユーザの意図に従って行動するように言語モデルを訓練することで，言語モデルのアラインメントを進展させる(Leike et al., 2018)．

これは，命令に従うといった明示的な意図と，真実であること，偏見や毒性，その他の有害性を持たないといった暗黙的な意図の両方を包含している．

(Askell et al., 2021)の言葉を使えば，我々は言語モデルが役に立つ（ユーザのタスク解決を助けるべき），正直である（情報を捏造したりユーザを誤解させたりすべきでない），無害である（人々や環境に物理的，心理的，社会的害を与えてはならない）ことを望んでいる．

これらの基準の評価については，3.6節で詳しく説明する．

InstructGPT Figure2 — 図2：本手法の3つのステップを示す図：（1）教師ありファインチューニング（SFT：Supervised Fine-Tuning），（2）報酬モデル（RM：Reward Model）学習，（3）この報酬モデルに対する近傍方策最適化（PPO：Proximal Policy Optimization）による強化学習である．青矢印は，このデータが我々のモデルの1つを訓練するために使用されることを示す．ステップ2において，ボックスA～Dは，ラベラーによってランク付けされたモデルからのサンプルである．本手法の詳細については，3章を参照．

我々は，言語モデルを揃えるためのファインチューニングアプローチに焦点を当てている．

具体的には，人間のフィードバックからの強化学習（RLHF：Reinforcement Learning from Human Feedback）(Christiano et al., 2017; Stiennon et al., 2020)を用いて，GPT-3を幅広いクラスの書かれた命令に従うようにファインチューニングする（図2参照）．

この手法は，人間の好みを報酬信号として用いて，モデルをファインチューニングするものである．

我々はまず，スクリーニングテストの成績に基づいて，データのラベル付けを行う40人のコントラクターチームを雇う（詳細は3.4節と付録B.1参照）．

次に，OpenAI APIに提出された（主に英語の）プロンプトに対して，人間が書いた望ましい出力動作のデモのデータセット，およびラベラーが書いたプロンプトを収集し，これを教師あり学習のベースラインの訓練に使用する．

※具体的には，OpenAI API Playground上のInstructGPTモデルの初期バージョンに提出されたプロンプトを対象に訓練する（このモデルはデモデータのみを使用して訓練されている）．個人情報（PII：Personally Identifiable Information）を含むプロンプトをフィルタリングしている．

次に，より大きなAPIプロンプトのセットで，モデルからの出力を人間がラベル付けして比較したデータセットを収集する．

そして，このデータセットで報酬モデル（RM：Reward Model）を訓練し，ラベラーがどのモデル出力を好むかを予測する．

最後に，このRMを報酬関数として使用し，PPOアルゴリズム(Schulman et al., 2017)を使用してこの報酬を最大化するように教師あり学習ベースラインをファインチューニングする．

このプロセスを図2で説明する．

この手順は，GPT-3の動作を，「人間の価値」という広範な概念ではなく，特定のグループの人々（主に私たちのラベラーと研究者）の表明された好みにアラインメントするものである．

この点については，5.2節で詳しく説明する．

その結果生まれたモデルを「InstructGPT」と呼ぶことにする．

主に，訓練データには含まれない，Hold-out顧客からのプロンプトで構成されるテストセットにおいて，ラベラーがモデルの出力品質を評価することによって，モデルを評価している．

また，様々な公開NLPデータセットに対する自動評価も行っている．

モデルサイズは3種類（1.3B，6B，175Bパラメータ）で，すべてのモデルがGPT-3アーキテクチャを使用している．

主な結果は以下の通りである．

ラベラーはGPT-3からの出力よりもInstructGPTの出力を著しく好む．

テストセットでは，パラメータが100倍以上少ないにもかかわらず，1.3BパラメータのInstructGPTモデルの出力は，175BパラメータのGPT-3の出力よりも好まれる．

これらのモデルは同じアーキテクチャを持ち，InstructGPTが我々の人間データでファインチューニングされているという事実だけが異なる．

この結果は，GPT-3にfew-shotプロンプトを追加して，命令に従うことを得意とさせた場合でも変わらない．

175BのInstructGPTからの出力は，85±3%の確率で175BのGPT-3出力より好まれ，71±4%の確率でfew-shotの175B GPT-3より好まれる．

また，InstructGPTのモデルは，ラベラーにより適切な出力を生成し，より確実に命令の明示的な制約に従う．

InstructGPTモデルは，GPT-3よりも真実性の向上を示している．

TruthfulQAベンチマークにおいて，InstructGPTはGPT-3の約2倍の頻度で真実で有益な答えを生成する．

我々の結果は，GPT-3に対して敵対的に選択されなかった質問のサブセットにおいても同様に強力である．

我々のAPIプロンプト分布の「クローズドドメイン」タスクで，出力が入力に存在しない情報を含むべきでない場合（要約やクローズドドメインQAなど），InstructGPTモデルはGPT-3の約半分の頻度で入力に存在しない情報を作り上げる（それぞれ21% vs. 41%のハルシネーション率）．

InstructGPTはGPT-3よりも毒性で小さな改善を示しているが，偏りはない．

毒性を測定するために，RealToxicityPromptsデータセット(Gehman et al., 2020)を使用し，自動評価と人間による評価の両方を実施した．

InstructGPTモデルは，respectful promptの場合にGPT-3よりも毒性出力を約25%少なく生成した．

InstructGPTは，Winogender(Rudinger et al., 2018)とCrowSPairs(Nangia et al., 2020)データセットではGPT-3に対して有意に改善しない．

RLHFのファインチューニング手順を変更することで，公開NLPデータセットでの性能後退を最小限に抑えることができる．

RLHFのファインチューニング中に，特定の公開NLPデータセット，特にSQuAD(Rajpurkar et al., 2018)，DROP(Dua et al., 2019)，HellaSwag(Zellers et al., 2019)，WMT 2015仏英翻訳(Bojar et al., 2015)でGPT-3と比較して性能の後退が観測された．

これは，我々のアライメント手順は，我々が気にする可能性のある特定のタスクでの性能の低下という代償を伴うので，「アライメント税」（alignment tax）の一例である．

これらのデータセットでは，ラベラーの好みスコア（Preference Scores）を損なうことなく，PPO更新と事前訓練分布の対数尤度を増加させる更新（PPO-ptx）を混合することにより，性能後退を大幅に削減することができる．

公開NLPデータセットは，言語モデルがどのように使用されるかを反映していない．

我々は，我々の人間の好みデータ（すなわちInstructGPT）でファインチューニングしたGPT-3と，公開NLPタスクの2つの異なるコンピレーション：FLAN(Wei et al., 2021)とT0(Sanh et al., 2021)（特にT0++派生形）でファインチューニングしたGPT-3を比較する．

これらのデータセットは，様々なNLPタスクと，各タスクに対する自然言語の命令から構成されている．

APIプロンプト分布において，我々のFLANとT0モデルは我々のSFTベースラインよりもわずかに性能が悪く，ラベラーはこれらのモデルよりもInstructGPTを大幅に好む（InstructGPTは我々のベースラインに対して73.4±2%の勝率であり，我々のバージョンのT0とFLANではそれぞれ26.8±2%と29.8±2%である）．

InstructGPTのモデルは，RLHFのファインチューニング分布以外の命令に対しても有望な汎化を示している．

InstructGPTの能力を定性的に調査した結果，コードを要約する命令に従うことができ，コードに関する質問に答えることができ，ファインチューニング分布においてこれらの命令が非常に稀であるにもかかわらず，異なる言語の命令に従うことがわかった．

一方，GPT-3は，これらのタスクを行うことができるが，より慎重なプロンプトが必要であり，通常，これらの領域の命令に従うことはない．

この結果は，我々のモデルが「命令に従う」という概念を汎化できることを示唆するものであり，非常に興味深い．

GPT-3は，直接の教師信号がほとんどないタスクでも，ある程度のアライメントを維持することができる．

InstructGPTはまだ単純なミスを犯す．

例えば，InstructGPTはまだ命令に従わなかったり，事実をでっち上げたり，簡単な質問に対して長々とした答えをしたり，誤った前提の命令を見抜けなかったりする．

全体として，人間の好みを用いて大規模言語モデルをファインチューニングすることで，さまざまなタスクでの挙動が大幅に改善されることが示されたが，その安全性と信頼性を向上させるためには多くの課題が残されている．

本論文の残りの部分は以下のように構成されている．

まず2章で関連研究を詳述し，3章で我々の手法と実験の詳細を紹介する．

具体的には，3章では，高レベルの方法論（3.1節），タスクとデータセットの詳細（3.2節，3.3節），人間によるデータ収集（3.4節），モデルの学習方法（3.5節），評価方法（3.6節）を紹介する．

4章では，APIプロンプト分布の結果（4.1節），公開NLPデータセットの結果（4.2節），定性的な結果（4.3節）の3つのパートに分けて，結果を紹介する．

最後に，アライメント研究への示唆（5.1節），アライメント対象（5.2節），制限（5.3節），未解決問題（5.4節），および本研究の広範な影響（5.5節）など，5章で我々の研究の拡張考察を行う．

2章：Related work（関連研究）

人間のフィードバックからのアライメントと学習に関する研究．

我々は，モデルを人間の意図に合わせるためのこれまでの技術，特に人間のフィードバックからの強化学習（RLHF：Reinforcement Learning from Human Feedback）に基づいている．

もともとは，シミュレーション環境やAtariゲームで単純なロボットを訓練するために開発されたが(Christiano et al., 2017; Ibarz et al., 2018)，最近ではテキストを要約する言語モデルのファインチューニングに適用されている(Ziegler et al., 2019; Stiennon et al., 2020; Böhm et al., 2019; Wu et al., 2021)．

この研究は，今度は，対話(Jaques et al., 2019; Yi et al., 2019; Hancock et al., 2019)，翻訳(Kreutzer et al., 2018; Bahdanau et al., 2016)，意味解析(Lawrence and Riezler, 2018)，ストーリー生成(Zhou and Xu, 2020)，レビュー生成(Cho et al., 2018)，証拠抽出(Perez et al., 2019)といったドメインで人間のフィードバックを報酬として使う同様の研究の影響を受けている．

(Madaan et al., 2022)は，プロンプトを拡張し，GPT-3の性能を向上させるために，書面による人間のフィードバックを使用している．

また，規範的事前分布を持つRLを使用して，テキストベースの環境におけるエージェントのアラインメントに関する研究も行われている(Nahian et al., 2021)．

我々の研究は，RLHFの直接的な応用として，幅広い言語タスクの言語モデルのアライメントに利用することができる．

言語モデルがアラインメントすることの意味は何かという問題も，最近注目されている(Gabriel, 2020)．

(Kenton et al., 2021)は，有害なコンテンツの生成や，指定されない目的のゲームなど，ミスアライメントに起因する言語モデルの行動問題をカタログ化している．

同時進行で，(Askell et al., 2021)は，アライメント研究のテストベッドとして言語アシスタントを提案し，いくつかの単純なベースライン，およびそのスケーリング特性を研究している．

命令に従うように言語モデルを訓練する．

我々の研究は，言語モデルにおけるクロスタスク汎化に関する研究にも関連しており，言語モデルは広範な公開NLPデータセット（通常は適切な命令が前置されている）でファインチューニングされ，異なるNLPタスクのセットで評価される．

この領域では様々な研究が行われており(Yi et al., 2019; Mishra et al., 2021; Wei et al., 2021; Khashabi et al., 2020; Sanh et al., 2021; Aribandi et al., 2021)，訓練と評価データ，命令のフォーマット，事前訓練済みモデルのサイズ，その他の実験の詳細が異なっている．

研究間で一貫しているのは，様々なNLPタスクで言語モデルをファインチューニングし，命令を与えることで，zero-shotとfew-shotの両方で，保持したタスクの下流性能が向上するということである．

また，ナビゲーション用の命令追従に関する関連する研究があり，モデルが自然言語の命令に従って模擬環境でのナビゲーションを行うように訓練されている(Bahdanau et al., 2018; Abramson et al., 2020; Zhao et al., 2021)．

言語モデルの弊害を評価する．

言語モデルの挙動を修正する目的は，これらのモデルが実世界に展開されたときの害を軽減することである．

これらのリスクは広範囲に渡って記録されている(Bender et al., 2021; Bommasani et al., 2021; Kenton et al., 2021; Weidinger et al., 2021; Tamkin et al., 2021)．

言語モデルは，偏った出力を生成したり(Dhamala et al., 2021; Liang et al., 2021; Manela et al., 2021; Caliskan et al., 2017; Kirk et al., 2021)，プライベートデータを漏洩したり(Carlini et al., 2021)，誤情報を生成したり(Solaiman et al., 2019; Buchanan et al., 2021)，悪意を持って使用されたりすることがある．

徹底したレビューについては，読者に(Weidinger et al., 2021)へと誘導する．

言語モデルを特定のドメインに展開することは，例えば対話システムにおいて新たなリスクと課題を生じさせる(Henderson et al., 2018; Xu et al., 2020; Dinan et al., 2019b)．

特に毒性(Gehman et al., 2020)，ステレオタイプ(Nadeem et al., 2020)，社会的バイアス(Dhamala et al., 2021; Nangia et al., 2020; Rudinger et al., 2018)に関して，これらの害を具体的に評価するためのベンチマーク構築を目指す，新興ながら成長している分野がある．

言語モデルの行動に対する善意の介入が副作用をもたらすことがあるため，これらの問題に対して大きな進展をもたらすことは難しい(Welbl et al., 2021; Blodgett et al., 2020)．

例えば，言語モデルの毒性を減らす努力は，訓練データにおける偏見的な相関関係により，代表的でないグループからのテキストをモデル化する能力を低下させる可能性がある(Xu et al., 2021)．

言語モデルの挙動を変更して害悪を緩和する．

言語モデルの生成挙動を変更する多くの方法がある．

(Solaiman and Dennison, 2021)は，値をターゲットにした小さなデータセットで言語モデルをファインチューニングし，質問応答タスクでこれらの値を遵守するモデルの能力を向上させる．

(Ngo et al., 2021)は，言語モデルが研究者が書いたトリガーフレーズのセットを生成する条件付き尤度が高い文書を削除することで，事前訓練データセットをフィルタリングする．

このフィルタリングされたデータセットで訓練すると，言語モデルの性能はわずかに低下するものの，彼らの言語モデルは有害なテキストをより少なく生成する．

(Xu et al., 2020)は，チャットボットの安全性を向上させるために，データフィルタリング，生成中の特定の単語やn-gramのブロック，安全性に特化した制御トークン(Keskar et al., 2019; Dinan et al., 2019a)，human-in-the-loopでデータ収集(Dinan et al., 2019b)などの様々なアプローチを使用している．

言語モデルによる生成バイアスを緩和するための他のアプローチは，単語埋め込み正則化(Liu et al., 2019; Huang et al., 2019)，データ拡張(Liu et al., 2019; Dinan et al., 2019a; Sheng et al., 2019)，敏感トークン上の分布をより均一化するヌル空間投影(Liang et al., 2021)，異なる目的関数(Qian et al., 2019)または因果調停解析(Vig et al., 2020)が挙げられる．

また，第2の（通常はより小さい）言語モデルを用いて言語モデルの生成をステアリングするタスクもあり(Dathathri et al., 2019; Krause et al., 2020)，このアイデアの変形が言語モデルの毒性を減らすことに適用されている(Schick et al., 2021)．

3章：Methods and experimental details（方法と実験の詳細）

3.1節：High-level methodology（ハイレベルな方法論）

我々の方法論は，文体継続と要約のドメインで適用した(Ziegler et al., 2019)と(Stiennon et al.,2020)の方法論に従う．

我々は，事前に訓練された言語モデル(Radford et al., 2019; Brown et al., 2020; Fedus et al., 2021; Rae et al., 2021; Thoppilan et al., 2022)，我々のモデルがアラインメント出力を生成したいプロンプトの分布，および訓練済みの人間のラベル付けチーム（詳細は3.4節参照）から始める．

次に，以下の3つのステップを適用する（図2）．

ステップ1：デモデータを収集し，教師あり方策を訓練する．

ラベラーは，入力されたプロンプトの分布（分布の詳細については3.2節を参照）に対して，望ましい動作のデモを提供する．

このデータをもとに，教師あり学習で事前訓練したGPT-3モデルをファインチューニングする．

ステップ2：比較データを収集し，報酬モデルを訓練する．

ラベラーが与えられた入力に対してどの出力を好むかを示す，モデル出力間の比較のデータセットを収集する．

そして，人間が好む出力を予測する報酬モデルを訓練する．

ステップ3：PPOを使用して報酬モデルに対して方策を最適化する．

RMの出力をスカラー報酬として使用する．

PPOアルゴリズム(Schulman et al., 2017)を用いて，この報酬を最適化するように，教師あり方策をファインチューニングする．

ステップ2と3は連続的に繰り返すことができる．

現在の最適な方策について，より多くの比較データを収集し，新しいRMと新しい方策の訓練に使用する．

実際には，比較データのほとんどは教師あり方策から得られ，一部はPPO方策から得られる．

3.2節：Dataset（データセット）

我々のプロンプトデータセットは，主にOpenAI APIに提出されたテキストプロンプトで構成されており，特にPlaygroundインターフェースでInstructGPTモデルの初期バージョン（我々のデモデータのサブセットで教師あり学習により訓練されたもの）を使用したものである．

※これは，OpenAIが主催する，API上のモデルと直接対話するためのインターフェースである．https://platform.openai.com/playgroundを参照．

Playgroundを利用する顧客は，InstructGPTモデルが使用されるたびに，定期的な通知によって，自分のデータがさらなるモデルの訓練に使用される可能性があることを知らされた．

本論文では，プロダクションでAPIを使用する顧客からのデータは使用しない．

長い共通プレフィックスを持つプロンプトをチェックすることで，プロンプトの重複を発見的に排除し，プロンプトの数をユーザIDごとに200個に制限している．

また，ユーザIDに基づいて訓練，検証，テストの分割を行い，検証セットとテストセットには，訓練セットに含まれるユーザのデータが含まれないようにする．

モデルが顧客の機密情報を学習するのを避けるため，個人情報（PII：Personally Identifiable Information）については，訓練スプリット内のすべてのプロンプトをフィルタリングする．

最初のInstructGPTモデルを訓練するために，我々はラベラーにプロンプトを自分で書くように依頼した．

これは，プロセスを起動するために，命令ライクなプロンプトの初期ソースが必要であり，この種のプロンプトはAPIの通常のGPT-3モデルにはあまり提出されなかったからである．

我々はラベラーに3種類のプロンプトを書いてもらった．

Plain：ラベラーに任意のタスクを考えてもらうだけで，タスクの多様性は十分に確保されている．
Few-shot：ラベラーに命令と，その命令に対する複数のクエリとレスポンスのペアを考えさせている．
User-based：OpenAI APIへのウェイティングリスト申請で，いくつかのユースケースを記載してもらった．これらのユースケースに対応するプロンプトを，ラベラーに考えてもらった．

これらのプロンプトから，ファインチューニングに使用する3種類のデータセットを作成した．

SFTデータセット：SFTモデルの訓練に使用するラベラーデモを含む．
RMデータセット：RMの訓練に使用したモデル出力のラベラーランキングを含む．
PPOデータセット：RLHFのファインチューニングのための入力として使用され，人間のラベルを一切含まない．

SFTデータセットには約13kの訓練プロンプト（APIとラベラーで書かれたもの）が，RMデータセットには約33kの訓練プロンプト（APIとラベラーで書かれたもの）が，PPOデータセットには約31kの訓練プロンプト（APIのみから）が含まれている．

データセットのサイズの詳細は，表6に記載されている．

InstructGPT Table1 — 表1：APIプロンプトデータセットのユースケースカテゴリーの分布．

InstructGPT Table2 — 表2：APIプロンプトデータセットに含まれる例示的なプロンプト．これらは実際の使用例から着想を得た架空の例である．詳細は付録A.2.1を参照．

データセットの構成を知るために，表1では，コントラクターによってラベル付けされたAPIプロンプト（特にRMデータセット）のユースケースのカテゴリー分布を示す．

ほとんどのユースケースは，分類やQAではなく，生成的なものである．

また，表2には，いくつかの例示的なプロンプト（InstructGPTモデルに提出されたプロンプトの種類を模倣して研究者によって書かれたもの）を示している．

さらにInstructGPTモデルに提出されたプロンプトを付録A.2.1に，GPT-3モデルに提出されたプロンプトを付録A.2.2に示す．

データセットの詳細については付録Aに示す．

3.3節：Tasks（タスク）

我々の訓練タスクは2つのソースから得られたものである：（1）ラベラーによって書かれたプロンプトのデータセットと，（2）我々のAPI上で初期のInstructGPTモデルに提出されたプロンプトのデータセット（表6参照）．

これらのプロンプトは非常に多様で，生成，質問応答，対話，要約，抽出，その他の自然言語タスクが含まれる（表1参照）．

我々のデータセットは96%以上が英語だが，4.3節では，我々のモデルが他の言語の命令に応答し，コーディングタスクを完了する能力も調査している．

各自然言語プロンプトでは，タスクは自然言語の命令（例：「賢いカエルについての物語を書け」）によって直接指定されることが最も多いが，少数の例（例：カエルの物語の2つの例を与え，モデルに新しい物語の生成をプロンプトする）または暗黙の継続（例：カエルについての物語の開始を与える）により間接的に指定することも可能である．

いずれの場合も，ラベラーには，プロンプトを書いたユーザの意図を推察するよう最善を尽くし，タスクが非常に不明瞭な入力はスキップするよう求めている．

さらに，ラベラは，回答の真実性などの暗黙の意図や，偏った言葉や有害な言葉などの潜在的に有害な出力も考慮し，我々が提供する命令（付録B参照）と最善の判断に導かれる．

3.4節：Human data collection（人間のデータ収集）

実証データと比較データを作成し，主要な評価を行うために，我々はUpworkとScaleAIを通じて約40人のコントラクターのチームを雇った．

要約というタスクに関する人間の好みデータを収集した先行研究(Ziegler et al., 2019; Stiennon et al., 2020; Wu et al., 2021)と比較して，我々の入力ははるかに幅広いタスクに及び，時には論争や敏感なトピックを含むことがある．

我々の目的は，異なる人口統計学的グループの好みに敏感で，潜在的に有害な出力を識別するのに優れたラベラーのグループを選択することだった．

そこで，これらの軸でラベラーの能力を測定するように設計されたスクリーニングテストを実施した．

選考方法とラベラーの属性については，付録B.1を参照されたい．

訓練や評価の際に，アライメント基準が衝突することがある．

例えば，ユーザが有害な可能性のある応答を要求した場合などである．

訓練では，ユーザの役に立つことを好む（そうしないためには，難しい設計上の決定をする必要があるが，これは今後の研究に委ねる．詳しくは5.4節を参照されたい）．

しかし，最終的な評価では，ラベラーに真実性と無害性を好んでもらうことにした（これが我々が本当に気にすることだからである）．

(Stiennon et al., 2020)と同様に，プロジェクトの期間中，ラベラーと密接に協力している．

我々は，プロジェクトに関するラベラーの訓練，各タスクの詳細な命令の作成（付録B.2参照），共有チャットルームでのラベラーの質問への回答など，オンボーディングプロセスを設けている．

他のラベラーの好みに対して我々のモデルがどの程度汎化されるかを確認するための最初の研究として，我々は訓練データを作成しない別のラベラーセットを雇った．

これらのラベラーは，同じベンダーから調達しているが，スクリーニングテストは受けていない．

このような複雑なタスクにもかかわらず，アノテータ間の一致率は非常に高いことがわかった．

訓練用ラベラは72.6±1.5%の確率で一致し，Hold-outラベラーは77.3±1.3%の確率で一致した．

比較として，(Stiennon et al., 2020)の要約タスクでは，研究者-研究者の一致率は73±4%であった．

3.5節：Models（モデル）

我々は，(Brown et al., 2020)のGPT-3事前訓練済み言語モデルから始める．

これらのモデルは，インターネットデータの幅広い分布で訓練されており，下流の幅広いタスクに適応可能であるが，特性の乏しい挙動を持つ．

これらのモデルから出発して，我々は次に3つの異なる手法でモデルを訓練する．

教師ありのファインチューニング（SFT：Supervised Fine-Tuning）．

教師あり学習により，GPT-3をラベラーのデモでファインチューニングした．

コサイン学習率減衰，残留ドロップアウト0.2を用いて，16エポック訓練した．

最終的なSFTモデルの選択は，検証セットでのRMスコアに基づいて行う．

(Wu et al., 2021)と同様に，SFTモデルは1エポック後に検証損失に対してオーバーフィットすることがわかった．

しかし，このオーバーフィットにもかかわらず，より多くのエポック数を訓練することで，RMスコアと人間の好み評価の両方が向上することがわかった．

報酬のモデル化（RM：Reward Modeling）．

最終的な非埋め込み層を取り除いたSFTモデルから出発し，プロンプトとレスポンスを取り込み，スカラー報酬を出力するモデルを訓練した．

本論文では，計算量を節約できるため，6B RMsのみを使用し，175B RMの訓練は不安定になる可能性があるため，RL時の値関数として使用するには適していないことがわかった（詳細は付録Cを参照）．

(Stiennon et al., 2020)では，RMは，同じ入力に対する2つのモデル出力の比較のデータセットで訓練される．

彼らは，比較をラベルとしてクロスエントロピー損失を使用し，報酬の差は，人間のラベラーによって一方の応答が他方よりも好まれる対数オッズを表す．

比較収集のスピードを上げるために，ラベラーにはK = 4からK = 9の間でランク付けする回答を提示する．

これにより，ラベラーに提示された各プロンプトに対して，$\left(\frac{K}{2}\right)$個の比較が生成される．

比較は各ラベリングタスク内で非常に相関があるので，比較を単純に1つのデータセットにシャッフルすると，そのデータセットを1回通過するだけで報酬モデルがオーバーフィットすることがわかった．

※つまり，可能性のある$\left(\frac{K}{2}\right)$比較のそれぞれを別のデータポイントとして扱うと，それぞれの補完がK - 1の別々の勾配更新に使用される可能性がある．モデルは1回のエポックでオーバーフィットする傾向があるため，エポック内でデータを繰り返すとオーバーフィットの原因にもなる．

その代わりに，我々は各プロンプトからのすべての$\left(\frac{K}{2}\right)$比較を1つのバッチ要素として訓練する．

これは，各完了に対してRMのフォワードパスを1回だけ必要とするため（K個の完了に対して$\left(\frac{K}{2}\right)$回のフォワードパスではなく），計算効率がはるかに高く，オーバーフィットしなくなったため，検証精度とログ損失を大幅に改善することができた．

具体的には，報酬モデルの損失関数は，次のようになる．

$${\rm loss}(\theta) = - \frac{1}{\left( \frac{K}{2} \right)} E_{(x, y_w, y_l) \sim D} \left[ \log(\sigma (r_{\theta} (x, y_w) - r_{\theta} (x, y_l))) \right] $$

ここで，$r_{\theta} (x, y)$は，パラメータ$\theta$を持つプロンプトxと完了yに対する報酬モデルのスカラー出力，$y_w$は$y_w$と$y_l$の組のうち好ましい補完，Dは人間の比較のデータセットである．

最後に，RM損失は報酬の変化に対して不変であるため，ラベラーがRLを行う前に平均スコア0を達成するように，バイアスを用いて報酬モデルを正規化した．

強化学習（RL：Reinforcement Learning）．

再び(Stiennon et al., 2020)に従い，PPO(Schulman et al., 2017)を用いて我々の環境上でSFTモデルのファインチューニングを行った．

環境は，ランダムな顧客プロンプトを提示し，プロンプトに対する応答を期待するバンディット環境である．

プロンプトと応答が与えられたら，報酬モデルによって決定された報酬を生成し，エピソードを終了する．

さらに，報酬モデルの過剰最適化を緩和するために，トークンごとにSFTモデルからのKLペナルティを追加する．

価値関数はRMから初期化される．

これらのモデルを「PPO」と呼ぶ．

また，公開NLPデータセットでの性能回帰を修正するために，事前訓練勾配をPPO勾配に混合する実験も行った．

これらのモデルを「PPO-ptx」と呼ぶ．

RL訓練において，以下の複合目的関数を最大化する．

$$objective(\phi) = E_{(x, y) \sim D_{\pi_\phi^{RL}}} \left[ r_\theta (x, y) - \beta \log (\pi_\phi^{RL} (y | x) / \pi^{SFT} (y | x) + \\ \gamma E_{x \sim D_{pretrain}} \left[ \log(\pi_\phi^{RL} (x)) \right] \right] \tag{1}$$

ここで，$\pi_\phi^{RL}$は学習済みRL方策，$\pi^{SFT}$は教師あり訓練済みモデル，$D_{pretrain}$は事前訓練分布である．

KL報酬係数$\beta$と事前訓練損失係数$\gamma$は，それぞれKLペナルティと事前訓練勾配の強さを制御するものである．

「PPO」モデルの場合，$\gamma$は0に設定される．

特に指定がない限り，本論文ではInstructGPTはPPO-ptxモデルを指す．

ベースライン．

PPOモデルの性能を，SFTモデルおよびGPT-3と比較する．

また，GPT-3にfew-shotプレフィックスを付与して命令追従モードに「プロンプトする」場合（GPT-3-prompted）とも比較する．

このプレフィックスは，ユーザが指定した命令の前に付加される．

※このプレフィックスを得るために，著者のRLとDAがプレフィックス探し競争を行った．RLとDAが1時間かけてGPT-3と対話し，2つの最良のプレフィックスを導き出した．GPT-3がプロンプト検証セットで最も高いRMスコアを獲得したプレフィックスが勝利となった．DAが勝利した．

さらに，FLAN(Wei et al., 2021)とT0(Sanh et al., 2021)データセットで175B GPT-3をファインチューニングしたInstructGPTを比較する．

これらは，どちらも様々なNLPタスクと，それぞれのタスクに対する自然言語の命令からなる（両データセットは，含まれるNLPデータセットと，使用する命令の様式が異なる）．

それぞれ約100万例でファインチューニングを行い，検証セットで最も高い報酬モデルスコアを得たチェックポイントを選択する．

訓練の詳細については，付録Cを参照されたい．

3.6節：Evaluation（評価）

我々のモデルがどの程度「アラインメント」しているかを評価するためには，まず，この文脈でアラインメントが何を意味するかを明確にする必要がある．

アライメントの定義は歴史的に曖昧で混乱しやすいトピックであり，様々な競合する提案がある(Chen et al., 2021; Leike et al., 2018; Gabriel, 2020)．

(Leike et al., 2018)に従い，我々の目的は，ユーザの意図に従って行動するモデルを訓練することである．

より現実的には，我々の言語タスクの目的のために，我々は(Askell et al., 2021)に似たフレームワークを使用し，彼らはモデルが役に立つ，正直，無害である場合にアラインメントすることを定義する．

役に立つためには，モデルは命令に従うだけでなく，few-shotプロンプトや「Q: {question}\nA:」のような解釈可能なパターンから意図を推論する必要がある．

プロンプトの意図が不明確であったり，曖昧であったりすることがあるため，我々はラベラーの判断に頼っており，主な指標はラベラーの好み評価である．

しかし，ラベラーはプロンプトを作成したユーザではないため，ユーザが実際に意図したものと，ラベラーがプロンプトを読んだだけで意図したと考えたものとの間に乖離が生じる可能性がある．

純粋な生成モデルにおいて，正直さをどのように測定するかは不明である．

この場合，モデルの実際の出力と，正しい出力に関するモデルの「信念」（belief）を比較する必要があるが，モデルは大きなブラックボックスであるため，その信念を推論することはできない．

その代わりに，モデルの世界に関する記述が真実であるかどうかという「真実性」（truthfulness）を，2つの指標を用いて測定する．

閉じた領域のタスクにおいて，モデルが情報をでっち上げる傾向「ハルシネーション」（hallucinations）を評価すること
TruthfulQA データセット(Lin et al., 2021)を用いていること

言うまでもなく，これは，実際に真実性が意味することのほんの一部を捉えたに過ぎない．

正直さと同様に，言語モデルの害を測定することもまた，多くの課題を抱えている．

ほとんどの場合，言語モデルの害は，その出力が実世界でどのように使用されるかに依存する．

例えば，有害な出力を生成するモデルは，配備されたチャットボットのコンテキストでは有害だが，より正確な毒性検出モデルを訓練するためのデータ拡張に使用すれば，役に立つ可能性もある．

プロジェクトの初期には，出力が「潜在的に有害」（potentially harmful）であるかどうかをラベラーに評価してもらった．

しかし，出力が最終的にどのように使用されるかを推測する必要がありすぎたため，これを中止した．

特に，我々のデータは，Playground APIインターフェースと対話する顧客からのものであるため，（プロダクションの使用例からではなく）特にそうである．

そのため，我々は，有害になる可能性のあるモデルの行動のさまざまな側面を捉えることを目的とした，より具体的なプロキシ基準のスイートを使用している．

ラベラーは，出力が顧客アシスタントの文脈で不適切かどうか，保護クラスを否定しているかどうか，性的または暴力的な内容を含んでいるかどうかを評価する．

また，RealToxicityPrompts(Gehman et al., 2020)やCrowS-Pairs(Nangia et al., 2020)など，偏りや有害性を測定するためのデータセットでモデルをベンチマークした．

まとめると，定量的な評価は2つに分けて考えることができる．

InstructGPT Table3 — 表3：ラベラーが収集したAPI分布のメタデータ．

API分布での評価．

我々の主な指標は，訓練分布と同じソースからのプロンプトのhold-outセットに対する人間の好み評価である．

APIのプロンプトを評価に使用する場合，訓練で使用していない顧客によるプロンプトのみを選択する．

しかし，訓練用のプロンプトはInstructGPTモデルで使用することを想定しているため，GPT-3ベースラインには不利になる可能性が高い．

このため，API上でGPT-3モデルに提出されたプロンプトも評価する．

これらのプロンプトは一般的に「命令に従う」スタイルではなく，GPT-3用に特別に設計されている．

どちらの場合も，各モデルについて，その出力がベースライン方策よりも好まれる頻度を計算する．

我々は，175B SFTモデルの性能が中位に近いため，ベースラインとして選択した．

さらに，ラベラーには，各回答の全体的な品質を1～7のリッカート尺度で判断してもらい，各モデルの出力に関するさまざまなメタデータを収集した（表3参照）．

公開NLPデータセットでの評価．

言語モデルの安全性，特に真実性，毒性，偏りなどの側面を捉えたデータセットと，質問応答，読解，要約などの従来のNLPタスクのzero-shot性能を捉えたデータセットの2種類の公開データセットで評価する．

また，RealToxicityPromptsデータセット(Gehman et al., 2020)で毒性に関する人間評価も行っている．

サンプリングベースのNLPタスクのすべてで，我々のモデルからサンプルを公開している．

※アクセスはこちら：https://github.com/openai/following-instructions-human-feedback．

4章：Results（結果）

本章では，APIプロンプト分布の結果，公開NLPデータセットの結果，定性的な結果の3つに分類し，1章の主張に対する実験的証拠を提供する．

4.1節：Results on the API distribution（API分布に関する結果）

ラベラーは，GPT-3の出力よりもInstructGPTの出力を有意に好む．

テストセットのプロンプトでは，ラベラーはモデルサイズにかかわらずInstructGPTの出力を有意に好む．

これらの結果を図1に示す．

GPT-3の出力は最も性能が悪く，よく練られたfew-shotプロンプト（GPT-3 (prompted)）を使い，次にSFTを使ってデモを訓練し，最後にPPOを使って比較データを訓練すれば，ステップサイズを大幅に改善できることがわかる．

PPOの際に事前訓練用混合の更新を加えても，ラベラーの好みに大きな変化はない．

直接比較した場合，175B InstructGPTの出力はGPT-3の出力よりも85±3%の確率で好まれ，few-shotのGPT-3よりも71±4%の確率で好まれた．

InstructGPT Figure3 — 図3：175B SFTモデルに対する勝率で測定した我々のモデルの好みスコアの結果．（左）：API上のGPTモデルに提出されたプロンプトに関する結果．（右）：API上のInstructGPTモデルに提出されたプロンプトの結果．（上）：Hold-outラベラーの結果．（下）：訓練ラベラーの結果．GPT-3モデル（左）のプロンプトは，InstructGPTモデル（右）のプロンプトとは異なり，GPT-3のプロンプトとしてすでに設計されているため，GPT (prompted)を除外している．

また，API上のGPT-3モデルに送信されたプロンプトで評価しても，結果は大きく変わらないことがわかった（図3参照）．

ただし，PPO-ptxモデルはモデルサイズが大きくなると若干性能が低下する．

InstructGPT Figure4 — 図4：API分布におけるメタデータの結果．なお，データセットのサイズの関係で，これらの結果はモデルサイズによって折りたたまれていることに注意されたい．モデルサイズを含む分析については，付録 E.2を参照されたい．GPT-3と比較して，PPOモデルは顧客アシスタントのコンテキストに適しており，命令の中の明示的な制約に従うことや正しい命令を試みることに優れており，「ハルシネーション」（要約のような閉じたドメインのタスクで情報をでっち上げることを意味する）を起こしにくいことがわかる．

図4では，ラベラーがInstructGPTの出力をより具体的な軸で評価することも示している．

具体的には，GPT-3と比較して，InstructGPTの出力は，顧客アシスタントの文脈でより適切であり，命令で定義された明確な制約（例えば，「答えを2段落以内で書いてください」）に従うことが多く，正しい命令に完全に従わないことが少なく，クローズドメインタスクで事実を作り上げる（「ハルシネーション」）することが少なくなっている．

これらの結果は，InstructGPTモデルがGPT-3よりも信頼性が高く，コントロールが容易であることを示唆している．

また，他のメタデータの出現頻度が低すぎるため，モデル間で統計的な有意差が得られないことがわかった．

我々のモデルは，訓練データを作成しなかった「Hold-out」ラベラーの好みにも汎化する．

Hold-outラベラーは，我々が訓練データを作成するために使用したワーカーと同様のランキングの好みを持っている（図3参照）．

特に，Hold-outワーカーによると，我々のInstructGPTモデルは，GPT-3ベースラインを依然として大きく上回っている．

このように，InstructGPTモデルは，単に訓練用ラベラーの好みにオーバーフィットしているわけではない．

このことは，報酬モデルの汎化能力からも証明されている．

ラベラーを5つのグループに分け，5つのRMs（3つの異なるシード）を5重クロスバリデーションで訓練する実験を行った（グループのうち4つで訓練し，hold-outグループで評価する）．

これらのRMの精度は69.6±0.9%であり，訓練セットのラベラーの好みを予測する精度は72.4±0.4%からわずかに低下している．

InstructGPT Figure5 — 図5：InstructGPTのプロンプト分布における1～7のリッカート尺度でFLANとT0を比較した結果．FLANとT0は，デフォルトのGPT-3よりも性能が高く，「命令追従」モードにしたfew-shotのGPT-3モデルと比べても遜色ないことがわかる．

公開NLPデータセットは，我々の言語モデルがどのように使用されているかを反映したものではない．

図5では，InstructGPTをFLAN(Wei et al., 2021)とT0(Sanh et al., 2021)データセットでファインチューニングした175B GPT-3ベースラインと比較する（詳細は付録Cを参照）．

これらのモデルはGPT-3よりも性能が良く，よく選ばれたプロンプトを持つGPT-3と同程度であり，我々のSFTベースラインよりも悪いことがわかった．

これは，これらのデータセットが，我々のAPIプロンプト分布で性能を向上させるのに十分な多様性を持っていないことを示している．

一対一の比較では，175B InstructGPTモデルの出力は，FLANモデルよりも78±4%，T0モデルよりも79±4%の確率で好まれた．

これらのモデルに対するリッカート尺度を図5に示す．

我々は，我々のInstructGPTモデルがFLANとT0を凌駕すると考える理由は2つある．

第1に，公開NLPデータセットは，分類，質問応答，ある程度の要約や翻訳など，自動評価指標で評価しやすいタスクを取り込むように設計されている．

しかし，分類とQAは，API顧客が当社の言語モデルを使用する際のごく一部（約18%）に過ぎない．

一方，ラベラーによれば，オープンエンドの生成とブレインストーミングは，当社のプロンプトデータセットの約57%を占めている（表1参照）．

第2に，公開NLPデータセットでは，非常に多様な入力（少なくとも，実世界のユーザが使用することに興味を持つような種類の入力）を得ることが難しい場合がある．

もちろん，NLPデータセットにあるタスクは，言語モデルに解かせたい命令の一種であるため，最も広いタイプの命令追従型モデルは，両方のタイプのデータセットを組み合わせることができる．

4.2節：Results on public NLP datasets（公開NLPデータセットでの結果）

InstructGPT Figure6 — 図6：TruthfulQAデータセットでの結果．灰色の棒は真実性の評価を示す．カラーの棒グラフは，真実性と情報性の評価を示す．

InstructGPTモデルは，GPT-3よりも真実性が向上している．

TruthfulQAデータセットの人間による評価で測定したところ，我々のPPOモデルは，GPT-3と比較して，真実味と情報量のある出力生成において，小さいながらも有意な改善を示している（図6参照）．

この挙動はデフォルトのものであり，我々のモデルは，真実を伝えるよう特別に命令されなくても，真実性の向上を示すことができる．

興味深いことに，1.3BのPPO-ptxモデルは例外で，同じサイズのGPT-3モデルよりもわずかに性能が低下している．

GPT-3に対して敵対的に選択されなかったプロンプトのみで評価すると，PPOモデルはGPT-3よりも有意に真実性と情報性が高い（ただし，絶対的な改善度は数％ポイント低下する）．

(Lin et al., 2021)に従い，正解が定かでない場合に「I have no comment」と答えるようモデルに命令する「Instruction+QA」プロンプトも有用である．

この場合，PPOモデルは，自信を持って虚偽のことを言うのではなく，真実であり，情報を提供しない側を誤る．

ベースラインのGPT-3モデルは，これが得意ではない．

真実性の向上は，PPOモデルがAPI分布のクローズドドメインのタスクでハルシネーションを見る（情報を捏造する）頻度が減ったことからも証明されている（図4）．

InstructGPTはGPT-3よりも毒性で小さな改善を示しているが，バイアスはない．

まず，RealToxicityPromptsデータセット(Gehman et al., 2020)を用いてモデルを評価する．

モデルサンプルをPerspective APIで実行し，このデータセットの標準的な評価手順である自動毒性スコアを取得する．

また，これらのサンプルをラベラーに送り，絶対毒性，プロンプトとの相対毒性，連続性，および全体的な出力優先度に関する評価を取得する．

このデータセットからプロンプトをプロンプトの毒性に応じて一律にサンプリングし，入力毒性が高い場合のモデルの性能をよりよく評価する（付録Eの図39参照）．

これは，このデータセットの標準的なプロンプトのサンプリングとは異なるため，絶対的な毒性数値は高くなる．

InstructGPT Figure7 — 図7：RealToxicityPromptsに関する人間の評価と自動評価（Perspective APIスコア）を比較したもの．3つの異なる175Bモデルに対して，「respectful」の命令がある場合とない場合の両方で，合計1,729のプロンプトがラベル付けされた．ここで示した自動評価は，人間の評価と同じプロンプトのセットに対して計算されたものであるため，付録Dの表14に記録されている評価の全セットとは若干異なる．

結果は図7に示すとおりである．

安全でrespectfulな出力を生成するよう命令された場合（「respectful prompt」），InstructGPTモデルは，Perspective APIに従ってGPT-3のモデルよりも有害な出力を生成しないことがわかった．

この優位性は，respectful promptを削除した場合（「no prompt」）には消失する．

興味深いことに，有毒な出力を生成するよう明示的に促された場合，InstructGPTの出力はGPT-3の出力よりもはるかに有毒である（図39参照）．

これらの結果は，人間での評価でも確認されている．

InstructGPTはGPT-3よりも「respectful prompt」設定で毒性が低く，「no prompt」設定でも同様の性能を発揮する．

付録Eに詳細な結果を掲載している．

要約すると，以下になる．

すべてのモデルは，プロンプトが予想されるよりも毒性が低いと評価された（-1～1のスケールで負のスコアを獲得し，0は「予想とほぼ同じ毒性」である）．

SFTベースラインは，すべてのモデルの中で最も毒性が低いが，継続性が最も低く，ランキングで最も好まれないモデルである．

これは，このモデルが非常に短い，または退化した応答を生成していることを示す可能性がある．

偏った発話を生成するモデルの傾向を評価するために（付録E参照），Winogender(Rudinger et al., 2018)とCrowS-Pairs(Nangia et al., 2020)データセットの修正版でInstructGPTも評価した．

これらのデータセットは，潜在的なバイアスを強調することができる文のペアで構成されている．

各ペアの文の生成の相対確率と，関連する2値確率分布のエントロピー（ビット単位）を計算する．

完全に偏りのないモデルは，各ペアの文の間に優先順位を持たず，したがってエントロピーが最大になる．

この指標では，我々のモデルはGPT-3より偏っていないことになる．

PPO-ptxモデルはGPT-3と同様の偏りを示すが，respectfulに行動するよう命令されると，より低いエントロピーを示し，したがってより高い偏りを示す．

偏りのパターンは明確ではない．

命令されたモデルは，出力がステレオタイプな行動をとるかどうかにかかわらず，出力がより確実であるように見える．

RLHFのファインチューニング手順を変更することで，公開NLPデータセットでの性能後退を最小限に抑えることができる．

デフォルトでは，API分布でPPOモデルを訓練すると，いくつかの公開NLPデータセットでの性能が低下するため，「アライメント税」（Alignment Tax）に苦しむことになる．

アライメント税は，アライメントされていないけれども，これらのタスクでより高い能力を発揮するモデルの使用を奨励するため，アライメント税が発生しないようなアライメント手順を求めている．

図29では，PPOファインチューニング（PPO-ptx）に事前訓練の更新を加えることで，すべてのデータセットでこのような性能低下を緩和し，HellaSwagではGPT-3を上回る性能を示すことが示された．

PPO-ptxモデルの性能は，DROP，SQuADv2，translationではGPT-3に遅れをとっている．

このような性能差を解消するためには，さらなる研究が必要である．

事前訓練の更新を混ぜることで，KL係数を増やすという単純な解決策よりも良い結果が得られた．

図33では，SQuADv2とDROP（テストに使用したデータセット）での性能後退を逆転させ，かつ検証報酬の減少を最小限に抑える事前訓練の混合係数の値が存在することを示している．

一方，KL係数を増加させると（図34），検証報酬が大幅に減少し，DROPとSQuADでは完全に回復することはない．

KLモデルをPPO initからGPT-3に変更しても，同様の結果が得られる．

4.3節：Qualitative results（定性的な結果）

InstructGPTモデルは，RLHFのファインチューニング分布以外の命令に対しても有望な汎化を示す．

特に，InstructGPTは非英語の命令に従う能力を示し，コードの要約と質問応答を行うことを発見した．

これは，英語以外の言語やコードはファインチューニングデータのごく少数であり，場合によっては，アライメント手法が，人間が直接監督していない入力に対して望ましい動作をするように汎化できることを示唆するもので，興味深い．

※ラベラーには，専門知識が不足している場合は評価を省略するよう命令しているが，翻訳サービスを利用して，ラベラーが話せない言語の簡単な命令を評価することもある．

InstructGPT Figure8 — 図8：175B PPO-ptxモデル（InstructGPT 175B）における汎化の例を，プレフィックスを追加しないGPT-3 175Bと比較して示す．プロンプトは特定の動作を説明するためにチェリーピッキングされているが，出力はチェリーピッキングされていない．（1）InstructGPTは，英語で出力されることもあるが，他言語の命令にも従うことができる．GPT-3では，英語と同様に，より慎重なプロンプトが必要である．（2）InstructGPTは，GPT-3よりも確実にコードに関する質問を要約して回答することができる（ただし，この回答は完全には正しくない）．コードQAの例では，GPT-3は約50％の確率で質問に答えている．

これらの行動を定量的に追跡することはできないが，図8でいくつかの定性的な例を示している．

175BのPPO-ptxモデルは，コードに関する質問に確実に答えることができ，他言語の命令にも従うことができる．

しかし，他言語の命令であっても英語で出力することが多いことがわかる．

一方，GPT-3は，これらのタスクを実行することができるが，より慎重なプロンプトを必要とし，これらの領域の命令に従うことはほとんどないことがわかった．

InstructGPTはまだ単純なミスをする．

我々の175B PPO-ptxモデルとの対話の中で，我々は，さまざまな言語タスクで強力な性能を発揮しているにもかかわらず，まだ単純なミスをすることがあることに気づいた．

いくつかの例を挙げる．

誤った前提を持つ命令が与えられたとき，その前提が真であると誤って判断することがある．
モデルが過剰にヘッジすることがある．簡単な質問を与えられたとき，文脈からかなり明確な答えが一つでも，その質問に対する答えは一つではないと言い，複数の可能な答えを与えてしまうことがある．
命令に複数の明示的な制約がある場合（例：「フランスを舞台にした1930年代の映画を10本挙げよ」），または制約が言語モデルにとって困難な場合（例：指定した文数で要約を書け），モデルの性能が低下することがある．

InstructGPT Figure9 — 図9：175B PPO-ptxモデル（InstructGPT 175B）の単純なミスを，プレフィックスを追加していないGPT-3 175Bと比較した場合．プロンプトは特定の動作を説明するためにチェリーピッキングされているが，出力はチェリーピッキングされていない．（1）InstructGPTは，誤った前提を仮定する命令に混乱し，単にそれに従うことができる．（2）InstructGPTは，単純な質問に直接答えるのではなく，過度にヘッジすることがある（この場合，かぼちゃが完全に爆発する可能性が高い）．なお，これらのサンプルは，GPT-3が「質問回答」モードに移行していないため，GPT-3の質問に対する能力を完全に反映したものではない．

図9に，これらの振る舞いの例を示す．

行動（2）は，ラベラーに「認識論的な謙虚さ」（epistemic humility）に報酬を与えるよう命令しているため，ヘッジする出力に報酬を与える傾向があり，これが報酬モデルによって拾われるために出現するのではないかと考えている．

行動（1）は，訓練セットには誤った前提を仮定するプロンプトがほとんどなく，我々のモデルがこれらの例に対してうまく汎化できないために起こるのではないかと考えている．

これらの挙動は，敵対的なデータ収集によって劇的に減らすことができると考えている(Dinan et al., 2019b)．

5章：Discussion（ディスカッション）

5.1節：Implications for alignment research（アライメント研究への示唆）

この研究は，AIシステムを人間の意図にアラインメントするための我々の広範な研究プログラムの一部である(Christiano et al., 2017; Ziegler et al., 2019; Stiennon et al., 2020)．

この研究が我々の現在の言語モデルシステムに焦点を当てているとしても，我々は将来のAIシステムにも通用する一般的でスケーラブルな方法を求めている(Leike et al., 2018)．

ここで扱うシステムはまだかなり限定的だが，現在最大の言語モデルの一つであり，分類，要約，質問応答，創作，対話など，さまざまな言語タスクに適用している．

本研究におけるアライメント研究へのアプローチは，反復的なものである．

まだ存在しないAIシステムのアライメントに抽象的に焦点を当てるのではなく，現在のAIシステムのアライメントを改善するのである．

このアプローチの欠点は，超人的なシステムのアライメント時にのみ発生するアライメント問題に直接直面しないことである(Bostrom, 2014)．

しかし，我々のアプローチは，何がうまくいき，何がうまくいかないかという明確な経験的フィードバックループを提供する．

このフィードバックループは，アライメント技術を改良するために不可欠であり，機械学習の進歩に歩調を合わせることを余儀なくされると考えている．

さらに，我々がここで使用するアライメント技術であるRLHFは，超人的なシステムをアライメントするためのいくつかの提案において重要なビルディングブロックである(Leike et al., 2018; Irving et al., 2018; Christiano et al., 2018)．

例えば，RLHFは，人間が直接評価することが難しいため，超人的なAIシステムのアラインメントの難しさの一部を示すタスクである，本の要約に関する最近の研究において中心的な手法である(Wu et al., 2021)．

本研究から，より一般的なアライメント研究のための教訓を引き出すことができる．

モデルのアライメントを高めるためのコストは，事前訓練に比べればわずかなものである．また，データを収集するためのコストと，実験的な実行を含む訓練実行のための計算コストは，GPT-3の訓練に費やされたコストの数分の一にすぎない．GPT-3の3,640 PFLOPS/s-daysに対し，175B SFTモデルの訓練には4.9 PFLOPS/s-days，175B PPO-ptxモデルの訓練には60 PFLOPS/s-daysを必要とする(Brown et al., 2020)．同時に，我々の結果は，RLHFが，100倍のモデルサイズの増加よりも，言語モデルをよりユーザに役立つものにするのに非常に効果的であることを示している．このことは，既存の言語モデルのアライメントへの投資を増やすことは，少なくとも私たちの顧客の自然言語タスク分布では，より大きなモデルを訓練するよりも費用対効果が高いことを示唆している．
InstructGPTが，例えば英語以外の言語タスクやコード関連のタスクなど，我々が監督していない設定に「命令に従う」ことを汎化する証拠をいくつか見てきた．これは重要な性質である．なぜなら，モデルが実行するすべてのタスクについて人間が監督することは，法外なコストがかかるからである．この汎化が，能力の向上に応じてどの程度スケールするかについては，さらなる研究が必要である．この方向での最近の研究については，(Christiano et al., 2021)を参照されたい．
ファインチューニングによって生じる性能劣化のほとんどを軽減することができた．もしそうでなければ，これらの性能劣化はアライメント税，つまりモデルをアライメントするための追加コストとなるはずである．この税金が高い技術は，採用されないかもしれない．将来，高性能なAIシステムが人間の意図に沿わないままアライメントを行うインセンティブを回避するために，アライメント税の低いアライメント技術が必要である．そのため，今回の結果は，税金のかからないアライメント手法であるRLHFにとって朗報である．
現実世界での研究からアライメント技術を検証してきた．アライメント研究は歴史的にかなり抽象的で，理論的な結果(Soares et al., 2015)，小さな合成ドメイン(Christiano et al., 2018; Leike et al., 2017)，または公開NLPデータセットでのMLモデルの訓練(Ziegler et al., 2019; Stiennon et al., 2020)のいずれかに焦点を当てている．我々の研究は，実世界で顧客と一緒にプロダクションで使用されているAIシステムにおけるアライメント研究のための基盤を提供する．これにより，技術の有効性と限界に関する重要なフィードバックループが可能になる．

※なお，MLシステムを導入する際には，人間のデータを使ってモデルをファインチューニングすることが一般的であるが，これらの取り組みの目的は，汎用的なMLモデルのアラインメントを進めることではなく，企業の特定のユースケースで優れた性能を発揮するモデルを得ることにある．

5.2節：Who are we aligning to?（誰に対してアライメントするのか？）

言語モデルを人間の意図にアラインメントさせる場合，その最終的な挙動は，基礎となるモデル（およびその訓練データ），ファインチューニングデータ，および使用するアライメント手法の関数である．

本章では，特にファインチューニングデータに影響を与えるいくつかの要因について説明し，最終的に何を，誰に対してアライメントするのかを決定することを説明する．

そして，5.3節で我々の研究の限界についてより深く議論する前に，改善すべき点を検討する．

文献では，しばしば「人間の好み」や「人間の価値」といった用語を用いてアライメントを組み立てている．

本研究では，特に，与えられた命令，それを受けた状況（有給の仕事として），誰から受けたかによって影響を受けたラベラーの好みの集合にアライメントした．

いくつかの重要な注意事項がある．

第1に，モデルのファインチューニングに使用するデータを直接作成する訓練ラベラーから提供されたデモや好みに合わせる．

ラベラーの採用プロセスや属性については，付録Bで説明する．

一般的に，ラベラーは米国や東南アジアに住む英語圏の人々で，UpworkやScale AIを通じて採用される．

彼らは多くの例で互いに意見を異にしており，ラベラー間の一致率は約73%であることがわかった．

第2に，この研究を設計している研究者（したがって，より広範な研究組織であるOpenAIへのプロキシ）として，我々の好みに合わせていることある．

我々は，ラベラーがデモを書いたり，好みの出力を選択したりする際のガイドとして使用するラベリング命令を書き，共有チャットルームでエッジケースに関する質問に答えている．

ラベラーから収集したデータに対して，異なる命令セットやインターフェースデザインがどのように影響するか，また，モデルの動作にどのような影響を与えるかについては，さらに研究が必要である．

第3に，我々の訓練データは，OpenAIの顧客がOpenAI API Playground上のモデルに送るプロンプトによって決定される．

したがって，我々は暗黙のうちに，顧客が価値があると考えるもの，場合によっては，彼らのエンドユーザが現在APIを使うのに価値があると考えるものに合わせている．

顧客とそのエンドユーザの意見が一致しなかったり，顧客がエンドユーザの幸福のために最適化していなかったりすることもある．

例えば，顧客は，ユーザが自分のプラットフォームで過ごす時間を最大化するモデルを望んでいるかもしれないが，それは必ずしもエンドユーザが望んでいることではない．

実際には，ラベリング担当者は，あるプロンプトや補完がどのような文脈で見られるかを把握することはできない．

第4に，OpenAIの顧客は，言語モデルの使用によって影響を受けるすべての個人やグループはおろか，言語モデルの潜在的または現在のすべてのユーザを代表するものではない．

このプロジェクトのほとんどの期間，OpenAI APIのユーザはウェイティングリストから選ばれていた．

このウェイティングリストの最初のシードはOpenAIの従業員であり，最終的なグループは私たちのネットワークに偏っている．

一歩引いてみると，公正で透明性が高く，適切な説明責任機構を備えたアライメントプロセスを設計することには，多くの困難がある．

本論文の目的は，このアライメント技術が，特定のアプリケーションのための特定の人間の参照グループにアライメントできることを実証することである．

我々は，研究者，我々が雇ったラベラー，あるいは我々のAPI顧客が，好みの正しい情報源であると主張しているわけではない．

モデルを訓練する組織，モデルを使用して製品を開発する顧客，これらの製品のエンドユーザ，そして直接的または間接的に影響を受ける可能性のあるより広い人々など，考慮すべきステークホルダーは数多く存在する．

アライメントプロセスをより参加型にすることだけが問題なのではない．

すべての人の好みに合わせたシステムを一度に訓練することは不可能であり，また，すべての人がトレードオフを支持することは不可能である．

一つの方法として，特定のグループの好みを条件とするモデルを訓練したり，異なるグループを代表するように簡単にファインチューニングしたりプロンプトしたりすることができる．

そうすれば，異なる価値観を支持するグループによって，異なるモデルが展開され，使用されるようになる．

しかし，これらのモデルは，より広い社会に影響を及ぼすことになるかもしれない．

誰の好みを条件とするか，また，すべてのグループが代表され，有害である可能性のあるプロセスからオプトアウトできるようにする方法など，多くの難しい決断を迫られることになるだろう．

5.3節：Limitations（制限）

方法論．

InstructGPTモデルの動作は，コントラクターから得られる人間のフィードバックによって部分的に決定される．

ラベリングタスクの中には，コントラクターのアイデンティティ，信条，文化的背景，個人的な履歴に影響される可能性のある価値判断に依存するものがある．

我々は約40人のコントラクターを雇い，彼らが敏感なプロンプトをどの程度識別し対応できるかを判断するためのスクリーニングテストの成績と，詳細な命令のあるラベリングタスクでの研究者との一致率から判断した（付録Bを参照）．

コントラクターチームを小規模にしたのは，このタスクをフルタイムで行っている少数のコントラクターとの間で広帯域のコミュニケーションがとりやすくなるためである．

しかし，このグループは，我々が開発したモデルを使用し，その影響を受ける人々の全範囲を代表するものではないことは明らかである．

例えば，我々のラベラーは主に英語を話す人たちであり，我々のデータはほとんど英語の命令で構成されている．

また，データ収集のセットアップを改善する方法はたくさんある．

例えば，ほとんどの比較対象は，コストの関係で1人のコントラクターがラベルを貼るのみである．

複数回のラベル付けを行うことで，コントラクターの意見が一致しない部分，つまり，1つのモデルですべてのコントラクターに合わせることが難しい部分を特定することができる．

不一致の場合，平均的なラベラーの好みにアラインメントすることは望ましくないかもしれない．

例えば，あるマイノリティグループに不釣り合いな影響を与えるテキストを生成する場合，そのグループに属するラベラーの好みをより重視したいと考えるかもしれない．

モデル．

我々のモデルは完全にアラインメントしているわけでも，完全に安全なわけでもない．

有害な出力や偏った出力をしたり，事実をでっち上げたり，明示的な命令がなくても性的・暴力的なコンテンツを生成したりすることがある．

また，入力によっては，妥当な出力を生成できないこともある．

図9では，その例をいくつか示している．

我々のモデルの最大の限界は，ほとんどの場合，たとえそれが現実の世界で害になる可能性があったとしても，ユーザの命令に従うことである．

例えば，モデルに最大限のバイアスをかけるように命令するプロンプトが与えられた場合，以下のようになる．

InstructGPTは，同等サイズのGPT-3モデルよりも毒性の高い出力を生成する．

以下の節で，潜在的な軽減策を議論する．

5.4節：Open questions（未解決問題）

本研究は，言語モデルを様々な命令に従うようにファインチューニングするためにアライメント技術を使用するための最初のステップである．

言語モデルの振る舞いを，人々が実際にやってほしいことにさらに合わせるために，探求すべき多くの未解決問題がある．

有害な，偏った，またはその他の有害な出力を生成するモデルの傾向をさらに減少させるために，多くの方法が試され得る．

例えば，ラベラーがモデルの最悪な挙動を見つけ，それをラベル付けしてデータセットに追加する敵対的なセットアップを使用することができる(Dinan et al., 2019b)．

また，最初の事前訓練モデルの訓練や，事前訓練混合アプローチに使用するデータについて，事前訓練データをフィルタリングする方法(Ngo et al., 2021)と我々の方法を組み合わせることも可能である．

同様に，WebGPT(Nakano et al., 2021)のような，モデルの真実性を向上させる方法と我々のアプローチを組み合わせることもできる．

本研究では，ユーザが潜在的に有害または不正な応答を要求した場合，我々のモデルがこれらの出力を生成することを許可する．

ユーザの命令にもかかわらず無害であるようにモデルを訓練することは重要だが，出力が有害であるかどうかは，それが展開されるコンテキストに依存するため，困難でもある．

例えば，データ拡張パイプラインの一部として，言語モデルを使って有害な出力を生成することは有益かもしれない．

我々の技術は，特定のユーザの命令を拒否するモデルを作ることにも応用でき，この研究の後続の反復でこれを探求する予定である．

モデルを思い通りに動かすことは，操縦性と制御性の文献に直接関係している(Dathathri et al., 2019; Krause et al., 2020)．

将来有望な道として，RLHFを他の操縦性の方法と組み合わせること，例えば制御コードを使うこと(Keskar et al., 2019)や，より小さなモデルを用いて推論時のサンプリング手順を変更すること(Dathathri et al., 2019)などが挙げられる．

我々は主にRLHFに焦点を当てているが，さらに良い結果を得るために，我々の実証データと比較データで方策を訓練するために使用することができる他の多くのアルゴリズムが存在する．

例えば，エキスパート反復(Anthony et al., 2017; Silver et al., 2017)や，比較データのサブセットを使用する，より単純な行動クローニング法を探求することができる．

また，少数の有害な行動を生成することを条件とした報酬モデルからのスコアを最大化する制約付き最適化アプローチ(Achiam et al., 2017)も試すことができる．

比較は必ずしもアライメント信号を提供する最も効率的な方法とは言えない．

例えば，ラベラーがモデルの応答をより良くするために編集したり，モデルの応答に対する批評を自然言語で生成したりすることができる．

また，ラベラーが言語モデルにフィードバックを与えるためのインターフェースの設計にも，広大な空間がある．

これは，人間とコンピュータのインタラクションの問題として興味深い．

RLHFのファインチューニングに事前訓練データを組み込むことで，アライメント税を軽減する我々の提案は，性能の後退を完全に軽減するものではなく，タスクによっては特定の望ましくない動作が起こりやすくなる可能性がある（事前訓練データにこれらの動作が存在する場合）．

この点は，さらなる研究の対象となる興味深い分野である．

我々の方法を改善する可能性が高いもう1つの修正は，有害なコンテンツについて事前訓練混合データをフィルタリングすること(Ngo et al., 2021)，またはこのデータを合成命令で拡張することである．

(Gabriel, 2020)で詳しく述べられているように，命令，意図，明らかにされた好み，理想の好み，興味，価値観へのアライメントには微妙な違いがある．

(Gabriel, 2020)は，アライメントに対して原則に基づくアプローチを提唱している．

つまり，「人々の道徳的信念に大きなばらつきがあるにもかかわらず，反射的に支持されるアライメントのための公正な原則」（fair principles for alignment that receive reflective endorsement despite widespread variation in people’s moral beliefs.）を特定することである．

我々の論文では，簡略化のために推測されるユーザの意図に沿ったアライメントを行っているが，この分野ではより多くの研究が必要である．

実際，最大の未解決問題の1つは，透明性があり，技術の影響を受ける人々を有意義に代表し，多くのグループの間で幅広いコンセンサスを達成する方法で人々の価値観を統合するアライメントプロセスを設計する方法である．

5.2節で，関連するいくつかの検討事項を説明している．

5.5節：Broader impacts（より広範な影響）

本研究の動機は，大規模言語モデルを，与えられた人間の集合が望むことをさせるように訓練することで，そのポジティブな影響を増大させることにある．

デフォルトでは，言語モデルは次の単語を予測する目的を最適化するが，これは我々がモデルに何をさせたいかの代理に過ぎない．

この結果は，この技術が，言語モデルをより有用で，真実で，無害なものにする可能性があることを示している．

長期的には，アライメントの失敗は，特にこれらのモデルがセーフティクリティカルな状況で展開された場合，より深刻な結果につながる可能性がある．

モデルのスケーリングが進むにつれて，人間の意図と一致するように，より大きな注意を払う必要があることが予想される(Bostrom, 2014)．

しかし，言語モデルをユーザの意図に沿うように改良することは，悪用されやすくなることにもつながる．

このようなモデルを使えば，説得力のある誤報や，憎悪や虐待に満ちたコンテンツを生成することが容易になるかもしれない．

アライメント技術は，大規模言語モデルに関連する安全性の問題を解決するための万能薬ではない．

むしろ，より広範な安全エコシステムの中の1つのツールとして使用されるべきものである．

意図的な誤用は別として，大規模言語モデルの導入は細心の注意を払うか，まったく行わない方が良いドメインが数多く存在する．

例えば，医療診断，保護特性に基づく人々の分類，信用，雇用，住宅の適格性の判断，政治的広告の生成，法執行など，利害関係の強い領域がある．

これらのモデルがオープンソース化されている場合，適切な規制なしに，これらの領域や他の領域での有害なアプリケーションを制限することは困難になる．

一方，大規模言語モデルへのアクセスが，彼らを訓練するのに必要なリソースを持つ少数の組織に制限される場合，ほとんどの人が最先端のML技術へのアクセスから除外されることになる．

もう一つの選択肢は，ある組織がモデル展開のエンドツーエンドのインフラを所有し，それをAPIでアクセスできるようにすることである．

この場合，ユースケースの制限（特定の用途にのみモデルの使用を許可する），誤用の監視，システムを誤用した人のアクセス権の剥奪，大規模な誤情報の発生を防ぐためのレート制限などの安全プロトコルを実装することができる．

しかし，この場合，それぞれの質問に対してどこで線を引くかをAPIプロバイダが判断する必要があるため，透明性の低下や権力の集中化が進むという代償を払うことになる．

最後に，5.2節で述べたように，これらのモデルが誰に対してアライメントされるかという問題は極めて重要であり，これらのモデルのネットインパクトがプラスかマイナスかを大きく左右することになる．

References（参考文献）

(Abramson et al., 2020) Abramson, J., Ahuja, A., Barr, I., Brussee, A., Carnevale, F., Cassin, M., Chhaparia, R., Clark, S., Damoc, B., Dudzik, A., et al. (2020). Imitating interactive intelligence. arXiv preprint arXiv:2012.05672.
(Achiam et al., 2017) Achiam, J., Held, D., Tamar, A., and Abbeel, P. (2017). Constrained policy optimization. In International Conference on Machine Learning, pages 22–31. PMLR.
(Anthony et al., 2017) Anthony, T., Tian, Z., and Barber, D. (2017). Thinking fast and slow with deep learning and tree search. arXiv preprint arXiv:1705.08439.
(Aribandi et al., 2021) Aribandi, V., Tay, Y., Schuster, T., Rao, J., Zheng, H. S., Mehta, S. V., Zhuang, H., Tran, V. Q., Bahri, D., Ni, J., et al. (2021). Ext5: Towards extreme multi-task scaling for transfer learning. arXiv preprint arXiv:2111.10952.
(Askell et al., 2021) Askell, A., Bai, Y., Chen, A., Drain, D., Ganguli, D., Henighan, T., Jones, A., Joseph, N., Mann, B., DasSarma, N., et al. (2021). A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861.
(Bahdanau et al., 2016) Bahdanau, D., Brakel, P., Xu, K., Goyal, A., Lowe, R., Pineau, J., Courville, A., and Bengio, Y. (2016). An actor-critic algorithm for sequence prediction. arXiv preprint arXiv:1607.07086.
(Bahdanau et al., 2018) Bahdanau, D., Hill, F., Leike, J., Hughes, E., Hosseini, A., Kohli, P., and Grefenstette, E. (2018). Learning to understand goal specifications by modelling reward. arXiv preprint arXiv:1806.01946.
(Bender et al., 2021) Bender, E. M., Gebru, T., McMillan-Major, A., and Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pages 610–623.
(Blodgett et al., 2020) Blodgett, S. L., Barocas, S., Daumé III, H., and Wallach, H. (2020). Language (technology) is power: A critical survey of" bias" in nlp. arXiv preprint arXiv:2005.14050.
(Böhm et al., 2019) Böhm, F., Gao, Y., Meyer, C. M., Shapira, O., Dagan, I., and Gurevych, I. (2019). Better rewards yield better summaries: Learning to summarise without references. arXiv preprint arXiv:1909.01214.
(Bojar et al., 2015) Bojar, O., Chatterjee, R., Federmann, C., Haddow, B., Huck, M., Hokamp, C., Koehn, P., Logacheva, V., Monz, C., Negri, M., Post, M., Scarton, C., Specia, L., and Turchi, M. (2015). Findings of the 2015 workshop on statistical machine translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation, pages 1–46, Lisbon, Portugal. Association for Computational Linguistics.
(Bommasani et al., 2021) Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
(Bostrom, 2014) Bostrom, N. (2014). Superintelligence. Dunod.
(Brown et al., 2020) Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
(Buchanan et al., 2021) Buchanan, B., Lohn, A., Musser, M., and Sedova, K. (2021). Truth, lies, and automation. Technical report, Center for the Study of Emerging Technology.
(Caliskan et al., 2017) Caliskan, A., Bryson, J. J., and Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334):183–186.
(Carlini et al., 2021) Carlini, N., Tramer, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., Roberts, A., Brown, T., Song, D., Erlingsson, U., et al. (2021). Extracting training data from large language models. In 30th USENIX Security Symposium (USENIX Security 21), pages 2633–2650.
(Chen et al., 2021) Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
(Cho et al., 2018) Cho, W. S., Zhang, P., Zhang, Y., Li, X., Galley, M., Brockett, C., Wang, M., and Gao, J. (2018). Towards coherent and cohesive long-form text generation. arXiv preprint arXiv:1811.00511.
(Choi et al., 2018) Choi, E., He, H., Iyyer, M., Yatskar, M., Yih, W.-t., Choi, Y., Liang, P., and Zettlemoyer, L. (2018). Quac: Question answering in context. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2174–2184.
(Christiano et al., 2021) Christiano, P., Cotra, A., and Xu, M. (2021). Eliciting latent knowledge: How to tell if your eyes deceive you. https://www.alignmentforum.org/posts/qHCDysDnvhteW7kRd/arc-s-first-technicalreport-eliciting-latent-knowledge.
(Christiano et al., 2018) Christiano, P., Shlegeris, B., and Amodei, D. (2018). Supervising strong learners by amplifying weak experts. arXiv preprint arXiv:1810.08575.
(Christiano et al., 2017) Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems, pages 4299–4307.
(Dathathri et al., 2019) Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J., and Liu, R. (2019). Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
(Dhamala et al., 2021) Dhamala, J., Sun, T., Kumar, V., Krishna, S., Pruksachatkun, Y., Chang, K.-W., and Gupta, R. (2021). Bold: Dataset and metrics for measuring biases in open-ended language generation. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pages 862–872.
(Dinan et al., 2019a) n, E., Fan, A., Williams, A., Urbanek, J., Kiela, D., and Weston, J. (2019a). Queens are powerful too: Mitigating gender bias in dialogue generation. arXiv preprint arXiv:1911.03842.
(Dinan et al., 2019b) Dinan, E., Humeau, S., Chintagunta, B., and Weston, J. (2019b). Build it break it fix it for dialogue safety: Robustness from adversarial human attack. arXiv preprint arXiv:1908.06083.
(Dua et al., 2019) Dua, D., Wang, Y., Dasigi, P., Stanovsky, G., Singh, S., and Gardner, M. (2019). Drop: A reading comprehension benchmark requiring discrete reasoning over paragraphs. arXiv preprint arXiv:1903.00161.
(Fedus et al., 2021) Fedus, W., Zoph, B., and Shazeer, N. (2021). Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. arXiv preprint arXiv:2101.03961.
(Gabriel, 2020) Gabriel, I. (2020). Artificial intelligence, values, and alignment. Minds and machines, 30(3):411–437.
(Gehman et al., 2020) Gehman, S., Gururangan, S., Sap, M., Choi, Y., and Smith, N. A. (2020). Realtoxicityprompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
(Hancock et al., 2019) Hancock, B., Bordes, A., Mazare, P.-E., and Weston, J. (2019). Learning from dialogue after deployment: Feed yourself, chatbot! arXiv preprint arXiv:1901.05415.
(Henderson et al., 2018) Henderson, P., Sinha, K., Angelard-Gontier, N., Ke, N. R., Fried, G., Lowe, R., and Pineau, J. (2018). Ethical challenges in data-driven dialogue systems. In Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society, pages 123–129.
(Huang et al., 2019) Huang, P.-S., Zhang, H., Jiang, R., Stanforth, R., Welbl, J., Rae, J., Maini, V., Yogatama, D., and Kohli, P. (2019). Reducing sentiment bias in language models via counterfactual evaluation. arXiv preprint arXiv:1911.03064.
(Ibarz et al., 2018) Ibarz, B., Leike, J., Pohlen, T., Irving, G., Legg, S., and Amodei, D. (2018). Reward learning from human preferences and demonstrations in atari. In Advances in neural information processing systems, pages 8011–8023.
(Irving et al., 2018) Irving, G., Christiano, P., and Amodei, D. (2018). AI safety via debate. arXiv preprint arXiv:1805.00899.
(Jaques et al., 2019) Jaques, N., Ghandeharioun, A., Shen, J. H., Ferguson, C., Lapedriza, A., Jones, N., Gu, S., and Picard, R. (2019). Way off-policy batch deep reinforcement learning of implicit human preferences in dialog. arXiv preprint arXiv:1907.00456.
(Kenton et al., 2021) Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V., and Irving, G. (2021). Alignment of language agents. arXiv preprint arXiv:2103.14659.
(Keskar et al., 2019) Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., and Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
(Khashabi et al., 2020) Khashabi, D., Min, S., Khot, T., Sabharwal, A., Tafjord, O., Clark, P., and Hajishirzi, H. (2020). Unifiedqa: Crossing format boundaries with a single qa system. arXiv preprint arXiv:2005.00700.
(Kirk et al., 2021) Kirk, H., Jun, Y., Iqbal, H., Benussi, E., Volpin, F., Dreyer, F. A., Shtedritski, A., and Asano, Y. M. (2021). How true is gpt-2? an empirical analysis of intersectional occupational biases. arXiv preprint arXiv:2102.04130.
(Krause et al., 2020) Krause, B., Gotmare, A. D., McCann, B., Keskar, N. S., Joty, S., Socher, R., and Rajani, N. F. (2020). Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
(Kreutzer et al., 2018) Kreutzer, J., Khadivi, S., Matusov, E., and Riezler, S. (2018). Can neural machine translation be improved with user feedback? arXiv preprint arXiv:1804.05958.
(Lawrence and Riezler, 2018) Lawrence, C. and Riezler, S. (2018). Improving a neural semantic parser by counterfactual learning from human bandit feedback. arXiv preprint arXiv:1805.01252.
(Leike et al., 2018) Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., and Legg, S. (2018). Scalable agent alignment via reward modeling: a research direction. arXiv preprint arXiv:1811.07871.
(Leike et al., 2017) Leike, J., Martic, M., Krakovna, V., Ortega, P. A., Everitt, T., Lefrancq, A., Orseau, L., and Legg, S. (2017). AI safety gridworlds. arXiv preprint arXiv:1711.09883.
(Liang et al., 2021) Liang, P. P., Wu, C., Morency, L.-P., and Salakhutdinov, R. (2021). Towards understanding and mitigating social biases in language models. In International Conference on Machine Learning, pages 6565–6576. PMLR.
(Lin et al., 2021) Lin, S., Hilton, J., and Evans, O. (2021). Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
(Liu et al., 2019) Liu, H., Dacon, J., Fan, W., Liu, H., Liu, Z., and Tang, J. (2019). Does gender matter? towards fairness in dialogue systems. arXiv preprint arXiv:1910.10486.
(Madaan et al., 2022) Madaan, A., Tandon, N., Clark, P., and Yang, Y. (2022). Memory-assisted prompt editing to improve gpt-3 after deployment. arXiv preprint arXiv:2201.06009.
(Manela et al., 2021) Manela, D. d. V., Errington, D., Fisher, T., van Breugel, B., and Minervini, P. (2021). Stereotype and skew: Quantifying gender bias in pre-trained and fine-tuned language models. arXiv preprint arXiv:2101.09688.
(Mishra et al., 2021) Mishra, S., Khashabi, D., Baral, C., and Hajishirzi, H. (2021). Cross-task generalization via natural language crowdsourcing instructions. arXiv preprint arXiv:2104.08773.
(Nadeem et al., 2020) Nadeem, M., Bethke, A., and Reddy, S. (2020). Stereoset: Measuring stereotypical bias in pretrained language models. arXiv preprint arXiv:2004.09456.
(Nahian et al., 2021) Nahian, M. S. A., Frazier, S., Harrison, B., and Riedl, M. (2021). Training value-aligned reinforcement learning agents using a normative prior. arXiv preprint arXiv:2104.09469.
(Nakano et al., 2021) Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., Hesse, C., Jain, S., Kosaraju, V., Saunders,W., et al. (2021). Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332.
(Nallapati et al., 2016) Nallapati, R., Zhou, B., Gulcehre, C., Xiang, B., et al. (2016). Abstractive text summarization using sequence-to-sequence rnns and beyond. arXiv preprint arXiv:1602.06023.
(Nangia et al., 2020) Nangia, N., Vania, C., Bhalerao, R., and Bowman, S. R. (2020). CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, Online. Association for Computational Linguistics.
(Ngo et al., 2021) n H., Raterink, C., Araújo, J. G., Zhang, I., Chen, C., Morisot, A., and Frosst, N. (2021). Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
(Perez et al., 2019) Perez, E., Karamcheti, S., Fergus, R.,Weston, J., Kiela, D., and Cho, K. (2019). Finding generalizable evidence by learning to convince q&a models. arXiv preprint arXiv:1909.05863.
(Qian et al., 2019) Qian, Y., Muaz, U., Zhang, B., and Hyun, J. W. (2019). Reducing gender bias in word-level language models with a gender-equalizing loss function. arXiv preprint arXiv:1905.12801.
(Radford et al., 2019) Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8):9.
(Rae et al., 2021) Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., et al. (2021). Scaling language models: Methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11446.
(Rajpurkar et al., 2018) Rajpurkar, P., Jia, R., and Liang, P. (2018). Know what you don’t know: Unanswerable questions for squad. arXiv preprint arXiv:1806.03822.
(Rudinger et al., 2018) Rudinger, R., Naradowsky, J., Leonard, B., and Van Durme, B. (2018). Gender bias in coreference resolution. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, New Orleans, Louisiana. Association for Computational Linguistics.
(Sanh et al., 2021) Sanh, V., Webson, A., Raffel, C., Bach, S. H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T. L., Raja, A., et al. (2021). Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
(Schick et al., 2021) Schick, T., Udupa, S., and Schütze, H. (2021). Self-diagnosis and self-debiasing: A proposal for reducing corpus-based bias in nlp. arXiv preprint arXiv:2103.00453.
(Schulman et al., 2016) Schulman, J., Moritz, P., Levine, S., Jordan, M., and Abbeel, P. (2016). High-dimensional continuous control using generalized advantage estimation. In Proceedings of the International Conference on Learning Representations (ICLR).
(Schulman et al., 2017) Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
(Sheng et al., 2019) Sheng, E., Chang, K.-W., Natarajan, P., and Peng, N. (2019). The woman worked as a babysitter: On biases in language generation. arXiv preprint arXiv:1909.01326.
(Silver et al., 2017) Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.
(Soares et al., 2015) Soares, N., Fallenstein, B., Armstrong, S., and Yudkowsky, E. (2015). Corrigibility. In Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence.
(Socher et al., 2013) Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A. Y., and Potts, C. (2013). Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1631–1642.
(Solaiman et al., 2019) Solaiman, I., Brundage, M., Clark, J., Askell, A., Herbert-Voss, A., Wu, J., Radford, A., Krueger, G., Kim, J. W., Kreps, S., et al. (2019). Release strategies and the social impacts of language models. arXiv preprint arXiv:1908.09203.
(Solaiman and Dennison, 2021) Solaiman, I. and Dennison, C. (2021). Process for adapting language models to society (palms) with values-targeted datasets. arXiv preprint arXiv:2106.10328.
(Stiennon et al., 2020) Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
(Tamkin et al., 2021) Tamkin, A., Brundage, M., Clark, J., and Ganguli, D. (2021). Understanding the capabilities, limitations, and societal impact of large language models. arXiv preprint arXiv:2102.02503.
(Thoppilan et al., 2022) Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., et al. (2022). Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239.
(Vig et al., 2020) Vig, J., Gehrmann, S., Belinkov, Y., Qian, S., Nevo, D., Singer, Y., and Shieber, S. M. (2020). Investigating gender bias in language models using causal mediation analysis. In NeurIPS.
(Völske et al., 2017) Völske, M., Potthast, M., Syed, S., and Stein, B. (2017). Tl; dr: Mining reddit to learn automatic summarization. In Proceedings of the Workshop on New Frontiers in Summarization, pages 59–63.
(Wang et al., 2019) Wang, A., Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O., and Bowman, S. R. (2019). Superglue: A stickier benchmark for general-purpose language understanding systems. arXiv preprint arXiv:1905.00537.
(Wei et al., 2021) Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M., and Le, Q. V. (2021). Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
(Weidinger et al., 2021) Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., et al. (2021). Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359.
(Welbl et al., 2021) Welbl, J., Glaese, A., Uesato, J., Dathathri, S., Mellor, J., Hendricks, L. A., Anderson, K., Kohli, P., Coppin, B., and Huang, P.-S. (2021). Challenges in detoxifying language models. arXiv preprint arXiv:2109.07445.
(Wu et al., 2021) Wu, J., Ouyang, L., Ziegler, D. M., Stiennon, N., Lowe, R., Leike, J., and Christiano, P. (2021). Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
(Xu et al., 2021) Xu, A., Pathak, E., Wallace, E., Gururangan, S., Sap, M., and Klein, D. (2021). Detoxifying language models risks marginalizing minority voices. arXiv preprint arXiv:2104.06390.
(Xu et al., 2020) Xu, J., Ju, D., Li, M., Boureau, Y.-L., Weston, J., and Dinan, E. (2020). Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
(Yi et al., 2019) Yi, S., Goel, R., Khatri, C., Cervone, A., Chung, T., Hedayatnia, B., Venkatesh, A., Gabriel, R., and Hakkani-Tur, D. (2019). Towards coherent and engaging spoken dialog response generation using automatic conversation evaluators. arXiv preprint arXiv:1904.13015.
(Zellers et al., 2019) Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., and Choi, Y. (2019). Hellaswag: Can a machine really finish your sentence? In Association for Computational Linguistics, pages 4791–4800.
(Zhao et al., 2021) Zhao, M., Anderson, P., Jain, V., Wang, S., Ku, A., Baldridge, J., and Ie, E. (2021). On the evaluation of vision-and-language navigation instructions. arXiv preprint arXiv:2101.10504.
(Zhou and Xu, 2020) Zhou, W. and Xu, K. (2020). Learning to compare for better training and evaluation of open domain natural language generation models. arXiv preprint arXiv:2002.05058.
(Ziegler et al., 2019) Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593. 25

付録A：Additional prompt data details（追加のプロンプトデータの詳細）

付録A.1：Labeler-written prompts（ラベラーで書かれたプロンプト）

まず，プロンプトのブーストラッピングプロセスについて若干の詳細を説明する．

前述のように，プロジェクトの大部分では，OpenAI APIの命令ベータモデルの外部ユーザから直接プロンプトを取得した．

しかし，この戦略は，命令ライクなプロンプトを受け入れるモデルができて初めて機能する．

そこで，そのようなモデルを開発するために，コントラクター自身にプロンプトを書いてもらうことにした．

ラベラーには，3種類のプロンプトを書いてもらった．

Plain：タスクの多様性を確保しつつ，ラベラーに任意のタスクを考えてもらうだけである．
Few-shot：ラベラーに，命令と，その命令に対する複数のクエリとレスポンスのペアを考えてもらう．例えば，「あるツイートの感情を教えてください」（Give the sentiment for a tweet）という命令で，クエリはツイート，回答は「肯定的」または「否定的」のどちらかになる．そして，(Brown et al., 2020)のようなfew-shotプロンプトとしてフォーマットすることができる．K個のクエリとレスポンスのペアがあれば，他のK-1個のコンテキストを使用してK個の訓練例を作成する．
User-based：OpenAI APIへの応募で，いくつかのユースケースを挙げてもらった．これらのユースケースに対応するプロンプトを，ラベラーに考えてもらった．

アプリケーション情報の匿名性を保つため，別のラベラーにアプリケーションのリストを見た上で漠然とした高レベルのタスクを作成させ，タスクの説明を修正して，特定のアプリケーションに固有の情報を排除した．

このデータは，教師あり学習による最初のInstructGPTモデルの訓練に使用され，2021年初頭にAPIにベータ版としてデプロイされた．

付録A.2：API user prompts（APIユーザプロンプト）

APIプロンプトについては，OpenAI API PlaygroundのInstructGPTモデルの前述の初期バージョンにユーザから提出されたプロンプトを使用している．

本論文では，インフォームドコンセントを得るのが容易であったため，プロダクションで我々のモデルを使用する顧客ではなく，Playgroundからのデータのみを使用している．

ユーザがInstructGPTモデルに切り替えるたびに，これらのモデルに送信されたプロンプトは，当社のモデルの将来のバージョンを訓練するために使用できることを示すアラートメッセージがポップアップ表示された．

また，InstructGPTモデルのベータ版を立ち上げる際に，開発者用Slackチャンネルのメッセージでこのことを伝えた．

個人情報（PII：Personally Identifiable Information）を含むプロンプトを訓練スプリットからフィルタリングしている．

ユースケースの多様性を確保するため，長い共通プレフィックスを持つプロンプトをチェックすることでプロンプトの重複を発見的に排除し，プロンプトの数を組織ごとに約200個に制限した．

さらに，組織IDに基づいて訓練，検証，テストの分割を行い，例えば，検証セットには訓練セットとは異なるユースケースが含まれるようにした．

APIリクエストは，生成，オープンQA，クローズドQA，ブレインストーミング，チャット，リライト，要約，分類，抽出，その他という10のユースケースのいずれかに属すると概念化した．

以下，様々なユースケースから，架空の，しかし現実的なプロンプトを紹介する．

A.2.1項：Illustrative user prompts from InstructGPT distribution（InstructGPT分布のイラスト入りユーザプロンプト）

次に，GPT-3に提出されたプロンプトについて，各ユースケースカテゴリーのAPIリクエストの概略例を挙げる．

これらは一般に「命令型」ではなく，より明示的なプロンプトを含んでいる．

なお，プロンプトの中には，ユーザの意図が不明確なものもある．

A.2.2項：Illustrative user prompts from GPT-3 distribution（GPT-3分布のイラスト入りユーザプロンプト）

付録A.3：Dataset sizes（データセットサイズ）

InstructGPT Table6 — 表6：データセットのサイズ（プロンプトの数で表す）．

表6では，SFT，RM，RLモデルの訓練/検証に使用したデータセットのサイズと，プロンプトが我々のラベリングコントラクターによって書かれたか，我々のAPIから書かれたかについて報告している．

SFTの場合，カスタマープロンプトよりもラベラーライティングプロンプトの方が多いことに注意されたい．

これは，プロジェクト開始当初，ラベラーに命令を書かせる際，包括的な命令のテンプレートと，その命令のfew-shot例を示すようなユーザインターフェースを用いていたためである．

同じ命令から複数のSFTデータポイントを合成し，異なるfew-shot例をサンプリングすることで，複数のSFTデータポイントを構築した．

RMでは，プロンプトごとにK個の出力（4から9の範囲）のランキングを収集し，すべて$\left( \frac{K}{2} \right)$でモデルを訓練したため，モデルを訓練したランキングペアの数はプロンプトの数より1桁多くなっていることを思い出してほしい．

A.4節：Data diversity（データの多様性）

我々が収集するデータは，幅広いカテゴリーとユースケースに及んでいる．

表1は，コントラクターがラベル付けしたRM訓練データセットとバリデーションデータセットにおけるカテゴリーの多様性を示している．

PPOデータセットでも，カテゴリーの分布は同様だった．

さらに，表7にラベル付けされたプロンプトのメタデータのサブセットを示す．

アノテーションフィールドはプロジェクト期間中に変更されたため，すべてのプロンプトがすべてのフィールドにアノテーションされているわけではないことに注意されたい．

軽量な分類器（langid.py）を使って，データセットに含まれるすべての命令の言語を分類した．

経験的に，データセット（110kデータポイント）の約96％が英語と分類されたが，分類器の不正確さにより，実際の割合は99％以上と推定される．

英語以外に，少なくとも20の言語でプロンプトが表示されたのは少数派であった：スペイン語，フランス語，ドイツ語，ポルトガル語，イタリア語，オランダ語，ルーマニア語，カタロニア語，中国語，日本語，スウェーデン語，ポーランド語，デンマーク語，トルコ語，インドネシア語，チェコ語，ノルウェー語，韓国語，フィンランド語，ハンガリー語，ヘブライ語，ロシア語，リトアニア語，エスペラント語，スロベニア語，クロアチア語，スワヒリ語，エストニア語，スロベニア語，アラビア語，タイ語，ベトナム語，マレー語，ギリシャ語，アルバニア語，チベット語．

InstructGPT Table8 — 表8：顧客一人当たりの平均プロンプト数

InstructGPT Table9 — 表9：データセット別のプロンプトの長さ

InstructGPT Table10 — 表10：カテゴリー別のプロンプトの長さ

表8は，各顧客がデータセットに提供したプロンプトの平均数を示している．

表9では，さまざまなモデルの学習に使用したプロンプトの長さ（トークン単位）の記述統計，表10では，トークンの長さをユースケース別に分類している．

最後に，表11では，SFTモデルに使用したコントラクターが書いたデモの長さを，コントラクターが書いたプロンプトとラベラーが書いたプロンプトの両方で報告している．

付録B：Additional human data collection details（追加の人間データ収集の詳細）

付録B.1：Labeler selection（ラベラーの選定）

ラベラーは，Upworkを通じて雇用された請負業者，またはScale AIから調達したものである．

RLHFの先行研究では，要約のドメインに焦点を当てた(Ziegler et al., 2019; Stiennon et al., 2020; Wu et al., 2021)とは異なり，この研究では，言語モデルに提出される自然言語プロンプトの幅広いセットを人間がラベル付けすることを望んでおり，その中には本質的に繊細なものも含まれている場合がある．

そのため，センシティブなコンテンツを検出し，対応する傾向が高いラベラーを選択するスクリーニングプロセスを実施した．

具体的には，最初のラベラー候補の中から，以下の基準で訓練用ラベラーを選定した．

センシティブスピーチのフラグ付けに関する合意．我々は，プロンプトと補完のデータセットを作成した．プロンプトや補完の中には，センシティブなもの（有害，性的，暴力的，批判的，政治的など，強い否定的感情を引き起こす可能性があるもの）が含まれている．このデータには，我々自身が敏感さを示すラベルを貼り，ラベルを貼った人たちとの間の一致度を測定した．
ランキングの合意．APIに投稿されたプロンプトと，いくつかのモデルの完成度を，ラベラーに総合的な品質でランク付けしてもらう．研究者のラベルとの一致度を測定する．
センシティブなデモライティング．我々は，出力に適切に対応するためにはニュアンスが必要となるような，繊細なプロンプトのセットを少量作成した．そして，それぞれのデモを1～7のリッカート尺度で評価し，各ラベラーの平均「デモスコア」を算出した．
さまざまなグループのセンシティブスピーチを識別する能力を自己評価した．我々は，幅広い分野でセンシティブなコンテンツを識別できる能力をまとめて持つラベラーチームを選びたいと考えていた．法律上の理由から，人口統計学的な基準でコントラクターを採用することはできなかった．そこで，ラベラーには次のような質問に答えてもらった．「どのような話題や文化的なグループに対して，センシティブな言論を特定することに抵抗がないのか？」（For what topics or cultural groups are you comfortable identifying sensitive speech?）という質問に答えてもらい，選考プロセスの一部として利用した．

このデータを収集した後，これらの基準すべてで良好な結果を得たラベラーを選出した（選出は匿名化されたデータで行った）．

4つ目の基準は主観的なものなので，最終的にはこの基準に従って主観的にラベラーを選んだが，繊細な音声のフラグ立てと比較の一致率は75％，デモスコアは6/7というソフトカットオフを設けた．

付録B.2：Labeling instructions（ラベリングの命令）

ラベラーに提供する命令は，プロジェクト期間中にフィードバックを受け，メタデータフィールドを変更し，何を測定したいかをより深く理解することで，進化してきた．

また，分かりにくかったり，一貫性がなかったりする場合は，修正も行った．

特に，訓練データのラベリングでは，ラベラーに「ユーザにとっての有用性」を最優先させたが，最終評価ではラベラーに「真実性」と「無害性」を最優先させた．

我々は，訓練中にモデルが「有用性」よりも「真実性」や「無害性」を好むことがあるように，特に「拒否」（特定の命令に対する回答を拒否すること）を利用した研究の道を探っている．

これには，新たな課題がある．

アプリケーションによってリスクのレベルが異なるため，推論時にモデルが拒否する内容を設定できるようにする必要がある．

また，モデルが過剰に汎化し，無害な命令を拒否する危険性もあり，これはほとんどのアプリケーションにとって望ましくない．

InstructGPT Figure10 — 図10: 我々のプロンプト分布で，モデル出力の最終評価を行うラベラーに与えられた命令の抜粋．ここに命令の全文を掲載する．

InstructGPT Figure11 — 図11：RealToxicityPrompts分布上でモデル出力の毒性を評価するためにラベラーに与えられる完全な命令．

図10にプロンプト分布，図11にRealToxicityPrompts分布に最終評価の命令を抜粋して示す．

※訳注：原文の表10と表11は，それぞれ図10と図11の間違い．

付録B.3：Labeler demographic data（ラベラーの人口統計データ）

ラベラーの人口統計をより深く理解するために，任意で無記名の調査を送った．

19名の回答者の結果を表12に示す．

全体として，ラベラーは非常に若く（75%が35歳未満），男女のバランスもよく，米国や東南アジアの出身者が多いことがわかる．

付録B.4：Labeler satisfaction survey（ラベラーの満足度調査）

人口統計調査と合わせて，タスクに関するフィードバックを得るための調査も実施した．

19名の回答者の結果を表13に示す．

全体として，ラベラーはタスクを楽しみ，仕事に対して正当な報酬が支払われたと考え，研究者からの親切な対応やコミュニケーションレベルに感謝していることが分かった．

ラベラーの中には，タスクが反復的であると感じた人もいたが，一方で，タスクに十分なバリエーションがあり，面白く魅力的であると感じた人もいた．

付録B.5：Web interface（Webインターフェース）

InstructGPT Figure12 — 図12: ラベリングインターフェースのスクリーンショット．（a）各出力に対して，ラベラーは全体的な品質を1〜7のリッカート尺度で評価し，また様々なメタデータラベルを提供する．（b）各出力を個別に評価した後，ラベラーは与えられたプロンプトに対してすべての出力をランク付けする．2つのアウトプットが同程度の品質であると思われる場合は，同点にすることが推奨される．

図12は，ラベラー（および研究者）全員がデータにラベルを付けるために使用する，ラベリングインターフェースのスクリーンショットである．

付録C：Additional model details（追加モデルの詳細）

すべてのモデルアーキテクチャはGPT-3アーキテクチャを使用している(Brown et al., 2020)．

報酬モデルと価値関数については，オリジナルモデルの非埋め込み層を投影層に置き換えてスカラー値を出力している．

すべてのモデルはfp16の重みと活性化関数を使用し，重みのマスターコピーはfp32である．

(Brown et al., 2020)と同じバイトペアエンコーディングが全てのモデルで使用されている．

言語モデルとRL方策はすべて，コンテキストの長さを2kトークンとする．

1kトークンより長いプロンプトをフィルタリングし，最大応答長を1kトークンに制限している．

すべてのモデルはAdamオプティマイザーを用いて，$\beta_1 = 0.9$，$\beta_2 = 0.95$で訓練されている．

付録C.1：Details of SFT training（SFT訓練の詳細）

我々はSFTモデルを16エポック，残差ドロップアウトを0.2として訓練する．

学習率のウォームアップは行わず，元の学習率の10%までコサインLRスケジュールを使用した．

1.3Bと6Bのモデルには，9.65e-6のLRと32のバッチサイズを使用した．

175Bでは，LRを5.03e-6，バッチサイズを8とした．

学習率を選択するために，1.3Bと6Bでは7つのLRを，175Bでは5つのLRを幾何学的に探索した．

また，幾何学的探索を用いてエポック数をチューニングした．

最終的なモデルはRMスコアに基づいて選択された．

RMスコアは，検証損失と比較して，人間の好みの結果をより予測できることが分かっている．

付録C.2：Details of RM training（RM訓練の詳細）

6Bの報酬モデルを1つ訓練し，それをすべてのサイズのPPOモデルに使用した．

より大きな175B RMは，より低い検証損失を達成する可能性があったが，（1）その訓練はより不安定であり，PPO価値関数の初期化として使用するには適していない，（2）175B RMと価値関数を使用するとPPOの計算量が大幅に増加する．

予備実験では，6B RMは幅広い学習率で安定であり，同様に強力なPPOモデルにつながることを発見した．

最終的な報酬モデルは6B GPT-3モデルから初期化され，様々な公開NLPデータセット（ARC，BoolQ，CoQA，DROP，MultiNLI，OpenBookQA，QuAC，RACE，Winogrande）でファインチューニングされた．

これは主に歴史的な理由によるものである．

GPT-3やSFTモデルからRMを初期化しても，同様の結果が得られた．

学習率lr = 9e-6，コサイン学習率スケジュール（訓練終了時には初期値の10%に低下），バッチサイズ64で，報酬モデルの全訓練セット（表6参照）に対してシングルエポックで訓練を行った．

訓練は学習率やスケジュールに対してあまり敏感ではないようであった．

学習率を50%まで変化させても，ほぼ同様の結果が得られた．

訓練は，エポック数に非常に敏感であった．

エポック数を増やすと，訓練データに対するモデルのオーバーフィットが早くなり，検証損失が明らかに悪化した．

ここでいうバッチサイズとは，バッチごとのプロンプトの数を表している．

各プロンプトにはK = 4からK = 9のラベル付き完了があり，そこから最大$\left( \frac{K}{2} \right)$の比較の可能性がある．

同値は削除された．

したがって，1つのバッチは最大$64 * \left( \frac{K}{2} \right) \leq 2,304$の比較を含むことができる．

付録C.3：Details of the initialization models for RLHF（RLHFの初期化モデルの詳細）

GPT-3モデルからRLHFモデルを初期化し，実証データセットに対して2エポック間の教師ありファインチューニングを適用する．

また，ファインチューニングの際に10%の事前訓練データを混ぜるが，これはPPO訓練に役立つと考えられるためである（詳細は付録E.11を参照）．

コサイン学習率スケジュールを用い，学習率は最終的にピーク学習率の10%まで減衰する．

バッチサイズは1.3Bと6Bモデルで32，175Bモデルで8を使用する．

各モデルのピーク学習率をいくつか比較し，デモと事前訓練検証の両方のデータセットで損失が少ないものを選ぶ．

1.3Bと6Bのモデルについては5値，175Bのモデルについては3値のLRを対数線形スイープで比較した．

その結果，1.3B，6B，175BモデルのLRは，それぞれ5e-6，1.04e-5，2.45e-6となった．

付録C.4：Details of RLHF training（RLHF訓練の詳細）

そして，上記の教師ありファインチューニングモデルからRL方策を事前訓練混合で初期化する．

これらのモデルは，(Stiennon et al., 2020)と同様に，$\beta = 0.02$として，KL報酬を計算するためにも使用される（式1参照）．

256kエピソードについて全てのRLモデルを訓練する．

これらのエピソードには，PIIを含むプロンプトをフィルタリングし，共通のプレフィックスに基づく重複排除を行った後の，約31kのユニークなプロンプトが含まれている．

各反復のバッチサイズは512であり，ミニバッチサイズは64である．

言い換えれば，各バッチはランダムに8つのミニバッチに分割され，単一の内側エポックのみについて訓練される(Schulman et al., 2017)．

最初の10回の反復でウォームアップを行い，ピーク学習率の10分の1から始めて一定の学習率が適用される．

重みの指数移動平均が適用され，減衰率は0.992である．

汎化された優位性を推定する際にdiscountは適用しない(Schulman et al., 2016)．

PPOクリップ比は0.2に設定し，ロールアウトのサンプリングtemperatureは1とする．

前述のように，すべてのPPOモデルについて，6BのRMと6Bの価値関数を使用し，後者は前者から初期化される．

すべてのモデルサイズの方策で同じ6B報酬モデルと価値関数を使用することで，方策モデルサイズが方策の性能に及ぼす影響を比較することが容易になる．

価値関数の学習率は，1.3Bと6Bの方策では9e-6，175Bの方策では5e-6の固定値が使用されている．

初期のRLHF実験では，SQuADv2やDROPなどの公開NLPデータセットで回帰が見られたが，PPO訓練時に事前訓練勾配を混ぜることで回帰を軽減した．

RLの訓練エピソード数の8倍以上の事前訓練例を使用する．

事前訓練データは，GPT-3モデルの訓練に使用したデータセットからランダムに抽出したものである．

各ミニバッチについて，PPO勾配と事前訓練勾配を連続的に計算し，両方を勾配バッファに蓄積する．

事前訓練の勾配に係数$\gamma = 27.8$（式1参照）をかけて，PPOと事前訓練の分布からの勾配の相対的な強さを制御する．

付録C.5：FLAN and T0 models（FLANとT0モデル）

FLANとT0のベースラインは，FLANとT0のデータセットで175B GPT-3モデルをファインチューニングすることによって得られた．

T0については，T0++バージョンのデータセットで訓練したことに注意されたい．

T0はFLAN（120万データポイント）よりもはるかに多くのデータ（96万データポイント）を含んでいるため，各モデルの訓練データ量を同等にするために，T0を100万データポイントにサブサンプリングした．

なお，オリジナルのモデルはデータポイントを繰り返すことができるエポックで訓練するが，今回のエポックでは，（SFTベースラインの学習方法と同じように）繰り返さずにすべてのデータポイントを通過させた．

コサイン学習率スケジュールを適用し，各データセットで4e-6と6e-6の初期学習率を試行した．

学習率は訓練終了時にピーク時の10%まで低下し，両実験ともバッチサイズは64を使用した．

InstructGPT Figure13 — 図13：報酬モデルのスコアに基づくFLANとT0のチューニング

最適なFLANチェックポイントを選択するために，6B報酬モデルを使用して，プロンプトの検証セットでの完了をスコア化する．

図13に示すように，報酬は最初の400k例で飽和している．

これは，これ以上長い時間訓練しても，人間による評価結果が改善される可能性が低いことを示している．

そこで，学習率4e-6，896k例で訓練させたチェックポイントのうち，RMスコアが最も高いものを人間評価に採用した．

最適なT0チェックポイントを見つけるために，2つの同様の実験を行った．

1つの実験では，バッチサイズ128，学習率4e-6，128万例を使用した．

もう1つの実験では，バッチサイズ64，学習率6e-6，100万例を使用した．

再び報酬モデルのスコアを使用し，896k例の訓練後，前者の実験からチェックポイントを選択した．

付録D：Automatic evaluation details（自動評価の詳細）

以下のベンチマークデータセットで自動評価を行う．

Winogender(Rudinger et al., 2018)
CrowS-Pairs(Nangia et al., 2020)
RealToxicityPrompts(Gehman et al., 2020)
TruthfulQA(Lin et al., 2021)
DROP(Dua et al., 2019)
QuAC(Choi et al., 2018)
SquadV2(Rajpurkar et al., 2018)
Hellaswag(Zellers et al., 2019)
SST(Socher et al., 2013)
RTE and WSC(both part of SuperGLUE(Wang et al., 2019))
WMT 15 Fr -> En(Bojar et al., 2015)
CNN/Daily Mail Summarization(Nallapati et al., 2016)
Reddit TLDR Summarization(Völske et al., 2017)

タスクはすべて似たような形式をとる．

（オプションで）タスク内のすべてのクエリに共通する命令で始まる．

次に，各クエリのコンテキストが含まれる．

そして，モデルからサンプリングされるか，複数の選択肢から選択される完了で終わる．

すべてのモデルのサンプリングはtemperature T = 0で行われ，最初の改行で切り捨てられる．

複数の選択肢の答えは，T = 1におけるトークンごとの平均対数確率が最も低いものにしたがって選ばれる．

プロンプトがfew-shot例を含む場合，最終的なクエリと同じようにfew-shot例の形式を維持する．

付録D.1：Toxicity and bias evaluation details（毒性とバイアス評価の詳細）

偏りや毒性を測定するために，3つの異なるプロンプトのタイプに対応する3つの命令の選択をした結果を示す．

基本プロンプト（命令なし）
respectfulプロンプト
バイアス（偏り）プロンプト

respectful命令とバイアス命令は以下の通りである．

respectful: Complete the following sentence in a polite, respectful, and unbiased manner:
biased: Complete the following sentence using maximally biased and offensive language:

1 2	respectful: Complete the following sentence in a polite, respectful, and unbiased manner: biased: Complete the following sentence using maximally biased and offensive language:

バイアスタスクについては，各選択肢の平均エントロピーを報告している．

エントロピーはビット単位で測定され，モデルが選択を行う際の確実性を示す．

$H = - \sum_{i \in choices} P_i \log_2 P_i$で与えられ，ここで$\sum P_i = 1$，各$P_i$はモデルがその完了に割り当てる総確率に比例する．

二者択一の場合の最大エントロピーは1である．

エントロピーが大きいということは，モデルがどの選択肢を取るか迷っている，あるいは同等に，利用可能な選択肢の中で偏りがなく，好みがないことを示す．

付録D.2：Prompt structure and evaluation features for each eval dataset（各評価データセットにおけるプロンプトの構成と評価特徴量）

本節では，各自動評価タスクについて，プロンプトの構造，および検証例数や性能指標などの他のデータセットの特徴について述べる．

これらを図14～27に示す．

※訳注：原文の表14～25は，図14～27の間違い．

InstructGPT Figure14 — 図14：Winogender：プロンプト，例，データセットの特徴量．

InstructGPT Figure15 — 図15：CrowS-Pairs：プロンプト，例，データセットの特徴量．

InstructGPT Figure16 — 図16：RealToxicityPrompts：プロンプト，例，データセットの特徴量．

InstructGPT Figure17 — 図17：TruthfulQA：プロンプト，例，データセットの特徴量．

InstructGPT Figure18 — 図18：DROP：プロンプト，例，データセットの特徴量．

InstructGPT Figure19 — 図19：QuAC：プロンプト，例，データセットの特徴量．

InstructGPT Figure20 — 図20：Squadv2：プロンプト，例，データセットの特徴量．

InstructGPT Figure21 — 図21：Hellaswag：プロンプト，例，データセットの特徴量．

InstructGPT Figure22 — 図22：RTE：プロンプト，例，データセットの特徴量．

InstructGPT Figure23 — 図23：SST：プロンプト，例，データセットの特徴量．

InstructGPT Figure24 — 図24：WSC：プロンプト，例，データセットの特徴量．

InstructGPT Figure25 — 図25：WMT Fr -> En 15：プロンプト，例，データセットの特徴量．

InstructGPT Figure26 — 図26：CNN/DM：プロンプト，例，データセットの特徴量．

InstructGPT Figure27 — 図27：TL;DR：プロンプト，例，データセットの特徴量．

付録E：Additional results（追加結果）

付録E.1：Performance on public NLP datasets（公開NLPデータセットでの性能）

InstructGPT Figure28 — 図28：様々な公開NLPデータセットに対する我々のモデルのzero-shot性能．175B PPOモデルは一貫して性能の後退を示し，これはファインチューニングの際に事前訓練データの更新を加えることで緩和される．few-shotの性能を図29に示す．翻訳のエラーバーは，それを報告しないソフトウェアパッケージを使用しているため，入手できない．

InstructGPT Figure29 — 図29：様々な公開NLPデータセットに対する我々のモデルのfew-shot性能（図28のzero-shot性能との比較）

我々は，偏り，毒性，真実性，およびさまざまな自然言語能力を総合的に測定する自動評価タスクを，我々のモデルに対して実行した．

これらの評価結果は表14の通りである．

図28にモデルのzero-shot性能を，図29にfew-shot性能を示す．

事前訓練混合を使用しないPPOモデルは，多くのデータセットで性能後退があり，特にfew-shot設定では，これらの後退はPPO-ptxモデルによって軽減されることがわかる．

付録E.2：Reward model generalization across sets of labelers（ラベラーの集合を超えた報酬モデルの汎化）

本手順が訓練用ラベラーにどれだけ適合しているかを測定するために，ラベラーのサブセットに対して複数のRMsを訓練させ，その汎化をhold-outラベラーに対してテストする実験を行った．

比較データを5つのラベラーグループに分け，各グループがほぼ同じ量の訓練データを持つようにする．

そして，4つのグループで6B報酬モデルを訓練し，もう1つのグループで検証することで，5重のクロスバリデーションを適用する．

付録C.2で定義したものと同じハイパーパラメータを使用する．

その結果，人間にとって好ましい出力を予測するためのグループ間およびグループ内の検証精度は，それぞれ72.4±0.4%，69.6±0.9%となり，我々のRMsが訓練ラベラーと同じセットから抽出されたhold-outラベラーに対してうまく汎化できることが示された．

付録E.3：Metadata results as a function of model size（モデルサイズの関数としてのメタデータ結果）

図30では，モデルサイズの関数としてメタデータの結果を示している．

InstructGPT Figure30 — 図30：モデルタイプおよびモデルサイズの関数としてのメタデータ評価

付録E.4：Likert scores（リッカート尺度）

図31では，プロンプト分布に対する各モデルのリッカート尺度を示している．

この結果は，4.1節で示した好みの結果とほぼ一致している．

付録E.5：Measuring bias（バイアスを測定する）

WinogenderとCrowS-Pairsのデータセットでの結果を図32に示す．

InstructGPTは，これらのデータセットにおいてGPT-3を大きく上回ることはなかった．

InstructGPT Figure32 — 図32：WinogenderとCrowS-Pairsのバイアス結果．

付録E.6：Fixing regressions on public NLP datasets（公開NLPデータセットの回帰を修正する）

InstructGPT Figure33 — 図33：公開NLPデータセットでの評価（事前訓練損失係数の関数として）．DROPとSQuADで大きな改善をもたらし，バリデーション報酬ではあまり回帰しない事前訓練係数が存在する．
※訳注：原文のvalidatoin rewardはvalidation rewardの間違い．

事前訓練の損失係数(式1の$\gamma$)を様々にスイープし，公開NLPデータセットと検証報酬の性能への影響を確認した．

その結果を図33に示す．

事前訓練損失係数を20以上に設定することで，1.3Bモデルで，これらのタスクの回帰を回復することができる．

また，事前訓練損失係数に対する感度はタスクによって異なることに気づいた．

事前訓練損失係数を大きくすると検証報酬が下がるが，1.3Bから175Bのパラメータ数のモデルサイズでは，27.8という単一の値がうまく機能するようである．

人間のリッカート尺度は，アブレーション研究において，事前訓練損失係数の正確な値に敏感でないように見えた．

InstructGPT Figure34 — 図34：KL報酬係数の関数として，公開NLPデータセットでの評価．KL係数を大きくしても，DROPとSQuADの回帰は完全には緩和されない．

さらに，1.3Bモデルを用いて，公開NLPデータセットにおいて，KL報酬の係数（式1の$\beta$）を大きくすることが回帰を修正するのに十分かどうかを調査した．

事前訓練の損失係数を0に設定し，対数線形空間でKL報酬の係数の範囲を一様にスイープした．

結果は図34に示す通りである．

この実験では，KL報酬モデルとして，事前訓練したGPTモデルを使用している．

KL報酬係数をデフォルト値の100倍である2.0まで増やしても，回帰が固定化されないことがわかる．

予想通り，KL報酬係数が大きすぎると，検証報酬が大きく低下してしまう．

この結果は，公開NLPデータセットの回帰を修正し，事前訓練したモデルの能力を維持するためには，事前訓練データの分布が重要であることを示している．

InstructGPT Figure35 — 図35：公開NLPデータセットでの評価（訓練エピソードの関数として）

図35では，1.3Bモデルで，より長く訓練すると，公開NLPデータセットで回帰が起こることを示している．

PPOのデフォルトの訓練方法である事前訓練混合を適用し，3つの異なるランダムシードを用いている．

256kエピソードの訓練の代わりに，512kエピソードの訓練を行っている．

見てわかるように，DROPとSquadV2では，GPT-3モデルより良い性能でスタートする．

訓練が進むにつれて，両タスクの性能はGPT-3のベースラインをわずかに下回るようになった．

付録E.7：Optimal KL reward coefficient（最適なKL報酬係数）

InstructGPT Figure36 — 図36：KL報酬係数の関数としてのリッカート尺度．青い線は，係数がゼロのときの報酬値を示す（x軸の対数スケールのため，他のグラフには表示されていない）．

PPO訓練のための事前訓練データ混合でも，KL報酬係数を適切にチューニングすることが重要である．

図36では，人間のリッカート尺度をKL報酬係数の関数として示している．

KL報酬係数が0と2の両方では，性能が低下する．

最適な値は0.01と0.02あたりである．

付録E.8：PPO init models（PPOのinitモデル）

InstructGPT Figure37 — 図37：異なるinitモデルを使用したPPOに対する人間のリッカート尺度．

SFTモデルをPPOのinitモデルとして，1エポックと2エポック，0%，10%，50%の事前訓練データ混合で訓練するなど，いくつかのバリエーションで実験した結果である．

図37に示すように，唯一，10%の事前訓練データ混合の設定が際立っている．

しかし，PPOの性能はこの設定に影響されないと思われるため，PPOのinitモデルは，10%の事前訓練データ混合で，2エポック間，人間のデモ用データセットで訓練することにした．

付録E.9：Learning rate optimization for PPO models（PPOモデルにおける学習率最適化）

InstructGPT Figure38 — 図38：学習率の関数としての人間の評価指標．

1.3Bと6Bの両モデルについて，学習率を対数線形空間でスキャンし，2.55e-6から2.55e-5まで，事前訓練データ混合のあるPPOとないPPOの両方について，学習率を測定した．

学習率が8.05e-6を超える実行は，事前訓練データ混合なしのPPOモデルで，すべて発散した．

175Bモデルについては，計算機の制約から，2.55e-6と3.74e-06の2つの学習率で同様の実験を行った．

図38は，人間による評価結果である．

事前訓練データ混合を用いたPPOは，学習率の変化に対する感度が低いようである．

これらの結果をもとに，最も高いリッカート尺度を持つチェックポイントを最終的なモデルとして選んだ．

付録E.9：RealToxicityPrompts results as a function of input toxicity（入力された毒性の関数としてのRealToxicityPromptsの結果）

InstructGPT Figure39 — 図39：RealToxicityPromptsの毒性スコアは，入力プロンプトの毒性との関数である．PPOの命令追従モデルは，一般に，命令追従でないモデルよりも毒性が低い出力を作成するが，それはrespectful命令の場合に限られる．バイアス命令を受けた場合，同じモデルは，入力プロンプトの毒性が低くても，非常に毒性の高いコンテンツを確実に出力する．

RealToxicityPromptsタスクでは，Perspective APIを使用して毒性を測定し，図39に示すように，モデル出力の毒性が入力プロンプトの毒性と高い相関があることを発見した．

安全でない環境におけるモデルの挙動をよりよく捉えるため，RealToxicityPromptsデータセットから，プロンプトの毒性がほぼ均一に分布する5000例を抽出し，このサンプルの平均毒性を報告する．

※訳注：原文では図40と図41の参照はありませんが，こちらに記載します．

InstructGPT Figure40 — 図40：RealToxicityPrompts実験の継続性と相対的な毒性評価．

InstructGPT Figure41 — 図41：RealToxicityPromptsにおける175B GPT-3に対するPPO-ptxおよびSFTの勝率．

付録E.11：Additional ablations（追加アブレーション）

事前訓練の損失係数を一定にしたまま，異なる量の事前訓練データを使用して比較した．

事前訓練データ量を増やすことで，事前訓練による勾配推定値の品質が向上する．

その結果，事前訓練データの比率を4とした場合，事前訓練分布の対数確率損失は，学習期間中，しばしば増加することがわかった．

いくつかの予備実験では，32の事前訓練データ比率でより良い人間のリッカート尺度が達成されることが示されている．

しかし，訓練時間は数倍に増加する．

事前訓練データ比率を8に設定すると，事前訓練混合を使用しない場合と比較して，訓練時間は2倍になる．

これは，訓練速度と事前訓練損失の性能の中間的な値として選んだものである．

1.3Bモデルを使用した場合，256kエピソードを超える訓練は，PPOの場合，事前訓練データ混合では役に立たないと判断した．

プロンプトの数を増やし，より大きなモデルを使用することで，この結論が変わるかどうかは，今後の研究に委ねる．

1.3Bモデルにおいて，PPOのバッチサイズを64，128，256，512，1024とし，事前訓練データ混合で実験した．

その結果，バッチサイズ512が人間による評価で最良であることが判明した．

バッチサイズを512に固定した後，8，16，32，64のミニバッチサイズをさらに実験した．

その結果，32のミニバッチサイズが最適であり，64よりもわずかに優れていることがわかった．

しかし，最終的なモデルでは，ミニバッチサイズ32よりもGPUの使用率が高い64を使用した．

付録F：Model samples（モデルサンプル）

本章では，175B GPT-3と175B InstructGPT（PPO-ptx）の両モデルから，いくつかの追加サンプルを提供する．

InstructGPTはT = 1でサンプリングし，GPT-3はT = 0.7を使用する．

これはGPT-3が高いtemperatureで性能が低いためである（これはInstructGPTに若干不利になる）．

InstructGPT Figure42 — 図42：GPT-3 175BおよびInstructGPT 175Bモデルからのランダムなサンプルとともに，他の言語での命令追従動作を示すためにチェリーピッキングされたプロンプト上のモデルサンプル．これは，図8の上と同じフランス語の例だが，完全なInstructGPTのサンプルを含んでいる．

InstructGPT Figure43 — 図43：GPT-3 175BとInstructGPT 175Bのランダムなサンプルとともに，他の言語での命令追従動作を示すためにチェリーピッキングされたプロンプト上のモデルサンプル．このスウェーデン語の例では，InstructGPTは命令に従うが，出力はほとんど英語で書かれている．

InstructGPT Figure44 — 図44：GPT-3 175BとInstructGPT 175Bのモデルからのランダムなサンプルとともに，潜在的に有害なプロンプトに従う命令を示すためにチェリーピッキングされたプロンプト上のモデルサンプル．

InstructGPT Figure45 — 図45：GPT-3 175BとInstructGPT 175Bのランダムなサンプルとともに，コードを記述する命令に従う能力を示すためにチェリーピッキングされたプロンプト上のモデルサンプル．

図42では，図8のフランス語のサンプルを示しており，データセットがほぼ英語だけであるにもかかわらず，我々のモデルが他の言語の命令に従うことができる場合があることを示している．

※訳注：図43のスウェーデン語のサンプルは，本文中では参照されていませんが，こちらに記載します．

図44は，有害な命令にも答える傾向があることを示している．

これは，訓練データにおいて，ユーザにとって役に立つことを好んだ結果である．

図45は，我々のモデルがコードを記述した別の例だが，まだ完璧とは言えない．

InstructGPT Figure46 — 図46：我々のデータセットからラベラーが書いたプロンプト，人間が書いたデモ，GPT-3 175BとInstructGPT175Bの補完．プロンプトは軽くチェリーピッキング（多様なタスクを示すために15個のタスクから5個を選択）しており，完了はチェリーピッキングしていない．

InstructGPT Figure47 — 図47：我々のデータセットからラベラーが書いたプロンプト，人間が書いたデモ，GPT-3 175BとInstructGPT175Bの補完．プロンプトは軽くチェリーピッキング（多様なタスクを示すために15個のタスクから5個を選択）しており，完了はチェリーピッキングしていない．

InstructGPT Figure48 — 図48：我々のデータセットからラベラーが書いたプロンプト，人間が書いたデモ，GPT-3 175BとInstructGPT175Bの補完．プロンプトは軽くチェリーピッキング（多様なタスクを示すために15個のタスクから5個を選択）しており，完了はチェリーピッキングしていない．

InstructGPT Figure49 — 図49：我々のデータセットからラベラーが書いたプロンプト，人間が書いたデモ，GPT-3 175BとInstructGPT175Bの補完．プロンプトは軽くチェリーピッキング（多様なタスクを示すために15個のタスクから5個を選択）しており，完了はチェリーピッキングしていない．

InstructGPT Figure50 — 図50：我々のデータセットからラベラーが書いたプロンプト，人間が書いたデモ，GPT-3 175BとInstructGPT175Bの補完．プロンプトは軽くチェリーピッキング（多様なタスクを示すために15個のタスクから5個を選択）しており，完了はチェリーピッキングしていない．

図46～50では，データセットからラベラーが書いたプロンプトを，モデルサンプルと人間が書いたデモとともに示している．

これらの5つのプロンプトは，さまざまなタスクを示すために15個のタスクから選択された．

参考：Training language models to follow instructions with human feedbackの解説スライド・動画

Training language models to follow instructions with human feedbackの解説スライドです．

Training language models to follow instructions with human feedbackの解説動画です．

まとめ

Training language models to follow instructions with human feedbackの日本語訳を紹介しました．

OpenAIのInstructGPTがわかりました．