【日本語訳】GPT-4 Technical Report【OpenAI】

悩んでいる人

GPT-4 Technical Reportの日本語訳で教えて！

こういった悩みにお答えします．

本記事の信頼性

リアルタイムシステムの研究歴12年．
東大教員の時に，英語でOS（Linuxカーネル）の授業．
2012年9月～2013年8月にアメリカのノースカロライナ大学チャペルヒル校（UNC）コンピュータサイエンス学部で客員研究員として勤務．C言語でリアルタイムLinuxの研究開発．
プログラミング歴15年以上，習得している言語: C/C++，Python，Solidity/Vyper，Java，Ruby，Go，Rust，D，HTML/CSS/JS/PHP，MATLAB，Assembler (x64，ARM)．
東大教員の時に，C++言語で開発した「LLVMコンパイラの拡張」，C言語で開発した独自のリアルタイムOS「Mcube Kernel」をGitHubにオープンソースとして公開．
2020年1月～現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務．2022年6月～現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO．
最近は自然言語処理AIとイーサリアムに関する有益な情報発信に従事．

（AI全般を含む）自然言語処理AIの論文の日本語訳や，AIチャットボット（ChatGPT，Auto-GPT，Gemini（旧Bard）など）の記事を50本以上執筆．アメリカのサンフランシスコ（広義のシリコンバレー）の会社でプロンプトエンジニア・マネージャー・Quality Assurance（QA）の業務委託の経験あり．
（スマートコントラクトのプログラミングを含む）イーサリアムや仮想通貨全般の記事を200本以上執筆．イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり．

こういった私から学べます．

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ．

: 【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト【初心者，中級者，上級者】【Triton/Mojo言語】【データサイエンス】

こういった悩みにお答えします．こういった私から学べます．【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト AIのプログラミング言語「C++/Python言語」を学 ...

続きを見る

独学が難しいあなたは，AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう．後悔はさせません！

: AI（人工知能）を学べるおすすめのオンラインプログラミングスクール3社【AIチャットボットやAIバスケロボが作れます】

こういった悩みにお答えします．こういった私から学べます．今すぐ学びたいあなたは，AIを学べるおすすめのオンラインプログラミングスクール3社は下表になります．オンラインプログラミングスクール価格お ...

続きを見る

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のAIエンジニアのおすすめ求人サイト【転職エージェント】【C++/Python言語】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のAIエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． AIエンジニアになるためには，主にC++/Pytho ...

続きを見る

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のプロンプトエンジニアのおすすめ求人サイト【転職エージェント】【AIチャットボット，ChatGPT，Auto-GPT，Gemini（旧Bard）】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のプロンプトエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． ※プロンプトエンジニアのことを，AIトレーナー ...

続きを見る

GPT-4 Technical Report（GPT-4のテクニカルレポート）の日本語訳を紹介します．

GPT-4を深く理解して学業，ビジネス，生活に利用したいあなたにおすすめです！

※図表を含む論文の著作権はGPT-4 Technical Reportの著者のOpenAIに帰属します．

GPT-4 Technical Reportの目次は以下になります．

Abstract
1章：Introduction
2章：Scope and Limitations of this Technical Report
3章：Predictable Scaling
4章：Capabilities
5章：Limitations
6章：Risks & mitigations
7章：Conclusion
Authorship, Credit Attribution, and Acknowledgements
References
付録A：Exam Benchmark Methodology
付録B：Impact of RLHF on capability
付録C：Contamination on professional and academic exams
付録D：Contamination on academic benchmarks
付録E：GSM-8K in GPT-4 training
付録F：Multilingual MMLU
付録G：Examples of GPT-4 Visual Input
付録H：System Card

GPT-4 Technical Reportを解説しつつ，私の考えも語ります．

GPT-4 Technical Reportの概要と私の日本語訳は以下になります．

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs.
画像とテキストを入力し，テキストを出力する大規模なマルチモーダルモデル「GPT-4」の開発を報告する．

While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers.
GPT-4は，多くの実世界のシナリオにおいて人間より能力が劣るものの，司法試験の模擬試験に受験者の上位10％程度のスコアで合格するなど，様々な専門的・学術的ベンチマークにおいて人間レベルの性能を発揮することができる．

GPT-4 is a Transformerbased model pre-trained to predict the next token in a document.
GPT-4は，文書中の次のトークンを予測するために事前訓練されたTransformerベースのモデルである．

The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior.
訓練後のアライメントプロセスでは，「事実性（factuality）」と「望ましい行動への遵守（adherence to desired behavior）」の指標で性能が向上している．

A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales.
このプロジェクトの中核をなすのは，幅広いスケールで予測可能な振る舞いをするインフラと最適化手法の開発であった．

This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.
これにより，GPT-4の1,000分の1以下の計算量で学習したモデルで，GPT-4の性能の一部を正確に予測することができるようになった．

https://cdn.openai.com/papers/gpt-4.pdf

概要を読むと，GPT-4が「司法試験の模擬試験に受験者の上位10％程度のスコアで合格」したことはすごいですね！

私の日本語訳の注意点は以下になります．

概要は英語と日本語を両方掲載しましたが，本文は私の日本語訳のみを掲載していること（英語で読みたいあなたは原文を読みましょう！）
基本的には原文の直訳ですが，わかりにくい箇所は意訳や説明を追加している箇所があること
原文の「Authorship, Credit Attribution, and Acknowledgements」（著作権，クレジット表示，謝辞）は省略していること
本文中に登場する数字「例：[1-28]」などは参考文献の番号ですので，興味がある方は本記事の参考文献を参照されたいこと
39ページ目以降の「GPT-4 System Card」の論文は省略していること

GPT-4 System Cardの日本語訳を読みたいあなたはこちらからどうぞ．

: 【日本語訳】GPT-4 System Card【OpenAI】

こういった悩みにお答えします．こういった私から学べます．まずはGPT-4 Technical Reportの日本語訳を読みたいあなたはこちらからどうぞ． GPT-4 System Card（GPT ...

続きを見る

それでは，GPT-4 Technical Reportの本文を読みすすめましょう！

1章：Introduction（はじめに）

本テクニカルレポートは，画像とテキストの入力を処理し，テキスト出力を行うことができる大型マルチモーダルモデルGPT-4を紹介する．

このようなモデルは，対話システム，テキスト要約，機械翻訳など，幅広い用途で利用される可能性があるため，重要な研究分野である．

そのため，近年，大きな関心と進歩を遂げている[1-28]．

このようなモデルを開発する主な目的の一つは，特に複雑で微妙なシナリオにおける自然言語のテキストを理解し，生成する能力を向上させることである．

GPT-4は，そのようなシナリオでの能力を検証するために，もともと人間用に設計されたさまざまな試験で評価された．

その結果，GPT-4は，人間の受験者の大半を凌駕するほどの高い評価を得ることができた．

例えば，司法試験の模擬試験では，GPT-4は受験者の上位10%に入るスコアを記録している．

これに対して，GPT-3.5は下位10％という結果になった．

従来の自然言語処理（NLP：Natural Language Processing）ベンチマークにおいて，GPT-4は，従来の大規模言語モデルや多くの最先端のシステム（多くの場合，ベンチマークに特化した訓練や手作業が必要）を凌駕している．

MMLUベンチマーク[29, 30]では，57のテーマを扱う英語の多肢選択式問題で，GPT-4は英語で既存のモデルを大幅に上回るだけでなく，他の言語でも高い性能を発揮している．

MMLUの翻訳版では，26言語中24言語において，GPT-4は英語版の最先端モデルを上回る性能を示した．

これらのモデル能力の結果，およびモデルの安全性の改善と結果について，後の章でより詳細に説明する．

このレポートでは，プロジェクトの重要な課題である，幅広いスケールで予測可能な振る舞いをする深層学習インフラと最適化手法の開発についても触れている．

これにより，GPT-4の期待される性能について（同様の方法で訓練された小規模な実行に基づく）予測を立て，最終的な実行に対してテストすることで，訓練の信頼性を高めることができた．

GPT-4は，その機能にもかかわらず，以前のGPTモデル[1, 31, 32]と同様の限界がある．

完全には信頼できない（例：「ハルシネーション」に悩まされる），コンテキストウィンドウが限られている，経験から学ばないなどが挙げられる．

GPT-4の出力を使用する際には，特に信頼性が重要視される文脈では注意が必要である．

GPT-4の能力と限界は，重要かつ斬新な安全上の課題を生み出すもので，社会的な影響の可能性を考慮すると，これらの課題を慎重に研究することが重要な研究分野だと考えられる．

本テクニカルレポートでは，バイアス，偽情報，過信，プライバシー，サイバーセキュリティ，拡散など，我々が予測するリスクのいくつかを記述した広範なシステムカード（付録の後）を含む．

また，GPT-4 の導入による潜在的な危害をミティゲーション（緩和）するために行った介入（専門家による敵対的テスト，モデル支援型安全パイプラインなど）についても記述している．

2章：Scope and Limitations of this Technical Report（本テクニカルレポートの範囲と限界）

本報告では，GPT-4の機能，限界，安全性に焦点を当てる．

GPT-4はTransformerスタイルのモデル[33]で，一般に公開されているデータ（インターネットデータなど）とサードパーティプロバイダからライセンスを受けたデータの両方を使用して，文書内の次のトークンを予測するように事前訓練されている．

このモデルは，その後，人間のフィードバックからの強化学習（RLHF：Reinforcement Learning from Human Feedback）[34]を使ってファインチューニングされた．

本テクニカルレポートでは，GPT-4 のような大規模モデルの競争環境と安全性を考慮し，アーキテクチャ（モデルサイズを含む），ハードウェア，訓練計算機，データセット構築，訓練方法などに関する詳細な情報は記載しない．

我々の技術の独立した監査にコミットしており，この分野での初期のステップとアイデアをこのリリースに添付のシステムカードで共有する．

※OpenAIは，付属のシステムカードに加え，効果的な規制の必要性など，AIシステムの社会的・経済的影響に関する追加の考えを近々発表する予定である．

我々は，上記の競争力と安全性の考慮と透明性を高めることの科学的価値とをどのように比較するかについて助言できる追加の第三者に，さらなる技術詳細を公開することを計画している．

3章：Predictable Scaling（予測可能なスケーリング）

GPT-4プロジェクトの大きな焦点は，予測可能にスケールする深層学習スタックを構築することであった．

その主な理由は，GPT-4のような非常に大規模な訓練実行では，大規模なモデル固有のチューニングを行うことは不可能である．

これに対処するため，複数のスケールで非常に予測可能な動作をするインフラと最適化手法を開発した．

これらの改良により，1,000倍から10,000倍少ない計算量で学習させた小さなモデルから，GPT-4の性能の一部を確実に予測することができるようになった．

3.1節：Loss Prediction（損失予測）

適切に訓練された大規模言語モデルの最終的な損失は，モデルの訓練に使用される計算量のべき乗則でよく近似されると考えられている[35, 36, 2, 14, 15]．

我々の最適化基盤のスケーラビリティを検証するために，我々の内部コードベース（訓練セットの一部ではない）において，（Henighan et al [15]のように）還元できない損失項を持つスケーリング則を適用して，GPT-4の最終損失を予測した．

\(L(C)=aC^b+c\)，同じ手法で学習したモデルから，GPT-4の最大10,000倍少ない計算量で計算される．

この予測は，実行開始直後に行われ，部分的な結果を使用することなく行われた．

このスケーリング則は，GPT-4の最終的な損失を高い精度で予測した（図1）．

GPT-4 Figure1 — 図1：GPT-4とそれより小さいモデルの性能．指標は，内部コードベースから派生したデータセットでの最終損失である．これは，訓練セットには含まれないコードトークンの便利で大きなデータセットである．損失は，訓練の計算量の違いによって，他の指標よりもノイズが少なくなる傾向があるため，損失を見ることを選択した．（GPT-4を除く）小型モデルに対するべき乗則のフィットは点線で示されており，このフィットはGPT-4の最終的な損失を正確に予測する．x軸はGPT-4が1となるように正規化した訓練計算量である．

3.2節：Scaling of Capabilities on HumanEval（HumanEvalにおける能力のスケーリング）

訓練前にモデルの能力を把握することで，アライメント，安全性，配備に関する決定を改善することができる．

最終的な損失を予測することに加えて，我々は，より解釈しやすい能力の指標を予測するための手法を開発した．

そのような指標の1つがHumanEvalデータセット[37]の合格率であり，これは様々な複雑さのPython関数を合成する能力を測定するものである．

我々は，HumanEvalデータセットのサブセットの合格率を，最大1,000倍少ない計算量で学習したモデルから推定することで予測することに成功した（図2）．

GPT-4 Figure2 — 図2：GPT-4とそれより小さいモデルの性能．指標は，HumanEval データセットのサブセットにおける平均対数合格率である．GPT-4を除く小型モデルに対するべき乗則のフィットは点線で示されており，このフィットはGPT-4の性能を正確に予測する．x軸はGPT-4が1となるように正規化した訓練計算量である．

HumanEvalの個々の問題では，規模が大きくなると性能が悪化することがある．

このような課題にもかかわらず，我々は，\(-E_P [\log({\rm pass\_rate}(C))] = \alpha∗C^{-k}\)（\(k\)と\(\alpha\)は正の定数，\(P\)はデータセットの問題のサブセット）という近似のべき乗則関係を発見した．

この関係は，このデータセットのすべての問題に対して成立すると仮定する．

実際には，非常に低い合格率は推定が困難か不可能であるため，ある大きなサンプル予算が与えられたときに，すべての問題がすべてのモデルによって少なくとも1回は解決されるような問題\(P\)とモデル\(M\)に限定する．

GPT-4のHumanEvalでの性能予測は，訓練が完了する前に，訓練前に入手できる情報のみを用いて登録した．

HumanEvalの最も難しい15問を除くすべての問題を，より小さなモデルの性能に基づいて6つの難易度バケットに分割した．

3番目に簡単なバケットに関する結果を図2に示す．

このHumanEval問題のサブセットでは，複数の小さなモデルについて\(\log({\rm pass\_rate})\)を正確に推定できるため，結果の予測は非常に正確であることがわかる．

他の5つのバケットでの予測もほぼ同じ結果で，主な例外はGPT-4が最も簡単なバケットでの予測を下回っている．

ある種の能力は，依然として予測が困難である．

例えば，Inverse Scaling Prize[38]では，モデルの性能が規模の関数として減少するいくつかのタスクを提案した．

Weiら[39]の最近の結果と同様に，図3のHindsight Neglect[40]というタスクの一つで示されるように，GPT-4がこの傾向を逆転することがわかった．

GPT-4 Figure3 — 図3：後知恵無視タスク（Hindsight Neglect task）におけるGPT-4と小型モデルの性能．ada，babbage，curieはOpenAI API[41]を介して利用可能なモデルを指す．

将来の能力を正確に予測することは，安全のために重要だと考えられる．

今後は，大規模なモデル訓練が始まる前に，これらの手法を洗練させ，さまざまな能力における性能予測を登録する予定であり，これが現場での共通の目標になることが望ましい．

4章：Capabilities（能力）

GPT-4は，元々人間用に設計された試験のシミュレーションを含む，多様なベンチマークでテストした．

※これらの試験には，学習後のRLHFモデルを使用している．

各試験について，これらの問題を取り除いたバリエーションを実行し，2つのうち低いほうのスコアを報告する．

我々は，この結果が代表的なものであると信じている．

コンタミネーション（汚染）に関する詳細（方法論と試験ごとの統計）は，付録Cを参照されたい．

試験問題は，一般に公開されているものを使用した．

試験問題には，多肢選択式と自由回答式があり，それぞれの形式に対応したプロンプトを作成し，画像が必要な問題では入力に使用した．

評価方法は，検証用試験での成績をもとに設計されており，最終的には保留された試験での結果を報告している．

総合得点は，各試験で公開されている方法を用いて，多肢選択式問題と自由回答式問題の得点を組み合わせて決定した．

試験評価方法の詳細については，付録Aを参照されたい．

GPT-4は，これらの専門試験や学術試験の大半において，人間レベルの性能を発揮する．

特に，司法試験の模擬試験では，受験者の上位10％に入るスコアで合格している（表1，図4）．

GPT-4 Table1 — 表1：学術・専門試験におけるGPTの性能．それぞれ，実際の試験の条件や採点をシミュレートしている．GPT-4の最終スコアと，GPT-4のスコアを達成した受験者のパーセンタイルを報告する．

GPT-4 Figure4 — 図4：学術・専門試験におけるGPTの性能．それぞれのケースで，実際の試験の条件と採点をシミュレートしている．試験はGPT-3.5の成績に基づき，低いものから高いものへと並べられている．GPT-4は，ほとんどの試験でGPT-3.5を上回った．保守的になるため，パーセンタイルの範囲の下限を報告していますが，これは，非常に広い採点範囲を持つAP試験でいくつかのアーティファクトを生じさせている．例えば，GPT-4はAP生物学で最高得点（5/5）を獲得しているが，受験者の15%がこの得点を獲得しているため，プロットでは85パーセンタイルとしてのみ表示されている．

試験におけるモデルの能力は，主に事前訓練プロセスに起因しているようで，RLHFによる大きな影響はない．

多肢選択式問題では，ベースとなるGPT-4モデルとRLHFモデルの両方が，テストした試験で平均して同等の性能を発揮した（付録B参照）．

【表1の結果に関する私の補足】

GPT-4によるGAFA等のコーディング面接向け学習サイト「LeetCode」のテスト結果は以下になります．

easy：31/41（75%）
medium：21/80（26%）
hard：3/45（7%）

easyならほとんど正解していますが，mediumやhardは「まだまだ」という印象ですね．

つまり，GPT-4は初心者レベルでは有用ですが，中級者～上級者レベルではエンジニアに解決してもらう方が良いということです．

もしエンジニアになりたい場合は，中級者～上級者レベルのプログラミングスキルの習得は必須ですね！

また，言語モデルの評価用に設計された従来のベンチマークで，事前訓練済みのベースモデルGPT-4を評価した．

各ベンチマークについて，訓練セットに含まれるテストデータのコンタミネーションチェックを行った（ベンチマークごとのコンタミネーションに関する詳細については付録Dを参照）．

※コンタミネーションチェックの際，BIG-bench[42]の一部が不注意で訓練セットに混入していたことが判明したため，報告された結果から除外した．

GPT-4を評価する際，すべてのベンチマークでfew-shot prompt（少数のプロンプト）[1]を使用した．

※GSM-8Kについては，GPT-4の事前訓練混合に訓練セットの一部を含めている（詳細は付録Eを参照）．評価の際には，思考連鎖プロンプト（chain-of-thought prompting）[11]を使用する．

GPT-4は，既存の言語モデルや，ベンチマークに特化した工作や追加の学習プロトコルを持つことが多く，これまでの最先端（SOTA：State-Of-The-Art）システムを大幅に上回る性能を有している（表2）．

GPT-4 Table2 — 表2：学術的ベンチマークにおけるGPT-4の性能．GPT-4と，（ベンチマークに特化した訓練を施した）ベストなSOTA，および，few-shotで評価されるLMのベストなSOTAを比較した結果である．GPT-4はすべてのベンチマークで既存のLMを上回り，DROPを除くすべてのデータセットでベンチマークに特化した訓練を受けたSOTAを上回った．各タスクについて，GPT-4の性能と，評価に使用したfew-shot法について報告する．GSM-8Kについては，GPT-4の事前訓練混合に訓練セットの一部を含め（付録E参照），評価時には思考連鎖プロンプト[11]を使用している．多肢選択式問題では，すべての答え（ABCD）をモデルに提示し，人間がこのような問題を解くのと同様に，答えの文字を選択するように依頼する．

既存のMLベンチマークの多くは，英語で書かれている．

GPT-4の他の言語での能力を最初に理解するために，MMLUベンチマーク[29, 30]（57の主題に及ぶ多肢選択問題群）をAzure Translateを使って様々な言語に翻訳した（翻訳例とプロンプトは付録Fを参照）．

GPT-4は，ラトビア語，ウェールズ語，スワヒリ語などの低リソース言語を含む，テストした大部分の言語において，GPT-3.5の英語性能と既存の言語モデル（Chinchilla[2] と PaLM[3]）より優れていることがわかった（図5）．

GPT-4 Figure5 — 図5：GPT-4の様々な言語での性能と，MMLU上の英語での先行モデルとの比較．GPT-4は，ラトビア語，ウェールズ語，スワヒリ語などの低リソース言語を含む，テストした大半の言語において，既存の言語モデル[2, 3]の英語での性能を上回った．

GPT-4は，ユーザの意図に従う能力において，以前のモデルよりも大幅に向上している[57]．

ChatGPT[58]とOpenAI API[41]に投稿された5,214のプロンプトのデータセットでは，70.2%のプロンプトでGPT-3.5が生成した回答よりもGPT-4が生成した回答の方が好まれた．

※ChatGPTとOpenAI APIを通じて送られてきたユーザのプロンプトを収集し，各モデルから1つのレスポンスをサンプリングし，これらのプロンプトとレスポンスを人間のラベラーに送信した．ラベラーには，その回答が，プロンプトを受けたユーザが望んだものであるかどうかを判断するように命令した．ラベラーには，どのレスポンスがどのモデルで生成されたかは知らされず，レスポンスの提示順もランダムであった．個人を特定できる情報（PII：Personally Identifiable Information），性的な内容，ヘイトスピーチなど，あらゆる種類の禁止事項やセンシティブな内容を含むプロンプトをフィルタリングしている．また，短いプロンプト（例：「Hello, ChatGPT！」）や一般的すぎるプロンプトもフィルタリングしている．

GPT-4のようなモデルを評価するためのベンチマークを作成・実行し，サンプルごとに性能を調べるためのフレームワーク「OpenAI Evals」をオープンソースで提供している．

Evalsは既存のベンチマークと互換性があり，デプロイ中のモデルの性能を追跡するために使用することができる．

今後，これらのベンチマークの多様性を高め，より幅広い故障モードやより困難なタスクのセットを表現する予定である．

4.1節：Visual Inputs（視覚入力）

GPT-4は，画像とテキストの両方からなるプロンプトを受け付け，テキストのみの設定と並行して，ユーザが任意の視覚や言語のタスクを指定することができる．

具体的には，任意に配置されたテキストと画像からなる入力に対して，テキスト出力を生成するモデルである．

テキストと写真，図，スクリーンショットを含む文書など，さまざまな領域において，GPT-4はテキストのみの入力と同様の能力を発揮する．

表3に，GPT-4の視覚入力の例を示す．

言語モデルのために開発された標準的なテストタイムテクニック（例：few-shot prompt，思考連鎖など）は，画像とテキストの両方を使用する場合にも同様に有効である．

GPT-4 Table3 — 表3：GPT-4の視覚入力機能を示すプロンプトの例．このプロンプトは，複数のパネルを持つ画像に関する質問であり，GPT-4はこれに答えることができる．

学術的な視覚ベンチマークの狭いセットに関する予備的な結果は，GPT-4のブログ記事[59]で見ることができる．

GPT-4の視覚的能力に関するより多くの情報をフォローアップ作業で公開する予定である．

5章：Limitations（制限事項）

GPT-4は，その能力にもかかわらず，以前のGPTモデルと同様の限界を持っている．

最も重要なのは，まだ完全な信頼性がないことである（事実をハルシネーション（幻覚）したり，推論ミスをしたりする）．

言語モデルの出力を使用する場合，特に利害関係の強い文脈では，特定のアプリケーションのニーズに合わせて正確なプロトコル（人間によるレビュー，追加の文脈による根拠づけ，利害関係の強い用途の完全な回避など）を用いて，細心の注意を払う必要がある．

詳しくは，システムカードを参照されたい．

GPT-4は，従来のGPT-3.5と比較して，ハルシネーションを大幅に低減している（GPT-3.5自体も反復して改良を続けている）．

GPT-4は，敵対的に設計された内部での事実性評価において，最新のGPT-3.5よりも19%高いスコアを獲得している（図6）．

GPT-4 Figure6 — 図6：敵対的に設計された9つの内部事実評価に対するGPT-4の性能．精度はy軸で示され，高いほど良い．精度が1.0であれば，GPT-4の回答は人間の理想的な回答と一致すると判断される．GPT-4はGPT-3.5をベースにしたChatGPT[58]の3つ前のバージョンと比較したところ，GPT-3.5の最新モデルより19%ポイント向上し，すべてのトピックで有意に向上した．

GPT-4は，TruthfulQA[60]のような公開ベンチマークで成果を上げている．

このベンチマークでは，敵対的に選択された不正確な発言から事実を分離するモデルの能力がテストされる（図7）．

これらの質問は，統計的に魅力的な事実と異なる答えと対になっている．

GPT-4の基本モデルはGPT-3.5よりわずかに優れているが，RLHFの事後訓練によりGPT-3.5より大きく改善された．

※RLHFの訓練後のデータにTruthfulQAがコンタミネーションしていないか確認はしていない．

表4は正解と不正解の両方を示す．

GPT-4は，一般的なことわざ「You can't teach an old dog new tricks」（老いたる犬に新しい芸を教えることはできない）を選ばないが，それでも微妙な細部を見逃すことがある「Elvis Presley was not the son of an actor, so Perkins is the correct answer」（エルビス・プレスリーは俳優の息子ではないので，パーキンスが正解である）．

※訳注：パーキンスはエルビス・パーキンスのことで，俳優のアンソニー・パーキンスの息子です．

GPT-4 Figure7 — 図7：TruthfulQAにおけるGPT-4の性能．精度はy軸で示され，高いほど良い．GPT-4は，zero-shot prompt，few-shot prompt，RLHFファインチューニングの下で比較される．GPT-4はGPT-3.5とBaiら[61]のAnthropic-LMの両方を大幅に上回った．

GPT-4 Table4 — 表4：TruthfulQAでGPT-4が正解と不正解を示した例．

GPT-4は，2021年9月に事前訓練データの大半が途絶えた後に発生した事象についての知識が乏しく，その経験から学習することがないのが一般的である．

※訓練前と訓練後のデータには，より新しいデータが少量含まれている．

多くの領域で能力を発揮しているとは思えないような単純な推論ミスをしたり，明らかに嘘と思われる発言をユーザから受け入れてしまうような過度の騙されやすさを持つことがある．

また，人間と同じように難しい問題で失敗することもある．

例えば，生成したコードにセキュリティの脆弱性を持ち込むようなこともある．

GPT-4は，間違えそうなときに作業を再確認するような注意を払わず，予測を確信犯的に間違えることもある．

興味深いことに，訓練前のモデルは高度にキャリブレーションされている（答えに対する予測された信頼度が，概ね正解の確率と一致する）．

しかしながら，事後訓練プロセスの後では，キャリブレーションが低下している（図8）．

GPT-4 Figure8 — 【図8】左図：MMLUデータセットのサブセットに対する事前訓練済みGPT-4モデルのキャリブレーションプロット．モデルの予測に対する信頼度が，正解の確率と密接に一致する．点線の対角線は完全なキャリブレーションを表している．
右図：MMLUの同じサブセットに対するGPT-4モデルの学習後のキャリブレーションプロット．訓練後では，キャリブレーションが著しく低下している．

GPT-4は，その出力に様々な偏りがあり，それを修正する努力を行ってきたが，その特性を完全に把握し管理するには時間がかかると思われる．

我々は，GPT-4や我々が構築する他のシステムが，ユーザの幅広い価値観を反映する合理的なデフォルト動作を持つようにし，それらのシステムがいくつかの広い範囲内でカスタマイズできるようにし，それらの範囲がどうあるべきかについて一般からの意見を得ることを目的としている．

詳細はOpenAI[62]を参照されたい．

6章：Risks & mitigations（リスクとミティゲーション）

GPT-4の安全性とアライメントを改善するために，我々は多大な労力を費やしている．

ここでは，敵対的テストとレッドチームのためのドメインエキスパートの使用，モデル支援型安全パイプライン[63]，および以前のモデルよりも安全指標が改善されたことを紹介する．

ドメインエキスパートによる敵対的テスト：GPT-4は，有害なアドバイスやバグを持ったコード，不正確な情報を生成するなど，より小さな言語モデルと同様のリスクを抱えている．しかしながら，GPT-4の追加機能は，新たなリスクの表面化につながる．これらのリスクの程度を理解するために，我々は，長期的なAIアライメントリスク，サイバーセキュリティ，バイオリスク，国際セキュリティなどの領域から50人以上の専門家を招き，モデルを敵対的にテストした．彼らの発見により，特に，評価するためにニッチな専門知識を必要とする高リスク領域におけるモデルの動作をテストすることができ，また，パワーシークのような非常に高度なAIに関係するようになるリスクを評価することができた[64]．これらの専門家から集めた提言や訓練データは，モデルのミティゲーションや改良に反映された．例えば，危険な化学物質の合成方法に関する要求を拒否するGPT-4の能力を向上させるために，追加データを収集した（表5）．

GPT-4 Table5 — 表5：エキスパートレッドチーム：様々なモデルのプロンプトとコンプリーション（補完）の例．

モデル支援型安全パイプライン：先行するGPTモデルと同様に，我々は，ユーザの意図により近い回答を生成するために，人間のフィードバックによる強化学習（RLHF：Reinforcement Learning with Human Feedback）[34, 57] を用いてモデルの動作をファインチューニングする．しかしながら，RLHF後も，安全でない入力ではモデルが脆くなり，安全な入力と安全でない入力の両方で望ましくない挙動を示すことがある．このような望ましくない挙動は，RLHFパイプラインの報酬モデルデータ収集部分において，ラベラーへの命令が過小に指定されていた場合に発生することがある．安全でない入力が与えられると，モデルは犯罪するようにアドバイスするなど，望ましくない内容を生成することがある．さらに，安全な入力が与えられた場合，モデルは過度に慎重になり，無害な要求を拒否したり，過剰なヘッジを行ったりすることがある．より細粒度なレベルでモデルを適切な動作に導くために，我々はモデル自身をツールとして大いに活用する．我々の安全へのアプローチは，安全に関連するRLHF訓練プロンプトの追加セットと，ルールベースの報酬モデル（RBRMs：Rule-Based Reward Models）の2つの主要コンポーネントで構成されている．

我々のルールベース報酬モデル（RBRM）は，zero-shot GPT-4分類器の集合である．

これらの分類器は，RLHFのファインチューニング中にGPT-4ポリシーモデルに追加の報酬信号を提供し，有害なコンテンツの生成を拒否したり，無害なリクエストを拒否しないなどの正しい動作を目標とする．

RBRMは，プロンプト（オプション），ポリシーモデルからの出力，およびこの出力がどのように評価されるべきかについての人間が書いたルーブリック（例：多肢選択式のルールセット）の3つの入力を受け取る．

そして，RBRMはルーブリックに基づいてアウトプットを分類する．

例えば，（a）望ましいスタイルでの拒否，（b）望ましくないスタイルでの拒否（例：回避的または要点から離れた），（c）許可されない内容を含む，（d）安全な非拒否回答のいずれかに分類するようモデルに命令するルーブリックを提供する．

そして，不正なアドバイスなどの有害なコンテンツを要求する安全関連訓練プロンプトのセットにおいて，これらの要求を拒否したGPT-4に報酬を与えることができる．

逆に，安全で回答可能であることが保証されたプロンプトのサブセットで，要求を拒否しなかったGPT-4に報酬を与えることができる．

この技術は，Glaeseら[65]とPerezら[66]の研究に関連している．

これと，最適な RBRM の重みを計算する，改善したい領域を対象とした追加のSFTデータを提供するなどの他の改善とを組み合わせることで，モデルを望ましい動作に近づけることができる．

安全性指標の改善：GPT-4は，安全性指標を大幅に向上させることができた．GPT-3.5と比較して，許可されていないコンテンツ（表6）のリクエストに回答する傾向が82%減少し，GPT-4はセンシティブなリクエスト（例：医療アドバイスと自傷行為，表7）に対して我々ポリシーに従って対応する頻度が29%高いことがわかった（図9）．また，RealToxicityPromptsデータセット[67]では，GPT-3.5が6.48%の確率で有害コンテンツを生成するのに対し，GPT-4は0.73%の確率で有害コンテンツを生成するのみだった．

GPT-4 Table6 — 表6：不許可カテゴリーでの拒否を改善するためのプロンプトとコンプリーションの例．

GPT-4 Table7 — 表7：許可されたカテゴリーに関する拒否を減らした場合のプロンプトとコンプリーションの例．注：これらの生成は様々であり，モデルによって必ずしも上記の生成になるとは限らない．

GPT-4 Figure9 — 図9：センシティブなプロンプトと許可されていないプロンプトに対する不正な動作の割合．数値が低いほど良い．GPT-4 RLHFは，従来のモデルと比較して誤操作率が大幅に低下している．

全体として，我々のモデルレベルの介入は，悪い行動を引き出すことの難易度を高めているが，そうすることはまだ可能である．

例えば，我々の使用ガイドラインに違反するコンテンツを生成するための「jailbreak」（脱獄）（敵対的なシステムメッセージなど，詳細についてはシステムカードの図10を参照）がまだ存在する．

このような制限がある限り，不正使用の監視のようなデプロイ時の安全技術や，高速な反復モデル改良のためのパイプラインで補完することが重要である．

GPT-4やその後継モデルは，有益な面でも有害な面でも社会に大きな影響を与える可能性がある．

我々は，潜在的な影響を理解し評価する方法を改善し，将来のシステムで出現する可能性のある危険な能力に対する評価を構築するために，外部の研究者と協力している．

近日中に，AIの影響に備えるために社会が取るべき措置に関する提言と，AIの起こりうる経済的影響を予測するための初期アイデアを発表する予定である．

7章：Conclusion（結論）

GPT-4は，専門的かつ学術的なベンチマークにおいて，人間レベルの性能を持つ大規模マルチモーダルモデルであることを特徴としている．

GPT-4は，NLPタスクのコレクションにおいて，既存の大規模言語モデルを凌駕し，（タスク固有のファインチューニングを含むことが多い）報告されている最先端のシステムの大部分を超えている．

通常，英語で測定される能力が，多くの異なる言語で実証されることを発見した．

また，予測可能なスケーリングにより，GPT-4の損失と能力を正確に予測できたことがわかった．

GPT-4では，能力の向上により新たなリスクが発生しており，その安全性と整合性を理解し，改善するために取られた方法と結果の一部について説明した．

まだやるべきことはたくさんあるが，GPT-4は，広く有用で安全に配備されたAIシステムに向けた重要な一歩を踏み出したと言える．

References（参考文献）

Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 33:1877–1901, 2020.
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311, 2022.
Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11446, 2021.
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, and Ruslan Salakhutdinov. Transformer-XL: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019.
Noam Shazeer and Mitchell Stern. Adafactor: Adaptive learning rates with sublinear memory cost. arXiv preprint arXiv:1804.04235, 2018.
Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS, 2022.
Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, and Jiawei Han. Large language models can self-improve. arXiv preprint arXiv:2210.11610, 2022.
Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022.
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, et al. Scaling laws for autoregressive generative modeling. arXiv preprint arXiv:2010.14701, 2020.
Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi, Nick Ryder, Jakub Pachocki, Weizhu Chen, and Jianfeng Gao. Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022.
Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017.
Barret Zoph, Irwan Bello, Sameer Kumar, Nan Du, Yanping Huang, Jeff Dean, Noam Shazeer, and William Fedus. ST-MoE: Designing stable and transferable sparse expert models. arXiv preprint arXiv:2202.08906, 2022.
Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. Emergent abilities of large language models. TMLR, 2022.
Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, and Lukasz Kaiser. Universal transformers. In International Conference on Learning Representations, 2019. URL https://openreview.net/forum?id=HyzdRiR9Y7.
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. arXiv preprint arXiv:2104.09864, 2021.
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. In Advances in Neural Information Processing Systems.
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, et al. PaLI: A jointly-scaled multilingual language-image model. arXiv preprint arXiv:2209.06794, 2022.
Ben Wang and Aran Komatsuzaki. Gpt-j-6b: A 6 billion parameter autoregressive language model, 2021.
Sid Black, Leo Gao, Phil Wang, Connor Leahy, and Stella Biderman. Gpt-neo: Large scale autoregressive language modeling with mesh-tensorflow. If you use this software, please cite it using these metadata, 58, 2021.
Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ili´c, Daniel Hesslow, Roman Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, et al. Bloom: A 176b-parameter open-access multilingual language model. arXiv preprint arXiv:2211.05100, 2022.
Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, et al. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022.
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. Proceedings of the International Conference on Learning Representations (ICLR), 2021.
Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li, Dawn Song, and Jacob Steinhardt. Aligning ai with shared human values. Proceedings of the International Conference on Learning Representations (ICLR), 2021.
Alec Radford, JeffWu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. 2019.
Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training. 2018.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. NeurIPS, 2017.
Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30, 2017.
Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md Patwary, Mostofa Ali, Yang Yang, and Yanqi Zhou. Deep learning scaling is predictable, empirically. arXiv preprint arXiv:1712.00409, 2017.
Neil C Thompson, Kristjan Greenewald, Keeheon Lee, and Gabriel F Manso. The computational limits of deep learning. arXiv preprint arXiv:2007.05558, 2020.
Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. Evaluating large language models trained on code. 2021.
Ian McKenzie, Alexander Lyzhov, Alicia Parrish, Ameya Prabhu, Aaron Mueller, Najoung Kim, Sam Bowman, and Ethan Perez. The inverse scaling prize, 2022. URL https://github.com/inverse-scaling/prize.
Jason Wei, Najoung Kim, Yi Tay, and Quoc V. Le. Inverse scaling can become U-shaped. arXiv preprint arXiv:2211.02011, 2022.
Ian McKenzie, Alexander Lyzhov, Alicia Parrish, Ameya Prabhu, Aaron Mueller, Najoung Kim, Sam Bowman, and Ethan Perez. Inverse scaling prize: First round winners, 2022. URL https://irmckenzie.co.uk/round1.
Greg Brockman, Peter Welinder, Mira Murati, and OpenAI. OpenAI: OpenAI API, 2020. URL https://openai.com/blog/openai-api.
Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022.
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q Tran, David R So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, et al. Transcending scaling laws with 0.1% extra compute. arXiv preprint arXiv:2210.11399, 2022.
Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022.
Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. HellaSwag: Can a machine really finish your sentence? In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4791–4800, Florence, Italy, July 2019. Association for Computational Linguistics. doi: 10.18653/v1/P19-1472. URL https://aclanthology.org/P19-1472.
Xiaodong Liu, Hao Cheng, Pengcheng He,Weizhu Chen, YuWang, Hoifung Poon, and Jianfeng Gao. Adversarial training for large neural language models. arXiv preprint arXiv:2004.08994, 2020.
Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. ArXiv, abs/1803.05457, 2018.
Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, and Denny Zhou. Selfconsistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171, 2022.
Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Winogrande: An adversarial winograd schema challenge at scale. arXiv preprint arXiv:1907.10641, 2019.
Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, and Weizhu Chen. Codet: Code generation with generated tests. arXiv preprint arXiv:2207.10397, 2022.
Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2368–2378, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics. doi: 10.18653/v1/N19-1246. URL https://aclanthology.org/N19-1246.
Kunlong Chen, Weidi Xu, Xingyi Cheng, Zou Xiaochuan, Yuyu Zhang, Le Song, Taifeng Wang, Yuan Qi, and Wei Chu. Question directed graph attention network for numerical reasoning over text. arXiv preprint arXiv:2009.07448, 2020.
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022.
Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, and Irina Higgins. Solving math word problems with process- and outcome-based feedback. arXiv preprint arXiv:2211.14275, 2022.
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.
OpenAI. Openai: Introducing ChatGPT, 2022. URL https://openai.com/blog/chatgpt.
OpenAI. OpenAI: GPT-4, 2023. URL https://openai.com/research/gpt-4.
Stephanie Lin, Jacob Hilton, and Owain Evans. TruthfulQA: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, Dublin, Ireland, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.229. URL https://aclanthology.org/2022.acl-long.229.
Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022.
OpenAI. OpenAI: How should AI systems behave, and who should decide?, 2023. URL https://openai.com/blog/how-should-ai-systems-behave.
Jan Leike, John Schulman, and Jeffrey Wu. OpenAI: Our approach to alignment research, 2022. URL https://openai.com/blog/our-approach-to-alignment-research.
Joseph Carlsmith. Is power-seeking AI an existential risk? ArXiv, abs/2206.13353, 2022.
Amelia Glaese, Nat McAleese, Maja Tr˛ebacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, Soˇna Mokrá, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, and Geoffrey Irving. Improving alignment of dialogue agents via targeted human judgements. arXiv preprint arXiv:2209.14375, 2022.
Ethan Perez, Saffron Huang, H. Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, and Geoffrey Irving. Red teaming language models with language models. arXiv preprint arXiv:2202.03286, 2022.
Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A Smith. Realtoxicityprompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462, 2020.
Dora Seigel. How do you calculate sat score? raw and scaled, 1 2020. URL https://blog.prepscholar.com/how-to-calculate-sat-score.
The albert blog. URL https://www.albert.io/blog/.
John B. Nici. AP Art History: 5 Practice Tests + Comprehensive Review + Online Practice. Barron’s Test Prep. Barron’s Educational Series, 2020. ISBN 9781506260501.
ETS. Ets: Gre sample issue task, 2022. URL https://www.ets.org/pdfs/gre/sample-issue-task.pdf.
Margaret Mitchell, SimoneWu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model Cards for Model Reporting. In Proceedings of the Conference on Fairness, Accountability, and Transparency, pages 220– 229, January 2019. doi: 10.1145/3287560.3287596.
Nekesha Green, Chavez Procope, Adeel Cheema, and Adekunle Adediji. System Cards, a new resource for understanding how AI systems work. https://ai.meta.com/blog/system-cards-a-new-resource-for-understanding-how-ai-systems-work/, February 2022.

付録A：Exam Benchmark Methodology（エグザムベンチマーク方法論）

A.1節：Sourcing.（ソース）

公開されている最新の公式過去問か，我々が購入したサードパーティ製の2022～2023年版学習教材に掲載されている模擬試験を入手した．

これらの教材とモデルの学習データを照合し，学習データが試験問題でコンタミネーションされていないことを確認した（本論文でも報告）．

Uniform Bar Examは，CaseTextとStanford CodeXの共同研究者により実行された．

A.2節：Prompting: multiple-choice（プロンプト：多肢選択式）

各多肢選択式問題には，類似の試験形式のゴールドスタンダード（黄金率）の説明と解答を持つfew-shot promptを使用した．

各問題について，説明をサンプリングし（temperatureは0.3），多肢選択式の回答文字を抽出した．

各多肢選択式セクションは，ホールドアウトとノンホールドアウトの2つの試験で構成されている．

非ホールドアウトの試験で方法を繰り返し，ホールドアウトの試験を1回ずつ行い，最終的なスコアを算出した．

AMC10およびAMC12の実施済み試験において，回答長さが制限されるバグが発見された．

このバグを修正し，正確な結果を得るためにこれらの試験を再実行した．

ほとんどの試験で，モデルの選択肢を説明文から直接抽出している．

GPT-4のUSABOとSATリーディング/ライティング（視覚あり/なし），GPT-3.5，およびSAT数学，GRE，USNCO，AP Biology，AP Chemistry，AP Environmental ScienceのGPT-4の視覚なしについては，代わりにtemperatureが0ですでにサンプルされている説明を使用して，文字の選択肢をサンプルする．

これらの方法論の違いは，評価後に発見されたコードのミスマッチによるものであり，結果への影響は少ないと考えられる．

A.3節：Prompting: free-response（プロンプト：自由回答式）

各自由回答式問題では，自由回答式問題のプロンプトをモデルに与え，簡単な命令に従う形式の要求とし，temperatureが0.6で回答をサンプリングした．

AP試験の場合は，すべて公開されている最新の2022年のプロンプトを使用し，SATの場合は，Test Specifications for the Redesigned SAT (CollegeBoard, 2015)のSample Essay Prompt 1とSample Essay Prompt 2の3つ＋公式SAT Practice Essay #1 (CollegeBoard, 2016) を使用して平均点をとり，GREは市販の対策本の課題エッセイと議論エッセイのプロンプトを使用している．

人間の専門家による採点の反復時間が長いため，temperatureやプロンプトに関する方法論的な反復は行わず，代わりに，最適と思われるtemperature（0.6）とプロンプト（A.7節で表示したシンプルな命令に従うプロンプト）で，自由回答式問題をそれぞれ一度だけ実行した．

文章の質の評価を必要とする正式な小論文からなるすべての自由回答式問題（AP English Language and Composition，AP English Literature and Composition，AP World History，AP US History，AP US Government and Politics，AP Art History，GRE，SAT）は，これらの小論文の採点を行った関連業務経験を持つ1～2名の資格ある第三者委託業者が採点を行った．

不自然に簡潔な回答ではなく，適切に洗練された文章を作成するようモデルを促すため，高品質のGRE小論文回答例（A.7節参照）を含むfew-shot promptを使用して，これらの回答をサンプリングした．

その他の自由回答式問題は，一般に公開されている公式ルーブリックのガイドラインに従って，技術的な内容で採点した．

A.4節：Images（画像）

試験問題には画像が含まれていることが多い．

GPT-3.5のようにテキスト（画像は不可）を入力とするモデルでは，問題を正しく解くために必要なすべての情報を得ることができない可能性がある．

テキストモデルを多肢選択式問題で評価する際，画像がない場合は，「IMAGE:」というテキストタグに，意味のないファイル名を入れている．

これにより，多肢選択式試験におけるテキストベースのモデルの性能を低く抑えることができる．

※例えば，AP Statisticsの試験では，“Since there is no graph provided, we cannot determine the correct answer for this problem."（グラフが用意されていないので，この問題の正解を決めることはできない）という失敗回答がよく見られた．

多肢選択式問題でマルチモーダルモデルを評価する場合は，プロンプトに画像を埋め込んでいる．

また，自由回答式問題やUSABO2020準決勝では，画像や図表をできるだけ客観的に書き写すようにした．

これにより，自由回答式問題の採点にかかる手間が削減された．

この書き写し作業により，自由回答式問題には画像が含まれないため，GPT-4の採点は1回で済み，視覚あり/なし両方の条件で使用することができた．

A.5節：Scoring（スコア）

多肢選択式セクションの得点と自由回答式セクションの得点を，実際の方法論に最も近い形で総合得点に合成した．

SATについては，SAT対策サイトに掲載されている公式サンプルSATのスコア計算表を使用して，多肢選択式スコアをスケールスコアに変換した．

GREについては，精度を40倍して130を加えるという公式式を使用して多肢選択式スコアを130～170スケールに変換し，AP試験については，2019～2020年の公式APスコアリングガイドラインのポイント値に基づいている公開学習サイトにあるスコア計算を使用した．

パーセンタイルは，各試験タイプの受験者の直近のスコア分布に基づいている．

A.6節：Model snapshot details（モデルスナップショットの詳細）

GPT-4の多肢選択式問題は2023年3月1日のモデルスナップショットを使用して実行し，自由回答式問題は2023年2月23日の非最終モデルスナップショットを使用して実行および採点した．

GPT-3.5の多肢選択式問題と自由回答式問題は，すべて標準的なChatGPTのスナップショットを使用して実行した．

USABOの準決勝試験は，2022年12月16日の以前のGPT-4スナップショットを使用して実行した．

RLHFはGPT-4のベースモデルの能力に大きな影響を与えないことが評価された．詳細は付録Bを参照されたい．

A.7節：Example few-shot prompts（例題のfew-shot prompt）

多肢選択式問題のプロンプト例：（AP Art History [70]）

ANSWER KEY

Here are the answers for the problems in the exam.

Problem 1. Choose the most likely completion of the following sentence.
Honore Daumier’s Nadar Raising Photography to the Height of Art was done
immediately after __.

Choose from the following options: [A] the first photographic exhibition
in history [B] the first use of color photography [C] a court decision that
determined that photographs could be considered works of art [D] the invention
of the zoopraxiscope

Explanation for Problem 1: The painting depicts Nadar, a famous French
photographer, raising a camera to the sky, as if to signify the recognition
of photography as a legitimate form of art. This recognition would have
likely come from a court decision, rather than the other options listed. The
first photographic exhibition and the invention of the zoopraxiscope, which
was a device used to create moving images, would not have had any bearing
on the recognition of photography as art. Similarly, the first use of color
photography would not have been a significant enough event to warrant such a
celebratory depiction in the painting. Therefore, the most likely explanation
for the painting is that it was done in response to a court decision that
determined that photographs could be considered works of art.

The answer is therefore [C]

Problem 2. Artists working in New Spain were most influenced by contemporary
art in Europe during which of the following periods?

Choose from the following options: [A] Romanticism [B] Renaissance [C]
Mannerism [D] Baroque

Explanation for Problem 2: Artists working in New Spain, which is now
modern-day Mexico, were most influenced by contemporary art in Europe during
the Baroque period. This is because the Baroque period was characterized by
ornate and elaborate styles, which were heavily influenced by the Catholic
Church and its religious themes. This style was well-suited to the art
produced in New Spain, which was heavily influenced by the Catholic Church
and its religious themes. In contrast, the other options listed were not
as influential in New Spain during this time period. The Renaissance and
Mannerism were primarily focused on classical themes and styles, which were
not as prevalent in New Spain. Similarly, Romanticism was a later movement
that was not as influential in New Spain during this time period.

The answer is therefore [D]

Problem 3. Choose the most likely completion of the following sentence. Works
like the Sistine Chapel frescoes directly influenced the form and scale of
works by __.

Choose from the following options: [A] Gianlorenzo Bernini [B] Giovanni
Battista Gaulli [C] Peter Paul Rubens [D] Rachel Ruysch

Explanation for Problem 3: Giovanni Battista Gaulli, also known as Baciccio,
was heavily influenced by the Sistine Chapel frescoes in his own works.
This is evident in his use of large-scale, dramatic compositions and his
focus on religious themes, which were similar to those found in the Sistine
Chapel frescoes. In contrast, the other options listed were not as directly
influenced by the Sistine Chapel frescoes. Gianlorenzo Bernini was a
contemporary of Baciccio, but his works were more focused on classical themes
and styles, rather than the religious themes found in the Sistine Chapel
frescoes. Peter Paul Rubens was a later artist who was more influenced by the
Baroque style, rather than the Renaissance style of the Sistine Chapel frescoes.
Rachel Ruysch was a Dutch artist who was not known for large-scale religious
works, and therefore would not have been directly influenced by the Sistine
Chapel frescoes.

The answer is therefore [B]

Problem 4. Choose the most likely completion of the following sentence. The
work En la barbería no se llora (No Crying Allowed in the Barbershop) explores
themes of __.

Choose from the following options: [A] sexual stereotyping [B] women’s
liberation [C] conflict and peace [D] racial discrimination

Explanation for Problem 4: The title of the work, En la barbería no se llora
(No Crying Allowed in the Barbershop), suggests that the work explores themes
of sexual stereotyping. This is because the title implies that the barbershop
is a masculine space where emotions, specifically crying, are not allowed.
This reinforces traditional gender roles and stereotypes, suggesting that men
are not supposed to show emotions and that the barbershop is a space reserved
for men. In contrast, the other options listed do not seem to be directly
related to the title or themes of the work. Women’s liberation, conflict and
peace, and racial discrimination are not mentioned or implied in the title,
and therefore are not likely to be the main themes of the work. Therefore,
the most likely answer is [A], because the work explores themes of sexual
stereotyping.

The answer is therefore [A]

Problem 5. Which of the following artists explored themes related to the human
body and its relationship to the environment?

Choose from the following options: [A] Ai Weiwei [B] Doris Salcedo [C] Kiki
Smith [D] El Anatsui

Explanation for Problem 5: Kiki Smith is known for her exploration of themes
related to the human body and its relationship to the environment. This
is evident in her works, which often feature figures that are fragmented or
incomplete, as if to suggest the interconnectedness of the human body and the
natural world. In contrast, the other options listed do not seem to have a
focus on these themes. Ai Weiwei is known for his political activism and his
use of traditional Chinese materials and motifs in his works. Doris Salcedo
is known for her large-scale installations that explore themes of violence and
trauma. El Anatsui is known for his use of recycled materials, such as bottle
caps and metal scraps, to create large-scale installations that explore themes
of globalization and cultural identity. Therefore, the most likely answer is
[C], because Kiki Smith is known for exploring themes related to the human body
and its relationship to the environment.

The answer is therefore [C]

Problem 6. <PROBLEM TEXT AND ANSWER CHOICES GO HERE>

Explanation for Problem 4: <MODEL EXPLANATION (t=0.3, n=1, max_tokens=512,
stop=’\nThe answer is therefore’) SAMPLED HERE>

The answer is therefore [<MODEL ANSWER CHOICE (t=0.0, n=1, stop=‘]’) SAMPLED
HERE>]

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

ANSWER KEY

Here are the answers for the problems in the exam.

Problem 1. Choose the most likely completion of the following sentence.

Honore Daumier’s Nadar Raising Photography to the Height of Art was done

immediately after __.

Choose from the following options: [A] the first photographic exhibition

in history [B] the first use of color photography [C] a court decision that

determined that photographs could be considered works of art [D] the invention

of the zoopraxiscope

Explanation for Problem 1: The painting depicts Nadar, a famous French

photographer, raising a camera to the sky, as if to signify the recognition

of photography as a legitimate form of art. This recognition would have

likely come from a court decision, rather than the other options listed. The

first photographic exhibition and the invention of the zoopraxiscope, which

was a device used to create moving images, would not have had any bearing

on the recognition of photography as art. Similarly, the first use of color

photography would not have been a significant enough event to warrant such a

celebratory depiction in the painting. Therefore, the most likely explanation

for the painting is that it was done in response to a court decision that

determined that photographs could be considered works of art.

The answer is therefore [C]

Problem 2. Artists working in New Spain were most influenced by contemporary

art in Europe during which of the following periods?

Choose from the following options: [A] Romanticism [B] Renaissance [C]

Mannerism [D] Baroque

Explanation for Problem 2: Artists working in New Spain, which is now

modern-day Mexico, were most influenced by contemporary art in Europe during

the Baroque period. This is because the Baroque period was characterized by

ornate and elaborate styles, which were heavily influenced by the Catholic

Church and its religious themes. This style was well-suited to the art

produced in New Spain, which was heavily influenced by the Catholic Church

and its religious themes. In contrast, the other options listed were not

as influential in New Spain during this time period. The Renaissance and

Mannerism were primarily focused on classical themes and styles, which were

not as prevalent in New Spain. Similarly, Romanticism was a later movement

that was not as influential in New Spain during this time period.

The answer is therefore [D]

Problem 3. Choose the most likely completion of the following sentence. Works

like the Sistine Chapel frescoes directly influenced the form and scale of

works by __.

Choose from the following options: [A] Gianlorenzo Bernini [B] Giovanni

Battista Gaulli [C] Peter Paul Rubens [D] Rachel Ruysch

Explanation for Problem 3: Giovanni Battista Gaulli, also known as Baciccio,

was heavily influenced by the Sistine Chapel frescoes in his own works.

This is evident in his use of large-scale, dramatic compositions and his

focus on religious themes, which were similar to those found in the Sistine

Chapel frescoes. In contrast, the other options listed were not as directly

influenced by the Sistine Chapel frescoes. Gianlorenzo Bernini was a

contemporary of Baciccio, but his works were more focused on classical themes

and styles, rather than the religious themes found in the Sistine Chapel

frescoes. Peter Paul Rubens was a later artist who was more influenced by the

Baroque style, rather than the Renaissance style of the Sistine Chapel frescoes.

Rachel Ruysch was a Dutch artist who was not known for large-scale religious

works, and therefore would not have been directly influenced by the Sistine

Chapel frescoes.

The answer is therefore [B]

Problem 4. Choose the most likely completion of the following sentence. The

work En la barbería no se llora (No Crying Allowed in the Barbershop) explores

themes of __.

Choose from the following options: [A] sexual stereotyping [B] women’s

liberation [C] conflict and peace [D] racial discrimination

Explanation for Problem 4: The title of the work, En la barbería no se llora

(No Crying Allowed in the Barbershop), suggests that the work explores themes

of sexual stereotyping. This is because the title implies that the barbershop

is a masculine space where emotions, specifically crying, are not allowed.

This reinforces traditional gender roles and stereotypes, suggesting that men

are not supposed to show emotions and that the barbershop is a space reserved

for men. In contrast, the other options listed do not seem to be directly

related to the title or themes of the work. Women’s liberation, conflict and

peace, and racial discrimination are not mentioned or implied in the title,

and therefore are not likely to be the main themes of the work. Therefore,

the most likely answer is [A], because the work explores themes of sexual

stereotyping.

The answer is therefore [A]

Problem 5. Which of the following artists explored themes related to the human

body and its relationship to the environment?

Choose from the following options: [A] Ai Weiwei [B] Doris Salcedo [C] Kiki

Smith [D] El Anatsui

Explanation for Problem 5: Kiki Smith is known for her exploration of themes

related to the human body and its relationship to the environment. This

is evident in her works, which often feature figures that are fragmented or

incomplete, as if to suggest the interconnectedness of the human body and the

natural world. In contrast, the other options listed do not seem to have a

focus on these themes. Ai Weiwei is known for his political activism and his

use of traditional Chinese materials and motifs in his works. Doris Salcedo

is known for her large-scale installations that explore themes of violence and

trauma. El Anatsui is known for his use of recycled materials, such as bottle

caps and metal scraps, to create large-scale installations that explore themes

of globalization and cultural identity. Therefore, the most likely answer is

[C], because Kiki Smith is known for exploring themes related to the human body

and its relationship to the environment.

The answer is therefore [C]

Problem 6. <PROBLEM TEXT AND ANSWER CHOICES GO HERE>

Explanation for Problem 4: <MODEL EXPLANATION (t=0.3, n=1, max_tokens=512,

stop=’\nThe answer is therefore’) SAMPLED HERE>

The answer is therefore [<MODEL ANSWER CHOICE (t=0.0, n=1, stop=‘]’) SAMPLED

HERE>]

自由回答式問題のプロンプト例：以下のプロンプト例では，タスクプロンプトをGREのエッセイタスクの公式サンプルのようなプロンプトに，エッセイレスポンスを高得点のエッセイの例に置き換えている[71]．

<|endofreply|>Analytical Writing: Issue Essay

<TEXT OF SAMPLE ISSUE TASK PROMPT>

Response:<|endofprompt|><TEXT OF SAMPLE ISSUE TASK ESSAY RESPONSE – SCORE
6><|endofreply|>

<FREE-RESPONSE PROMPT TEXT GOES HERE>

Response:<|endofprompt|>

(<MODEL ANSWER TEXT (t=0.6, n=1, stop=‘<|endofreply|>’) SAMPLED HERE>

<|endofreply|>Analytical Writing: Issue Essay

Response:<|endofprompt|><TEXT OF SAMPLE ISSUE TASK ESSAY RESPONSE – SCORE

6><|endofreply|>

<FREE-RESPONSE PROMPT TEXT GOES HERE>

Response:<|endofprompt|>

(<MODEL ANSWER TEXT (t=0.6, n=1, stop=‘<|endofreply|>’) SAMPLED HERE>

付録B：Impact of RLHF on capability（RLHFの能力への影響）

RLHFがベースモデルの能力に与える影響を調べるため，GPT-4のベースモデルとRLHF後のGPT-4モデルで試験ベンチマークの多肢選択問題部分を実行した．

その結果を表8に示す．

全試験を平均すると，ベースモデルは73.7%，RLHFモデルは74.0%であり，事後訓練によってベースモデルの能力が大きく変化しないことが示唆された．

GPT-4 Table8 — 表8：試験ベンチマークにおけるGPT-4ベースとGPT-4ポストRLHFの比較．全試験を平均すると，ベースモデルは平均73.7％，RLHFモデルは平均74.0％となり，事後訓練によってベースモデルの能力が大きく変化することはないことが示唆された．

自由回答式問題では，ベースモデルとRLHFモデルを同等に比較することは困難である．

なぜなら，自由回答式のサンプリング方法は，以下のようなモデルの能力によって恩恵を受けていると考えられるからである．

※訳注：「以下のようなモデルの能力」は付録C以降で語られる内容だと思われます．

付録C：Contamination on professional and academic exams（専門的な試験や学術的な試験でのコンタミネーション）

評価用データセットと事前訓練用データ間のクロスコンタミネーションを，部分文字列のマッチングを用いて測定する．

評価用データと訓練用データは，空白と記号をすべて削除し，文字（数字を含む）だけを残すように処理される．

各評価例について，50文字の部分文字列をランダムに3つ選択する（50文字未満の場合は例全体を使用する）．

サンプリングされた3つの評価用部分文字列のいずれかが，処理された訓練例の部分文字列と一致する場合，一致が確認される．

これにより，コンタミネーションされた例のリストが生成される．

これらを破棄し，コンタミネーションされていないスコアを得るために再実行する．

我々のフィルタリングアプローチには，いくつかの限界がある．

部分文字列の一致は，偽陽性だけでなく，偽陰性（評価データと訓練データの間にわずかな違いがある場合）も引き起こすことがある．

評価例から部分的な情報のみを使用し，質問，文脈，または同等のデータのみを利用し，回答，応答，または同等のデータは無視する．

場合によっては，多肢選択式の選択肢も除外する．

これらの除外は，偽陽性の増加につながる可能性がある．

RLHFの事後訓練データセットは，事前訓練セットよりも圧倒的に小さく，特定の質問が混入している可能性は低い．

しかしながら，明確な確認はしていない．

表9と表10に見られるように，全体的にコンタミネーションは報告された結果にほとんど影響を及ぼさないことがわかる．

GPT-4 Table9 — 表9：試験のコンタミネーションデータ（要約）．テストされた各試験について，コンタミネーションされている（つまり訓練データセットに存在する）試験の問題の割合を示す．GPT-4（視覚あり/なし）の受験者の最終スコアと対応するパーセンタイルを，試験全体と，試験中のコンタミネーションされていない問題のサブセットのみから性能を推定した場合に示す．AP試験については，多くの学生が同じ最終スコアを獲得するため，範囲を報告している（例：AP Art Historyでは，14％の学生が5/5を獲得するため，このスコアのパーセンタイル範囲は86％～100％になる）．なお，一部の試験（コードフォース，LSATなど）では，画像もコンタミネーションもないため，すべてのケースでスコアは同じになる．全体として，ほとんどの試験でコンタミネーションと視覚の両方は比較的小さな影響を与える．

GPT-4 Table10 — 表10：試験のコンタミネーションデータ（詳細）．テストされた各試験の詳細なコンタミネーション情報は，この表に示されており，コンタミネーションの多いものから少ないものへとリストアップされている．多肢選択式問題（MCQs：Multiple Choice Questions）と自由回答式問題（FRQs：Free-Response Questions）の両方がある試験は，別々の行に分かれている．各セットについて，コンタミネーションされた（訓練セットに含まれる）問題の数と割合をリストアップしている．次に，セット全体，コンタミネーションされていない問題，コンタミネーションされたセットのみに対するGPT-4の性能（最大スコアに対する割合）を報告する．劣化（コンタミネーションなしのパーセントからコンタミネーションありのパーセントを引いたもの）は一般に小さく，負と同様に正であることから，コンタミネーションは全体的な結果に対する実質的な交絡要因ではないと結論付けている．

付録D：Contamination on academic benchmarks（学術的なベンチマークにおけるコンタミネーション）

付録Cに示した方法と同様に，アカデミックベンチマークと研修前データとのクロスコンタミネーションを測定する．

結果を，表11に示す．

GPT-4 Table11 — 表11：GPT-4の事前訓練データとアカデミックベンチマークとのコンタミネーション．GPT-4の事前訓練データと，今回評価した学術的なベンチマークとの間のコンタミネーションの概算を報告する．HumanEval以外のデータセットでは，訓練データに対してランダムに選んだ1000個の例に基づいてコンタミネーションを推定する．HellaSwagについては，非公開の秘密のホールドアウトで計算されているため，事前訓練データセットに対するコンタミネーションは確認しなかったが，GPT-4のホールドアウトの結果は，学習中に明示的にマスクされた検証セット（95.6%）の結果に近いものであった．DROPについては，GPT-4のサブサンプル全体に対するスコアは82.5であった．これらの検証には，GPT-4の基本モデル（RLHFなし）を使用した．

付録E：GSM-8K in GPT-4 training（GPT-4訓練におけるGSM-8K）

GPT-4の数学的推論能力を向上させるために，言語モデルの数学的推論のベンチマークとしてよく研究されているMATHとGSM-8Kの訓練セットからのデータを混ぜあわせた．

これらの数学ベンチマークから抽出されたトークンの総数は，GPT-4の訓練予算全体のごく一部だった．

これらの数学ベンチマークからのデータを混合する際，訓練データの一部が保留されたため，個々の訓練例は，訓練中にGPT-4が見たことがあるかどうかは問わない．

GSM-8Kのテストセットが訓練セットに含まれていないことを確認するために，コンタミネーションチェックを実施した（付録D参照）．

表2のGPT-4 GSM-8Kで報告されている性能結果は，真のfew-shotの転移と完全なベンチマーク固有のチューニングの中間のようなものと解釈することを推奨する．

付録F：Multilingual MMLU（多言語対応MMLU）

MMLU[43]のすべての質問と回答をAzure Translateを使って翻訳した．

GPT-4自体には頼らず，外部モデルを使用して翻訳を行った．

これは，モデルが自身の翻訳に対して代表的でない性能を持っていた場合に備えている．

異なる地理的地域と文字をカバーするさまざまな言語を選択した．

表13に，天文カテゴリから採取した質問をマラーティー語，ラトビア語，ウェールズ語に翻訳した例を示す．

※訳注：原文では表12より表13が先に参照されていますので，論文としては不正確（読者に不親切）です．

翻訳は完璧ではなく，性能を低下させる可能性のある微妙な情報を失うケースもある．

さらに，いくつかの翻訳では，翻訳規約に従って英語の固有名詞が保持されており，性能を向上させる可能性がある．

GPT-4 Table13 — 表13：マラーティー語，ラトビア語，ウェールズ語に翻訳されたMMLU問題の例．

文献[4]と同じMMLUプロンプトを取り入れ，モデルは知的エージェントであることを命令され，質問と'A-D'とラベル付けされた4つの回答オプションのリストが提供され，'Answer:'が続いている．

モデルの命令，質問，答えを翻訳するが，'Answer'トークンと'A-D'オプションは英語で保持する．

プロンプトの例を表12に示す．

プロンプトは3ショットで構成され，開発セットから3つの例が選ばれている．

通常の5ショットではなく3ショットで評価するのは，一部の言語が非常に長いトークンシーケンスに対応するためである．

最後に，モデルから最も確率の高いA～Dトークンの連続を選び，正解を分類する．

GPT-4 Table12 — 表12：MMLUプロンプトの例（2つの異なる言語で表示される）．プロンプトの形式を統一するため，選択肢（A～D）や'Answer'トークンを翻訳していないことに注意されたい．

付録G：Examples of GPT-4 Visual Input（GPT-4視覚入力の例）

GPT-4 Table14 — 表14：GPT-4の視覚入力機能を示すプロンプトの例．このプロンプトは，チャートから情報を読み取り，計算を行うことを要求する問題で構成されている．

GPT-4 Table15 — 表15：GPT-4の視覚入力機能を示すプロンプトの例．フランス語で書かれた図のある物理問題を理解し，思考連鎖プロンプトを解くという問題である．

GPT-4 Table16 — 表16：GPT-4の視覚入力機能を示すプロンプトの例．このプロンプトでは，画像の理解が必要である．

GPT-4 Table17 — 表17：GPT-4の視覚入力機能を示すプロンプトの例．

GPT-4 Table18 — 表18：GPT-4の視覚入力機能を示すプロンプトの例．

GPT-4 Table19 — 表19：GPT-4の視覚入力機能を示すプロンプトの例．

付録H：System Card（システムカード）

GPT-4のシステムカード[72,73]は本書に添付する．

※訳注：GPT-4 System Cardの日本語訳を読みたいあなたはこちらからどうぞ．

: 【日本語訳】GPT-4 System Card【OpenAI】

こういった悩みにお答えします．こういった私から学べます．まずはGPT-4 Technical Reportの日本語訳を読みたいあなたはこちらからどうぞ． GPT-4 System Card（GPT ...

続きを見る

参考：GPT-4 Technical Reportの解説スライド・動画

GPT-4 Technical Reportの解説スライドです．

【DL輪読会】GPT-4Technical Report from Deep Learning JP

GPT-4 Technical Reportの解説動画です．

まとめ

GPT-4 Technical Reportの日本語訳を紹介しました．