【日本語訳】LLaMA: Open and Efficient Foundation Language Models【Meta（旧Facebook）】

悩んでいる人

LLaMA: Open and Efficient Foundation Language Modelsの日本語訳を教えて！

こういった悩みにお答えします．

本記事の信頼性

リアルタイムシステムの研究歴12年．
東大教員の時に，英語でOS（Linuxカーネル）の授業．
2012年9月～2013年8月にアメリカのノースカロライナ大学チャペルヒル校（UNC）コンピュータサイエンス学部で客員研究員として勤務．C言語でリアルタイムLinuxの研究開発．
プログラミング歴15年以上，習得している言語: C/C++，Python，Solidity/Vyper，Java，Ruby，Go，Rust，D，HTML/CSS/JS/PHP，MATLAB，Verse（UEFN）, Assembler (x64，aarch64)．
東大教員の時に，C++言語で開発した「LLVMコンパイラの拡張」，C言語で開発した独自のリアルタイムOS「Mcube Kernel」をGitHubにオープンソースとして公開．
2020年1月～現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務．2022年6月～現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO．
最近は自然言語処理AIとイーサリアムに関する有益な情報発信や，Unreal Editor for Fortnite（UEFN）でゲーム開発に従事．

（AI全般を含む）自然言語処理AIの論文の日本語訳や，AIチャットボット（ChatGPT，Auto-GPT，Gemini（旧Bard）など）の記事を50本以上執筆．アメリカのサンフランシスコ（広義のシリコンバレー）の会社でChatGPT/Geminiを訓練するプロンプトエンジニア・マネージャー・Quality Assurance（QA）の業務委託の経験あり．
（スマートコントラクトのプログラミングを含む）イーサリアムや仮想通貨全般の記事を200本以上執筆．イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり．
UEFNで10本以上のゲームを開発し，フォートナイト上で公開（Fortnite，Fortnite.GG）．

こういった私から学べます．

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ．

: 【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト【初心者，中級者，上級者】【Triton/Mojo言語】【データサイエンス】

こういった悩みにお答えします．こういった私から学べます．【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト AIのプログラミング言語「C++/Python言語」を学 ...

続きを見る

独学が難しいあなたは，AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう．後悔はさせません！

: AI（人工知能）を学べるおすすめのオンラインプログラミングスクール3社【AIチャットボットやAIバスケロボが作れます】

こういった悩みにお答えします．こういった私から学べます．今すぐ学びたいあなたは，AIを学べるおすすめのオンラインプログラミングスクール3社は下表になります． AI（人工知能）とは AI（人工知能） ...

続きを見る

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のAIエンジニアのおすすめ求人サイト【転職エージェント】【C++/Python言語】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のAIエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． AIエンジニアになるためには，主にC++/Pytho ...

続きを見る

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のプロンプトエンジニアのおすすめ求人サイト【転職エージェント】【AIチャットボット，ChatGPT，Auto-GPT，Gemini（旧Bard）】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のプロンプトエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． ※プロンプトエンジニアのことを，AIトレーナー ...

続きを見る

LLaMA: Open and Efficient Foundation Language Modelsの日本語訳を紹介します．

※図表を含む論文の著作権はLLaMA: Open and Efficient Foundation Language Modelsの著者に帰属します．

Meta（旧Facebook）の大規模言語モデルがわかります．

参考までに，LLaMAの読み方はラマになります．

LLaMA: Open and Efficient Foundation Language Modelsの目次は以下になります．

Abstract
1章：Introduction
2章：Approach
3章：Main results
4章：Instruction Finetuning
5章：Bias, Toxicity and Misinformation
6章：Carbon footprint
7章：Related work
8章：Conclusion
References
付録A：Question Answering
付録B：MMLU
付録C：Generations from LLaMA-65B
付録D：Generations from LLaMA-I

LLaMA: Open and Efficient Foundation Language Modelsを解説しつつ，私の考えも語ります．

LLaMA: Open and Efficient Foundation Language Modelsの概要と私の日本語訳は以下になります．

We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters.
我々は，7B（Billion）から65Bのパラメータを持つ基礎言語モデルのコレクションであるLLaMAを紹介する．

We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, without resorting to proprietary and inaccessible datasets.
我々は，数兆個のトークンを用いてモデルを訓練し，プロプライエタリでアクセスできないデータセットに頼ることなく，公開されているデータセットのみを用いて最先端のモデルを訓練することが可能であることを示している．

In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks, and LLaMA-65B is competitive with the best models, Chinchilla-70B and PaLM-540B.
特に，LLaMA-13BはほとんどのベンチマークでGPT-3（175B）を上回り，LLaMA-65Bは最高のモデルであるChinchilla-70BとPaLM-540Bに匹敵する性能を持っている．

We release all our models to the research community.
我々は，すべてのモデルを研究コミュニティに公開している．

https://arxiv.org/abs/2302.13971

私の日本語訳の注意点は以下になります．

概要は英語と日本語を両方掲載しましたが，本文は私の日本語訳のみを掲載していること（英語で読みたいあなたは原文を読みましょう！）
基本的には原文の直訳ですが，わかりにくい箇所は意訳や説明を追加している箇所があること
原文の「Acknowledgements」（謝辞）は省略していること
本文中に登場する表記「(Brown et al., 2020)」などは参考文献ですので，興味がある方は本記事の参考文献を参照されたいこと

それでは，LLaMA: Open and Efficient Foundation Language Modelsの本文を読みすすめましょう！

1章：Introduction（はじめに）

膨大なテキストコーパスで学習された大規模言語モデル（LLMs：Large Language Models）は，テキストの命令や少数の例から新しいタスクを実行する能力を示してきた(Brown et al., 2020)．

このようなfew-shotから得られる特性は，モデルを十分なサイズに拡張したときに初めて現れ(Kaplan et al., 2020)，その結果，これらのモデルをさらに拡張することに焦点を当てた一連の研究が生まれた(Chowdhery et al., 2022; Rae et al., 2021)．

これらの取り組みは，より多くのパラメータがより良い性能につながるという仮定に基づいている．

しかしながら，(Hoffmann et al., 2022)の最近の研究は，与えられた計算予算において，最高の性能は，最大のモデルによってではなく，より多くのデータで訓練された小さなモデルによって達成されることを示している．

(Hoffmann et al., 2022)のスケーリング法則の目的は，特定の訓練（training）計算バジェットに対して，データセットとモデルサイズをどのように最適にスケーリングするかを決定することである．

しかしながら，この目的は，言語モデルを大規模にスケールさせる際に重要となる推論（inference）バジェットを無視する．

この文脈では，目標とする性能レベルがある場合，好ましいモデルは，訓練が最も速いものではなく，推論が最も速いものある．

ある性能レベルに到達するためには，大きなモデルを訓練する方が安いかもしれないが，より長く訓練した小さなモデルの方が，最終的には推論が安くなる．

例えば，(Hoffmann et al., 2022)は200Bトークンに対して10Bモデルの訓練を推奨しているが，我々は7Bモデルの性能が1T（Trillion）トークン後でも向上し続けることを発見した．

この研究の焦点は，一般的に使用されるよりも多くのトークンで学習することにより，様々な推論バジェットで最高の性能を達成する一連の言語モデルを学習することである．

その結果，LLaMAと呼ばれるモデルは，7Bから65Bのパラメータを持ち，既存の最高のLLMと比較して競争力のある性能を持つ．

例えば，LLaMA-13Bは10倍小さいにもかかわらず，ほとんどのベンチマークでGPT-3を凌駕している．

このモデルは，単一のGPUで実行できるため，LLMへのアクセスや研究の民主化に役立つと信じている．

また，より高次のスケールでは，我々の65Bパラメータモデルは，ChinchillaやPaLM-540Bのような最高の大規模言語モデルとも競争力がある．

Chinchilla，PaLM，GPT-3とは異なり，我々は公開されているデータのみを使用しているため，我々の研究はオープンソースに対応している．

これに対して，既存のモデルの多くは，公開されていない，あるいは文書化されていないデータ（例：「書籍 - 2TB」や「ソーシャルメディア上の会話」など）に依存している．

OPT(Zhang et al., 2022)，GPT-NeoX(Black et al., 2022)，BLOOM(Scao et al., 2022)，GLM(Zeng et al., 2022)などの例外はあるが，PaLM-62BやChinchillaに匹敵するものはない．

本論文の残りの部分では，Transformerアーキテクチャ(Vaswani et al., 2017)に対して行った修正の概要と，我々の訓練方法を紹介する．

次に，我々のモデルの性能を報告し，標準的なベンチマークのセットで他のLLMと比較する．

最後に，責任あるAIコミュニティからの最新のベンチマークのいくつかを使用して，我々のモデルにエンコードされた偏見と毒性のいくつかを明らかにする．

2章：Approach（アプローチ）

我々の訓練アプローチは，以前の研究(Brown et al., 2020; Chowdhery et al., 2022)で説明した方法と同様であり，Chinchillaのスケーリング法則(Hoffmann et al., 2022)に触発されたものである．

標準的なオプティマイザを用いて，大量のテキストデータに対して大規模なTransformerを訓練する．

2.1節：Pre-training Data（事前訓練データ）

我々の訓練データセットは，表1に示すように，多様なドメインをカバーする複数のソースを混ぜたものである．

ほとんどの場合，他のLLMの訓練に利用されたデータソースを再利用しているが，一般に利用可能で，オープンソースに対応したデータのみを使用するという制約がある．

そのため，以下のようなデータの組み合わせと，それらが訓練セットに占める割合が決まっている．

English CommonCrawl [67%]：2017年から2020年までの5つのCommonCrawlダンプを，CCNetパイプライン(Wenzek et al., 2020)で前処理した．この処理では，行レベルでデータを重複排除し，fastText線形分類器で言語識別を行い，非英語ページを除去し，n-gram言語モデルで低品質コンテンツをフィルタリングする．さらに，Wikipediaで参考文献として使用されているページとランダムに抽出されたページを分類する線形モデルを訓練し，参考文献として分類されなかったページは破棄した．
C4 [15%]：探索的な実験では，多様な前処理済みのCommonCrawlデータセットを使用すると性能が向上することが確認された．そこで，一般に公開されているC4データセット(Raffel et al., 2020)をデータに含めた．C4の前処理には，重複排除と言語識別のステップが含まれている．CCNetとの主な違いは，品質フィルタリングで，句読点の有無やウェブページ内の単語と文の数などのヒューリスティックに依存していることがほとんどである．
GitHub [4.5%]：Google BigQueryで公開されているGitHubのデータセットを使用している．Apache，BSD，MITライセンスで配布されているプロジェクトのみを残している．さらに，行の長さや英数字の割合に基づくヒューリスティックな方法で低品質のファイルをフィルタリングし，正規表現でヘッダーなどのボイラープレートを除去した．最後に，得られたデータセットをファイルレベルで完全一致させ，重複排除した．
Wikipedia [4.5%]：2022年6月から8月までのWikipediaダンプを追加し，ラテン文字またはキリル文字を使用する20言語（bg，ca，cs，da，de，en，es，fr，hr，hu，it，nl，pl，pt，ro，ru，sl，sr，sv，uk）をカバーする．ハイパーリンク，コメント，その他のフォーマットのボイラープレートを削除するためにデータを処理する．
GutenbergとBooks3 [4.5%]：訓練データセットには，2つの書籍コーパスが含まれている．Gutenbergプロジェクトはパブリックドメインの書籍を含み，ThePile(Gao et al., 2020)のBooks3章は大規模言語モデルを訓練するための一般公開されたデータセットである．書籍レベルで重複排除を行い，90%以上内容が重複している書籍を削除している．
ArXiv [2.5%]：arXivの Latexファイルを加工して，科学的データをデータセットに追加している．(Lewkowycz et al., 2022)に従い，1章以前を全て削除し，参考文献も削除した．また，.texファイルのコメントを削除し，論文間の一貫性を高めるために，ユーザが書いた定義やマクロをインライン展開した．
Stack Exchange [2%]：コンピュータサイエンスから化学まで，多様な領域をカバーする高品質な質問と回答のウェブサイトであるStack Exchangeのダンプを含んでいる．最大規模の28のウェブサイトのデータを保持し，テキストからHTMLタグを削除し，回答をスコア（最高から最低まで）でソートしている．
Tokenizer：Sentence-Piece(Kudo and Richardson, 2018)の実装を使用し，BytePair Encoding（BPE）アルゴリズム(Sennrich et al., 2015)でデータをトークン化する．特に，すべての数字を個々の数字に分割し，未知のUTF-8文字を分解するためにバイトにフォールバックする．

全体として，訓練データセット全体には，トークン化後におよそ1.4Tのトークンが含まれている．

ほとんどの訓練データにおいて，各トークンは訓練中に1回しか使用されない．

ただし，WikipediaとBooksドメインは例外で，約2回のエポックを実行する．

2.2節：Architecture（アーキテクチャ）

大規模言語モデルに関する最近の研究に従い，我々のネットワークはTransformerアーキテクチャ(Vaswani et al., 2017)に基づいている．

我々は，その後提案され，PaLMなどの異なるモデルで使用された様々な改良を活用している．

以下は，元のアーキテクチャとの主な違いと，この変更のインスピレーションを得た場所である（[]内）．

Pre-normalization [GPT3]：学習の安定性を向上させるために，出力を正規化する代わりに，各Transformerサブレイヤーの入力を正規化する．(Zhang and Sennrich, 2019)によって導入されたRMSNorm正規化関数を使用する．
SwiGLU activation function [PaLM]：ReLUの非線形性を(Shazeer, 2020)が導入したSwiGLU活性化関数に置き換え，性能を向上させる．PaLMのように$4d$ではなく，$\frac{2}{3}4d$の次元を使用する．
Rotary Embeddings [GPTNeo]：代わりに(Su et al., 2021)が導入した回転位置埋め込み（RoPE：Rotary Positional Embeddings）をネットワークの各層に追加することで，絶対位置埋め込みを削除する．

異なるモデルのハイパーパラメータの詳細を表2に示す．

LLaMA Table2 — 表2：モデルサイズ，アーキテクチャ，最適化ハイパーパラメータ

2.3節：Optimizer（オプティマイザ）

我々のモデルは，AdamW optimizer(Loshchilov and Hutter, 2017)を用いて，以下のハイパーパラメータで訓練されている：$\beta_1 = 0.9$，$\beta_2 = 0.95$．

最終的な学習率が最大学習率の10％に等しくなるような，コサイン学習率スケジュールを使用する．

荷重減衰（weight decay）は0.1，勾配のクリッピング（gradient clipping）は1.0である．

2,000回のウォームアップを行い，モデルの大きさに応じて学習率とバッチサイズを変化させる（詳細は表2参照）．

2.4節：Efficient implementation（効率的な実装）

我々は，モデルの学習速度を向上させるために，いくつかの最適化を行った．

まず，メモリ使用量と実行時間を削減するために，因果的Multi-Head Attentionの効率的な実装を使用する．

この実装はxformersライブラリで利用可能であり，(Rabe and Staats, 2021)に触発され，(Dao et al., 2022)のバックワードが使われている．

これは，Attention Weightを保存せず，言語モデリングタスクの因果性のためにマスクされるキー/クエリのスコアを計算しないことで実現されている．

さらに学習効率を高めるため，チェックポイントを用いた後方パスで再計算されるアクティブの量を削減した．

より正確には，線形層の出力のような計算コストのかかる活性化を節約する．

これは，PyTorchのAutogradに頼らず，Transformer層の後方関数を手動で実装することで実現している．

この最適化の恩恵を十分に受けるためには，(Korthikanti et al., 2022)で説明されているように，モデルとシーケンスの並列性を利用してモデルのメモリ使用量を削減する必要がある．

さらに，活性化の計算と，ネットワークを介したGPU間の通信（all_reduce演算による）も可能な限りオーバーラップさせる．

65Bパラメータのモデルを訓練する場合，2,048個のA100 GPUと80GBのRAMで，約380トークン/秒/GPUを処理する．

これは，1.4Tトークンを含むデータセットでの訓練に約21日かかることを意味する．

3章：Main results（主な結果）

先行研究(Brown et al., 2020)に従い，zero-shotとfew-shotのタスクを検討し，合計20個のベンチマークでの結果を報告する．

Zero-shot：タスクのテキスト記述とテスト例を提供する．モデルは，自由形式の生成を使って答えを提供するか，提案された答えをランク付けする．
Few-shot：タスクの例（1～64の間）とテスト例をいくつか用意する．モデルはこのテキストを入力として，答えを生成したり，異なる選択肢をランク付けしたりする．

LLaMAを他の基礎モデル，すなわち非公開の言語モデルGPT-3(Brown et al., 2020)，Gopher(Rae et al., 2021)，Chinchilla(Hoffmann et al., 2022)およびPaLM(Chowdhery et al., 2022)，ならびにオープンソースのOPTモデル(Zhang et al., 2022)，GPT-J(Wang and Komatsuzaki, 2021)およびGPTNeo(Black et al., 2022)と比較する．

また，4章では，LLaMAとOPT-IML(Iyer et al., 2022)やFlan-PaLM(Chung et al., 2022)といった命令チューニングモデルを簡単に比較する．

自由回答生成タスクと多肢選択式タスクでLLaMAを評価する．

多肢選択式タスクでは，与えられた文脈に基づき，与えられた選択肢の中から最も適切な完了を選択することが目的である．

与えられた文脈から，最も尤度が高いものを選択する．

(Gao et al., 2021)に従い，特定のデータセット(OpenBookQA, BoolQ)を除き，補完の文字数で正規化した尤度を使用する．

(Brown et al., 2020)に従い，文脈として「Answer:」が与えられた場合の尤度を正規化したものに基づいて，補完（completion）を選択する．

P(completion|context)/P(completion|"Answer:")

3.1節：Common Sense Reasoning（常識推論）

8つの標準的な常識推論ベンチマークを検討する．

BoolQ(Clark et al., 2019)
PIQA(Bisk et al., 2020)
SIQA(Sap et al., 2019)
HellaSwag(Zellers et al., 2019)
WinoGrande(Sakaguchi et al., 2021)
ARCのeasyとchallengeの2つ(Clark et al., 2018)
OpenBookQA(Mihaylov et al., 2018)

これらのデータセットには，ClozeやWinogradスタイルのタスクや，多肢選択式の問題回答が含まれている．

言語モデリングコミュニティで行われているように，zero-shot設定で評価する．

表3では，様々なサイズの既存モデルと比較し，対応する論文の数値を報告している．

まず，LLaMA-65Bは，BoolQ以外のすべての報告されたベンチマークでChinchilla-70Bを上回った．

同様に，このモデルはBoolQとWinoGrandeを除くすべてのベンチマークでPaLM-540Bを上回った．

また，LLaMA-13Bモデルは，10倍小さいにもかかわらず，ほとんどのベンチマークでGPT-3を上回った．

3.2節：Closed-book Question Answering（クローズドブック型質問応答）

2つのクローズドブック質問応答ベンチマークで，LLaMAを既存の大規模言語モデルと比較する．

Natural Questions(Kwiatkowski et al., 2019)
TriviaQA(Joshi et al., 2017)

両方のベンチマークについて，クローズドブック設定，すなわち，モデルが質問に答えるための証拠を含む文書にアクセスできない状態での完全一致性能を報告する．

表4ではNaturalQuestionsの性能を，表5ではTriviaQAの性能を報告する．

両ベンチマークにおいて，LLaMA-65Bは，zero-shotおよびfew-shotの設定において，最先端の性能を達成した．

さらに重要なことは，LLaMA-13Bは5～10倍小さいにもかかわらず，これらのベンチマークでGPT-3やChinchillaとも競争力があることである．

このモデルは推論中，単一のV100 GPUで動作している．

LLaMA Table4 — 表4：NaturalQuestionsで完全一致の性能．

LLaMA Table5 — 表5：TriviaQAでフィルタリングされたdevセットにおけるzero-shotとfew-shotの完全一致の性能．

3.3節：Reading Comprehension（読解力）

RACE読解力ベンチマーク(Lai et al., 2017)でモデルを評価する．

このデータセットは，中国の中高生向けに設計された英語の読解力試験から収集されたものである．

(Brown et al., 2020)の評価設定に従い，結果を表6に報告する．

これらのベンチマークにおいて，LLaMA-65BはPaLM-540Bと競合し，LLaMA-13BはGPT-3を数%上回った．

3.4節：Mathematical reasoning（数学的推論）

我々は，2つの数学的推論ベンチマーク「MATH(Hendrycks et al., 2021)とGSM8k(Cobbe et al., 2021)」で我々のモデルを評価する．

MATHは，LaTeXで書かれた12Kの中学校と高校の数学の問題のデータセットである．

GSM8kは，中学校の数学の問題集である．

表7では，PaLMとMinerva(Lewkowycz et al., 2022)と比較している．

MinervaはArXivとMath Web Pagesから抽出した38.5Bのトークンでファインチューニングした一連のPaLMモデルであり，PaLMもLLaMAも数学データでファインチューニングしたものではない．

PaLMとMinervaの数値は(Lewkowycz et al., 2022)から引用し，maj1@kの有無で比較している．

maj1@kは，各問題に対してk個のサンプルを生成し，多数決を行う評価を示している(Wang et al., 2022)．

GSM8kにおいて，LLaMA-65BがMinerva-62Bを上回っていることが観察されるが，数学的データでのファインチューニングが行われていない．

LLaMA Table7 — 表7：量的推論データセットにおけるモデル性能．多数決では，Minervaと同じ設定を使用し，MATH向けにk = 256サンプル，GSM8k向けにk = 100とした（Minerva 540Bは，MATH向けにk = 64，GSM8k向けにk = 40を使用）．LLaMA-65Bは，GSM8kにおいてMinerva 62Bを上回ったが，数学データに関するファインチューニングは行われていない．

3.5節：Code generation（コード生成）

我々は，HumanEval(Chen et al., 2021)とMBPP(Austin et al., 2021)という2つのベンチマークで，自然言語の記述からコードを記述するモデルの能力を評価した．

どちらのタスクでも，モデルは数文のプログラムの説明と，数個の入出力例を受け取る．

HumanEvalでは関数のシグネチャも受け取り，プロンプトはドキュメンテーション文字列（docstring）にあるテキストの説明とテストとともに自然なコードとしてフォーマットされる．

モデルは，記述に適合し，テストケースを満たすPythonプログラムを生成する必要がある．

表8では，我々のモデルのpass@1スコアを，コード上でファインチューニングされていない既存の言語モデル，すなわちPaLMとLaMDA(Thoppilan et al., 2022)と比較している．

PaLMとLLaMAは，同程度の数のコードトークンを含むデータセットで学習された．

LLaMA Table8 — 表8：コード生成のモデル性能．HumanEvalとMBPPでのpass@スコアを報告する．HumanEvalの生成はzero-shotで，MBBPは(Austin et al., 2021)と同様のthree-shotのプロンプトで行っている．「*」がある値は(Chowdhery et al., 2022)の数値から読み取っている．

表8に示すように，同程度のパラメータ数であれば，LLaMAはLaMDAやPaLMなど，コードに特化した学習やファインチューニングを行わない一般的なモデルを凌駕している．

13B以上のパラメータを持つLLaMAは，HumanEvalとMBPPの両方でLaMDA 137Bを上回った．

また，LLaMA 65Bは，より長く学習させた場合でも，PaLM 62Bを上回った．

この表で報告されているpass@1の結果は，temperatureが0.1でのサンプリングによって得られたものである．

pass@100とpass@80の指標は，temperatureが0.8で得られたものである．

我々は，(Chen et al., 2021)と同じ方法を用いて，pass@kの偏っていない（公平）な推定値を得ている．

コード固有のトークンに対してファインチューニングを行うことで，コード上の性能を向上させることが可能である．

例えば，PaLM-Coder(Chowdhery et al., 2022)は，HumanEvalにおけるPaLMのpass@1スコアをPaLMの26.2%から36%に向上させます．

コードに特化して訓練された他のモデルも，これらのタスクにおいて一般的なモデルよりも優れた性能を発揮する(Chen et al., 2021; Nijkamp et al., 2022; Fried et al., 2022)．

コードトークンに関するファインチューニングは，この論文の範囲を超えている．

3.6節：Massive Multitask Language Understanding（大規模なマルチタスクの言語理解）

(Hendrycks et al., 2020)が導入した大規模マルチタスク言語理解ベンチマーク（MMLU：Massive Multitask Language Understanding）は，人文科学，STEM教育，社会科学など様々な知識領域をカバーする多肢選択式問題で構成されている．

我々は，ベンチマークが提供する例を用いて，five-shot設定で我々のモデルを評価し，結果を表9に報告する．

このベンチマークでは，LLaMA-65BはChinchilla-70BとPaLM-540Bに数%の差をつけており，ほとんどのドメインで平均していることがわかりる．

これは，ArXiv，Gutenberg，Books3といった限られた量の書籍や学術論文を事前訓練データとして使用したためである．

これらのモデルは最大で2TBの書籍で学習しているのに対して，合計でわずか177GBしかありません．

Gopher，Chinchilla，PaLMが使用する大量の書籍は，このベンチマークでGopherがGPT-3を上回り，他のベンチマークでは同程度である理由にもなっている．

LLaMA Table9 — 表9：Massive Multitask Language Understanding (MMLU)でfive-shotの精度．

3.7節：Evolution of performance during training（訓練中の性能の進化）

訓練中に，いくつかの質問応答と常識のベンチマークでモデルの性能を追跡し，図2に報告する．

ほとんどのベンチマークで，性能は着実に向上し，モデルの学習難易度と相関している（図1参照）．

※訳注：図2と図1の順番が逆になっている．．．

例外はSIQAとWinoGrandeである．

特にSIQAでは，性能に大きなばらつきが見られ，このベンチマークが信頼できないことを示している可能性がある．

WinoGrandeでは，性能は訓練の複雑さとあまり相関がない．

LLaMA-33BとLLaMA-65Bは，訓練中に同様の性能を発揮する．

LLaMA Figure2 — 図2：訓練中の質問応答と常識推論に関する性能の進化．

LLaMA Figure1 — 図1：7B，13B，33B，65Bモデルの訓練トークンに対する訓練損失．LLaMA-33BとLLaMA-65Bは，1.4Tのトークンで学習した．それ以下のモデルは，1.0Tトークンで訓練された．すべてのモデルは，バッチサイズ4Mのトークンで訓練されている．

4章：Instruction Finetuning（命令ファインチューニング）

本章では，命令データに対する簡単なファインチューニングが，MMLUの改善に急速につながることを示す．

LLaMA-65Bの非ファインチューニングバージョンはすでに基本的な命令に従うことができるが，ごく少量のファインチューニングでMMLUでの性能が向上し，さらにモデルの命令追従能力が向上することが観察された．

これは本論文の焦点ではないため，(Chung et al., 2022)と同じプロトコルに従って，命令モデルであるLLaMA-Iを学習させる実験を1回だけ実施した．

表10では，MMLUにおける我々の命令モデルLLaMA-Iの結果を報告し，中程度のサイズの既存の命令ファインチューニングモデル，すなわちOPT-IML(Iyer et al., 2022)およびFlan-PaLMシリーズ(Chung et al., 2022)と比較している．

報告された数値はすべて対応する論文からのものである．

ここで使用した命令ファインチューニングアプローチの単純さにもかかわらず，MMLUで68.9%に到達している．

LLaMA-I（65B）は，MMLUにおいて，中程度のサイズの既存の命令ファインチューニングモデルを上回ったが，MMLUにおけるGPT code-davinci-002の77.4（数字は(Iyer et al., 2022)から引用）という最先端にはまだほど遠いものである．

57のタスクにおけるMMLUの性能の詳細は，付録の表16に記載されている．

LLaMA Table10 — 表10：命令ファインチューニング-MMLU（five-shot）．中程度の大きさのモデルで，MMLUで命令ファインチューニングを行った場合と行わなかった場合の比較．

5章：Bias, Toxicity and Misinformation（偏見，毒性，誤情報）

大規模な言語モデルは，訓練データに存在するバイアスを再現し増幅すること(Sheng et al., 2019; Kurita et al., 2019)や，有害または攻撃的なコンテンツを生成すること(Gehman et al., 2020)が示されている．

我々の訓練データセットにはWebからのデータが大きな割合で含まれているため，我々のモデルがそのようなコンテンツを生成する可能性を判断することは極めて重要だと考えている．

LLaMA-65Bの潜在的な有害性を理解するために，有害なコンテンツ生成とステレオタイプ検出を測定するさまざまなベンチマークで評価した．

言語モデルコミュニティで使用されている標準的なベンチマークをいくつか選択し，これらのモデルの問題の一部を示しているが，これらの評価では，これらのモデルに関連するリスクを完全に理解するには十分ではない．

5.1節：RealToxicityPrompts

言語モデルは，侮辱，ヘイトスピーチ，脅迫などの有害な言語を生成することができる．

モデルが生成できる有毒なコンテンツの範囲は非常に広いため，十分な評価を行うことが困難である．

最近の研究(Zhang et al., 2022; Hoffmann et al., 2022)では，モデルがどの程度有害であるかの指標として，RealToxicityPromptsベンチマーク(Gehman et al., 2020)を考慮している．

RealToxicityPromptsは，モデルが完了しなければならない約100kのプロンプトで構成されており，その後，PerspectiveAPIにリクエストを出すことで毒性スコアが自動的に評価される．

サードパーティのPerspectiveAPIが使用するパイプラインをコントロールすることができないため，以前のモデルとの比較は困難である．

100k個のプロンプトのそれぞれについて，モデルで貪欲に生成し，その毒性スコアを測定する．

プロンプトごとのスコアは0（無毒）から1（有毒）までの範囲である．

表11では，RealToxicityPromptsの基本的なプロンプトと尊重するプロンプトのカテゴリーについて，平均したスコアを報告している．

これらのスコアは，文献で観察されたものと「同等」ですが（例：Chinchillaでは0.087），これらの研究と我々の研究では方法論が異なる（サンプリング戦略，プロンプトの数，APIの時間）．

特にRespectfulなプロンプトでは，モデルのサイズが大きくなるにつれて毒性が高まることが観察された．

これは，以前の研究(Zhang et al., 2022)でも観察されたが，(Hoffmann et al., 2022)の顕著な例外は，サイズが異なるにもかかわらず，ChinchillaとGopherの間に違いが見られないというものだった．

これは，より大きなモデルであるGopherがChinchillaよりも性能が悪いという事実で説明でき，毒性とモデルサイズの関係は，モデルファミリーの中でしか適用されない可能性があることを示唆している．

LLaMA Table11 — 表11：RealToxicityPrompts．このベンチマークの100k個のプロンプトに対して，貪欲なデコーダを実行した．「Respectful」バージョンは「Complete the following sentence in a polite, respectful, and unbiased manner:」で始まるプロンプトで，「Basic」はそれがないものである．スコアはPerplexityAPIを用いて取得し，スコアが高いほど有害な生成であることを示す．

5.2節：CrowS-Pairs

CrowS-Pairs(Nangia et al., 2020)を用いて，本モデルにおけるバイアスを評価する．

このデータセットでは，性別，宗教，人種/色，性的指向，年齢，国籍，障害，身体的外観，社会経済的地位の9つのカテゴリーにおけるバイアスを測定できる．

各例はステレオタイプとアンチステレオタイプで構成されており，zero-shot設定における両文章の当惑度を用いて，ステレオタイプの文に対するモデルの選好度を測定する．

したがって，スコアが高いほどバイアスが高いことを示す．

表12でGPT-3とOPT-175Bと比較する．

LLaMA Table12 — 表12：CrowS-Pairs．LLaMA-65Bに含まれる偏りの度合いをOPT-175B，GPT3-175Bと比較する．スコアが高いほど偏りがあることを示す．

LLaMAは，平均して両モデルにやや有利に比較されている．

我々のモデルは，特に宗教のカテゴリーで偏っており（OPT-175Bと比較して+10％），次いで年齢，性別となっている．

このような偏りは，複数のフィルタリングを行ったにもかかわらず，CommonCrawlに由来するものであると予想される．

5.3節：WinoGender

性別カテゴリーに関するモデルの偏りをさらに調査するために，共参照解決データセットであるWinoGenderベンチマーク(Rudinger et al., 2018)を利用する．

WinoGenderはWinogradスキーマでできており，モデルの共参照解決性能が代名詞の性別に影響されるかどうかを判断することでバイアスを評価する．

より正確には，各文章は「職業」，「参加者」，「代名詞」の3つの言及を持ち，代名詞は職業または参加者のいずれかを共参照しているものとする．

我々は，モデルに共参照関係を決定するよう促し，それが文の文脈に従って正しく行われるかどうかを測定する．

その目的は，職業に関連する社会的バイアスがモデルによって捕捉されているかどうかを明らかにすることである．

例えば，WinoGenderデータセットの一文は，「The nurse notified the patient that his shift will be ending in an hour.」であり，これに「'His' refers to」が続く．

次に，看護師と患者の継続の当惑度を比較し，モデルで共参照解決を行う．

「her/her/she」，「his/him/he」，「they/them/someone」の3つの代名詞（代名詞の文法的機能に対応する異なる選択肢）を使用した場合の性能を評価する．

表13では，データセットに含まれる3つの異なる代名詞に対する共参照のスコアを報告する．

我々のモデルは，「her/her/she」や「his/him/he」の代名詞よりも，「their/them/someone」の代名詞の方が，共参照解決を行う上で著しく優れていることがわかる．

同様の調査は以前の研究(Rae et al., 2021; Hoffmann et al., 2022)でも行われており，ジェンダーバイアスを示していると考えられる．

実際，「her/her/she」と「him/him/he」の代名詞の場合，モデルはおそらく，文の根拠を用いるのではなく，職業の多数派の性別を用いて共参照解決を行なっている．

LLaMA Table13 — 表13：WinoGenderでLLaMAモデルの共参照解決精度，異なる代名詞（「her/her/she」と「him/he」）に対するもの．「her/her/she」や「his/him/he」よりも「they/them/someone」代名詞の方が良い結果が出ており，これは偏りを示している可能性が高いことがわかる．

この仮説をさらに検証するために，WinoGenderデータセットの「her/her/she」と「his/him/he」代名詞の「gotcha」ケースのセットを利用する．

これらのケースは，代名詞が職業の大多数の性別と一致せず，職業が正解となる文に対応する．

表13では，我々のモデルであるLLaMA-65Bは，gotchaの例でより多くの誤りを犯し，ジェンダーと職業に関する社会的バイアスを捉えていることが明確に示されている．

また，「her/her/she」や「his/him/he」といった代名詞では性能が低下しており，性別に関係なくバイアスがかかっていることがわかる．

5.4節：TruthfulQA

TruthfulQA(Lin et al., 2021)は，モデルの真実性，すなわち，ある主張がいつ真実であるかを識別する能力を測定することを目的としている．

(Lin et al., 2021)は，「真実」の定義を「現実世界に関する文字通りの真実」という意味で考えており，信念体系や伝統の文脈においてのみ真実である主張は対象外としている．

このベンチマークは，モデルが誤情報や誤った主張を生み出すリスクを評価できる．

質問は多様なスタイルで書かれ，38のカテゴリーをカバーし，敵対するように設計されている．

表14では，トゥルースフルモデルを測定するための質問と，トゥルースフルモデルとインフォマティブモデルの交差を測定するための質問の両方について，我々のモデルの性能を報告している．

GPT-3と比較すると，我々のモデルは両方のカテゴリーで高いスコアを出しているが，正解率はまだ低く，我々のモデルが不正解を幻視している可能性があることを示している．

LLaMA Table14 — 表14：TruthfulQA．OpenAI APIを介して特別に訓練されたモデルによって採点された，トゥルースフル（Truthful）の答えとトゥルースフル*インフォマティブ（Truthful * Informative）の答えの割合を報告する．(Ouyang et al., 2022)で使用されたQAプロンプトのスタイルに従い，同論文のGPT-3の性能を報告する．

6章：Carbon footprint（カーボンフットプリント）

LLaMA Table15 — 表15：異なるモデルを同じデータセンターで訓練した場合の二酸化炭素排出量．(Wu et al., 2022)に従い，OPT，BLOOM，我々のモデルを同じデータセンターで学習させた場合の二酸化炭素排出量を計算した．A100-80GBの消費電力は，NVLinkシステムの熱設計電力である400Wを採用した．PUEは1.1，炭素原単位は米国平均の$0.385kg\ CO_2e/KWh$とした．

我々のモデルの訓練は，大量のエネルギーを消費し，二酸化炭素の排出の原因となっている．

このテーマに関する最近の文献に従い，総エネルギー消費量とその結果としてのカーボンフットプリントの内訳を表15に示す．

(Wu et al., 2022)の式に従い，モデルの訓練に必要なワット時（Wh）と，炭素排出量（$tCO_2eq$）を推定する．

Whについては，以下の式を使用する．

$$Wh = GPU - h * (GPU\ power\ consumption) * PUE$$

ここで，Power Usage Effectiveness（PUE）を1.1に設定している．

その結果，炭素排出量は，ネットワークの訓練に使用されるデータセンターの場所に依存する．

例えば，BLOOMは$0.057kg\ CO_2eq/KWh$を排出するグリッドを使用して$27\ tCO_2eq$となり，OPTは$0.231kg\ CO_2eq/KWh$を排出して$82\ tCO_2eq$となる．

本研究では，これらのモデルを同じデータセンターで学習させた場合の炭素排出量のコストを比較することに関心がある．

そのため，データセンターの所在地は考慮せず，米国の全国平均の炭素原単位係数$0.385kg\ CO_2eq/KWh$を使用する．

これにより，炭素排出量のトン数は以下の式となる．

$$tCO_2eq = MWh * 0.385$$

公平に比較するため，OPTとBLOOMに同じ計算式を適用している．

OPTについては，992台のA100-80Bで34日間の訓練を行ったと仮定している（ログを参照）．

最後に，2,048台のA100-80GBを約5ヶ月間使用し，モデルを開発したと推定している．

つまり，このモデルの開発には，我々の仮定で約2,638MWhのコストがかかり，総排出量は$1,015\ tCO_2eq$になった．

これらのモデルを公開することで，訓練はすでに終わっており，モデルの一部は比較的小さく，1つのGPUで実行できるため，将来の二酸化炭素排出量の削減に貢献することを期待している．

7章：Related work（関連研究）

言語モデル：

言語モデルとは，単語，トークン，または文字のシーケンスに対する確率分布である(Shannon, 1948, 1951)．

このタスクは，しばしば次のトークン予測という枠組みで，長い間，自然言語処理の中核をなす問題と考えられてきた(Bahl et al., 1983; Brown et al., 1990)．

(Turing, 1950)が「イミテーション・ゲーム」（imitation game）を通じて言語を用いて機械の知能を測定することを提案したことから，言語モデルは人工知能への進歩を測定するベンチマークとして提案されてきた(Mahoney, 1999)．

アーキテクチャ：

従来，言語モデルはn-gramカウント統計(Bahl et al., 1983)に基づいており，レアイベントの推定を改善するために様々な平滑化技術が提案された(Katz, 1987; Kneser and Ney, 1995)．

過去20年間，ニューラルネットワークは，フィードフォワードモデル(Bengio et al., 2000)，リカレントニューラルネットワーク(Elman, 1990; Mikolov et al., 2010)，LSTM(Hochreiter and Schmidhuber, 1997; Graves, 2013)から始まり，言語モデリングタスクにうまく適用されてきた．

最近では，自己注意に基づくTransformerネットワークが，特に長距離依存関係を捉えるための重要な改善につながった(Vaswani et al., 2017; Radford et al., 2018; Dai et al., 2019)．

スケーリング：

言語モデルのスケーリングについては，モデルサイズとデータセットサイズの両方について長い歴史がある．

(Brants et al., 2007)は，2兆個のトークン，つまり3,000億個のn-gramで学習した言語モデルを使用することで，機械翻訳の品質が向上することを示した．

この研究は，Stupid Backoffと呼ばれる単純なスムージング技術に依存していたが，(Heafield et al., 2013)は後に，Kneser-NeyスムージングをWebスケールデータに拡張する方法を示した．

これにより，CommonCrawlの975億個のトークンで5-gramモデルを訓練し，5,000億個のn-gramを持つモデルを得ることができた(Buck et al., 2014)．

(Chelba et al., 2013)は，言語モデルの進捗を測定するための大規模な学習データセットであるOne Billion Word benchmarkを紹介した．

ニューラル言語モデルの文脈では，(Jozefowicz et al., 2016)がLSTMを10億個のパラメータにスケーリングすることで，Billion Wordベンチマークで最先端の結果を得ている．

その後，スケーリングTransformersは，多くのNLPタスクでの改善につながる．

注目すべきモデルには，BERT(Devlin et al., 2018)，GPT-2(Radford et al., 2019)，Megatron-LM(Shoeybi et al., 2019)，T5(Raffel et al., 2020)がある．

1,750億個のパラメータを持つモデルであるGPT-3(Brown et al., 2020)で，大きなブレークスルーが得られた．

これにより，Jurassic-1(Lieber et al., 2021)，Megatron-Turing NLG(Smith et al., 2022)，Gopher(Rae et al., 2021)，Chinchilla(Hoffmann et al., 2022)，PaLM(Chowdhery et al., 2022)，OPT(Zhang et al., 2022)，GLM(Zeng et al., 2022)など一連の大規模言語モデル（LLMs：Large Language Models）へとつながっている．

(Hestness et al., 2017)と(Rosenfeld et al., 2019)は，スケーリングが深層学習モデルの性能に与える影響を研究し，モデルやデータセットのサイズとシステムの性能の間にべき乗則が存在することを示した．

(Kaplan et al., 2020)は，Transformerベースの言語モデルに特化してべき乗則を導き出し，後に(Hoffmann et al., 2022)によって，データセットのスケーリング時に学習率スケジュールを適応させることで洗練された．

最後に，(Wei et al., 2022)は，大規模言語モデルの能力に対するスケーリングの効果を研究した．

8章：Conclusion（結論）

本論文では，オープンに公開され，最先端の基礎モデルと競争力のある一連の言語モデルを紹介した．

特に，LLaMA-13BはGPT-3を10倍以上小さくしながらも上回り，LLaMA-65BはChinchilla-70BやPaLM-540Bと競合している．

これまでの研究とは異なり，独自のデータセットに頼らず，一般に公開されているデータのみで学習することで，最先端の性能を達成することが可能であることを示している．

これらのモデルを研究コミュニティに公開することで，大規模言語モデルの開発が加速し，その堅牢性を向上させ，毒性や偏りといった既知の問題を軽減する取り組みに貢献できることを期待している．

さらに，(Chung et al., 2022)と同様に，これらのモデルを命令でファインチューニングすることで，有望な結果が得られることを確認しており，今後の研究でさらに調査する予定である．

最後に，我々は，スケーリングするにつれて性能が常に向上していることを確認したため，将来的には，より大きな事前訓練コーパスで学習したより大きなモデルをリリースする予定である．

References（参考文献）

(Austin et al., 2021) Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, and Charles Sutton. 2021. Program synthesis with large language models.
(Bahl et al., 1983) Lalit R Bahl, Frederick Jelinek, and Robert L Mercer. 1983. A maximum likelihood approach to continuous speech recognition. IEEE transactions on pattern analysis and machine intelligence, pages 179–190.
(Bengio et al., 2000) Yoshua Bengio, Réjean Ducharme, and Pascal Vincent. 2000. A neural probabilistic language model. Advances in neural information processing systems, 13.
(Bisk et al., 2020) Yonatan Bisk, Rowan Zellers, Jianfeng Gao, Yejin Choi, et al. 2020. Piqa: Reasoning about physical commonsense in natural language. In Proceedings of the AAAI conference on artificial intelligence, pages 7432–7439.
(Black et al., 2022) Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, et al. 2022. Gpt-neox-20b: An open-source autoregressive language model. arXiv preprint arXiv:2204.06745.
(Brants et al., 2007) Heafield Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och, and Jeffrey Dean. 2007. Large language models in machine translation. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pages 858–867, Prague, Czech Republic. Association for Computational Linguistics.
(Brown et al., 1990) Peter F Brown, John Cocke, Stephen A Della Pietra, Vincent J Della Pietra, Frederick Jelinek, John Lafferty, Robert L Mercer, and Paul S Roossin. 1990. A statistical approach to machine translation. Computational linguistics, 16(2):79–85.
(Brown et al., 2020) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, ClemensWinter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language models are few-shot learners.
(Buck et al., 2014) Christian Buck, Kenneth Heafield, and Bas Van Ooyen. 2014. N-gram counts and language models from the common crawl. In LREC, volume 2, page 4.
(Chelba et al., 2013) Ciprian Chelba, Tomas Mikolov, Mike Schuster, Qi Ge, Thorsten Brants, Phillipp Koehn, and Tony Robinson. 2013. One billion word benchmark for measuring progress in statistical language modeling. arXiv preprint arXiv:1312.3005.
(Chen et al., 2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, PeterWelinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. 2021. Evaluating large language models trained on code.
(Chowdhery et al., 2022) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, JasonWei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. 2022. Palm: Scaling language modeling with pathways.
(Chung et al., 2022) Hyung Won Chung, Le Hou, S. Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Wei Yu, Vincent Zhao, Yanping Huang, Andrew M. Dai, Hongkun Yu, Slav Petrov, Ed Huai hsin Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc Le, and Jason Wei. 2022. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416.
(Clark et al., 2019) Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. 2019. Boolq: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044.
(Clark et al., 2018) Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. 2018. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457.
(Cobbe et al., 2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. 2021. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.
(Dai et al., 2019) Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov. 2019. Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860.
(Dao et al., 2022) Tri Dao, Daniel Y Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. 2022. Flashattention: Fast and memory-efficient exact attention with io-awareness. arXiv preprint arXiv:2205.14135.
(Devlin et al., 2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
(Elman, 1990) Jeffrey L Elman. 1990. Finding structure in time. Cognitive science, 14(2):179–211.
(Fried et al., 2022) Daniel Fried, Armen Aghajanyan, Jessy Lin, SidaWang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen-tau Yih, Luke Zettlemoyer, and Mike Lewis. 2022. Incoder: A generative model for code infilling and synthesis. arXiv preprint arXiv:2204.05999.
(Gao et al., 2020) Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, and Connor Leahy. 2020. The Pile: An 800gb dataset of diverse text for language modeling. arXiv preprint arXiv:2101.00027.
(Gao et al., 2021) Leo Gao, Jonathan Tow, Stella Biderman, Sid Black, Anthony DiPofi, Charles Foster, Laurence Golding, Jeffrey Hsu, Kyle McDonell, Niklas Muennighoff, Jason Phang, Laria Reynolds, Eric Tang, Anish Thite, Ben Wang, Kevin Wang, and Andy Zou. 2021. A framework for few-shot language model evaluation.
(Gehman et al., 2020) Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A Smith. 2020. Realtoxicityprompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
(Graves, 2013) Alex Graves. 2013. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850.
(Heafield et al., 2013) Kenneth Heafield, Ivan Pouzyrevsky, Jonathan H Clark, and Philipp Koehn. 2013. Scalable modified kneserney language model estimation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 690–696.
(Hendrycks et al., 2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. 2020. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.
(Hendrycks et al., 2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. 2021. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874.
(Hestness et al., 2017) Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md Patwary, Mostofa Ali, Yang Yang, and Yanqi Zhou. 2017. Deep learning scaling is predictable, empirically. arXiv preprint arXiv:1712.00409.
(Hochreiter and Schmidhuber, 1997) Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735– 1780.
(Hoffmann et al., 2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. 2022. Training compute-optimal large language models.
(Iyer et al., 2022) Srinivasan Iyer, Xi Victoria Lin, Ramakanth Pasunuru, Todor Mihaylov, Dániel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, et al. 2022. Opt-iml: Scaling language model instruction meta learning through the lens of generalization. arXiv preprint arXiv:2212.12017.
(Joshi et al., 2017) Mandar Joshi, Eunsol Choi, Daniel S Weld, and Luke Zettlemoyer. 2017. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. arXiv preprint arXiv:1705.03551.
(Jozefowicz et al., 2016) Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. 2016. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410.
(Kaplan et al., 2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
(Katz, 1987) Slava Katz. 1987. Estimation of probabilities from sparse data for the language model component of a speech recognizer. IEEE transactions on acoustics, speech, and signal processing, 35(3):400–401.
(Kneser and Ney, 1995) Reinhard Kneser and Hermann Ney. 1995. Improved backing-off for m-gram language modeling. In 1995 international conference on acoustics, speech, and signal processing, volume 1, pages 181–184. IEEE.
(Korthikanti et al., 2022) Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, and Bryan Catanzaro. 2022. Reducing activation recomputation in large transformer models. arXiv preprint arXiv:2205.05198.
(Kudo and Richardson, 2018) Taku Kudo and John Richardson. 2018. Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. arXiv preprint arXiv:1808.06226.
(Kurita et al., 2019) Keita Kurita, Nidhi Vyas, Ayush Pareek, Alan W Black, and Yulia Tsvetkov. 2019. Quantifying social biases in contextual word representations. In 1st ACL Workshop on Gender Bias for Natural Language Processing.
(Kwiatkowski et al., 2019) Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, et al. 2019. Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7:453– 466.
(Lai et al., 2017) Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. 2017. Race: Large-scale reading comprehension dataset from examinations. arXiv preprint arXiv:1704.04683.
(Lewkowycz et al., 2022) Aitor Lewkowycz, Anders Johan Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Venkatesh Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, YuhuaiWu, Behnam Neyshabur, Guy Gur-Ari, and Vedant Misra. 2022. Solving quantitative reasoning problems with language models. In Advances in Neural Information Processing Systems.
(Lieber et al., 2021) Opher Lieber, Or Sharir, Barak Lenz, and Yoav Shoham. 2021. Jurassic-1: Technical details and evaluation. White Paper. AI21 Labs, 1.
(Lin et al., 2021) Stephanie Lin, Jacob Hilton, and Owain Evans. 2021. Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
(Loshchilov and Hutter, 2017) Ilya Loshchilov and Frank Hutter. 2017. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101.
(Mahoney, 1999) Matthew V Mahoney. 1999. Text compression as a test for artificial intelligence. AAAI/IAAI, 970.
(Mihaylov et al., 2018) Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. 2018. Can a suit of armor conduct electricity? a new dataset for open book question answering. arXiv preprint arXiv:1809.02789.
(Mikolov et al., 2010) Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernock` y, and Sanjeev Khudanpur. 2010. Recurrent neural network based language model. In Interspeech, pages 1045–1048. Makuhari.
(Nangia et al., 2020) Nikita Nangia, Clara Vania, Rasika Bhalerao, and Samuel R. Bowman. 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. In EMNLP 2020.
(Nijkamp et al., 2022) Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, and Caiming Xiong. 2022. Codegen: An open large language model for code with multi-turn program synthesis. arXiv preprint arXiv:2203.13474.
(Ouyang et al., 2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Gray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems.
(Rabe and Staats, 2021) Markus N Rabe and Charles Staats. 2021. Self-attention does not need $o(n^2)$ memory. arXiv preprint arXiv:2112.05682.
(Radford et al., 2018) Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. 2018. Improving language understanding by generative pre-training.
(Radford et al., 2019) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. 2019. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9.
(Rae et al., 2021) Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving. 2021. Scaling language models: Methods, analysis & insights from training gopher.
(Raffel et al., 2020) Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1):5485–5551.
(Rosenfeld et al., 2019) Jonathan S Rosenfeld, Amir Rosenfeld, Yonatan Belinkov, and Nir Shavit. 2019. A constructive prediction of the generalization error across scales. arXiv preprint arXiv:1909.12673.
(Rudinger et al., 2018) Rachel Rudinger, Jason Naradowsky, Brian Leonard, and Benjamin Van Durme. 2018. Gender bias in coreference resolution. In NAACL-HLT 2018.
(Sakaguchi et al., 2021) Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. 2021. Winogrande: An adversarial winograd schema challenge at scale. Communications of the ACM, 64(9):99–106.
(Sap et al., 2019) Maarten Sap, Hannah Rashkin, Derek Chen, Ronan LeBras, and Yejin Choi. 2019. Socialiqa: Commonsense reasoning about social interactions. arXiv preprint arXiv:1904.09728.
(Scao et al., 2022) Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ili´c, Daniel Hesslow, Roman Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, et al. 2022. Bloom: A 176bparameter open-access multilingual language model. arXiv preprint arXiv:2211.05100.
(Sennrich et al., 2015) Rico Sennrich, Barry Haddow, and Alexandra Birch. 2015. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909.
(Shannon, 1948) Claude E Shannon. 1948. A mathematical theory of communication. The Bell system technical journal, 27(3):379–423.
(Shannon, 1951) Claude E Shannon. 1951. Prediction and entropy of printed english. Bell system technical journal, 30(1):50–64.
(Shazeer, 2020) Noam Shazeer. 2020. Glu variants improve transformer. arXiv preprint arXiv:2002.05202.
(Sheng et al., 2019) Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. 2019. The woman worked as a babysitter: On biases in language generation. arXiv preprint arXiv:1909.01326.
(Shoeybi et al., 2019) Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. 2019. Megatron-lm: Training multi-billion parameter language models using model parallelism. arXiv preprint arXiv:1909.08053.
(Smith et al., 2022) Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, and Bryan Catanzaro. 2022. Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model.
(Su et al., 2021) Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, and Yunfeng Liu. 2021. Roformer: Enhanced transformer with rotary position embedding. arXiv preprint arXiv:2104.09864.
(Thoppilan et al., 2022) Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung- Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera- Arcas, Claire Cui, Marian Croak, Ed Chi, and Quoc Le. 2022. Lamda: Language models for dialog applications.
(Turing 1950) A. M. Turing. 1950. Computing Machinery and Intelligence. [Oxford University Press, Mind Association].
(Vaswani et al., 2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems 30, pages 5998–6008.
(Wang and Komatsuzaki, 2021) Ben Wang and Aran Komatsuzaki. 2021. GPT-J- 6B: A 6 Billion Parameter Autoregressive Language Model. https://github.com/kingoflolz/ mesh-transformer-jax.
(Wang et al., 2022) Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. 2022. Self-consistency improves chain of thought reasoning in language models.
(Wei et al., 2022) Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. 2022. Emergent abilities of large language models. arXiv preprint arXiv:2206.07682.
(Wenzek et al., 2020) Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Joulin, and Edouard Grave. 2020. CCNet: Extracting high quality monolingual datasets from web crawl data. In Language Resources and Evaluation Conference.
(Wu et al., 2022) Carole-Jean Wu, Ramya Raghavendra, Udit Gupta, Bilge Acun, Newsha Ardalani, Kiwan Maeng, Gloria Chang, Fiona Aga, Jinshi Huang, Charles Bai, et al. 2022. Sustainable ai: Environmental implications, challenges and opportunities. Proceedings of Machine Learning and Systems, 4:795–813.
(Zellers et al., 2019) Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. 2019. Hellaswag: Can a machine really finish your sentence? arXiv preprint arXiv:1905.07830.
(Zeng et al., 2022) Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, Peng Zhang, Yuxiao Dong, and Jie Tang. 2022. Glm-130b: An open bilingual pre-trained model.
(Zhang and Sennrich, 2019) Biao Zhang and Rico Sennrich. 2019. Root mean square layer normalization. Advances in Neural Information Processing Systems, 32.
(Zhang et al., 2022) Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, et al. 2022. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068.

付録A：Question Answering（質問応答）

LLaMAをNatural QuestionsとTriviaQAで評価した．

Natural Questionsでは，3,610問を含むオープンドメインの質問応答に使用されるテストスプリットを使用した．

TriviaQAでは，フィルタリングされたセットのうち，devセットで評価する．

これはGPT-3やPaLMとは異なり，オンライン評価サーバが利用できなくなったフィルタリングされていない集合のテストセットで評価する．

貪欲なデコーダーを使用して答えを生成し，最初の改行，最後のドットまたはカンマで停止することによって，生成された答えから答えを抽出する．

生成された答えは，標準的な完全一致の評価基準で評価される．

つまり，生成された答えが，正規化後の答えリストのいずれかの答えと一致する場合，正しい答えとみなされる．

この正規化ステップでは，生成された答えを小文字にし，冠詞，句読点，重複する空白を削除する．

図3は，Natural QuestionsとTriviaQAのそれぞれについて，one-shot設定でフォーマットされた例を示している．

いずれの設定でも，質問と回答のリストに「Answer these questions:\n」という文字列を事前に付与している．

LLaMA Figure3 — 図3：Natural Questions（左）とTriviaQA（右）のフォーマットされたデータセットの例．

付録B：MMLU

LLaMA Table16 — 表16：MMLUでテストセットにおけるドメインごとの詳細なfive-shot結果．

付録C：Generations from LLaMA-65B（LLaMA-65Bからの生成）

ここでは，LLaMA-65Bで得られた生成の例（命令ファインチューニングなし）を示す．

プロンプトは太字である．

付録D：Generations from LLaMA-I（LLaMA-Iからの生成）

LLaMA-I，すなわち(Chung et al., 2022)のプロトコルおよび命令データセットでファインチューニングされたLLaMA-65Bによる生成の例をいくつか示す．

参考：LLaMA: Open and Efficient Foundation Language Modelsの解説動画

LLaMA: Open and Efficient Foundation Language Modelsの解説動画です．

まとめ

LLaMA: Open and Efficient Foundation Language Modelsの日本語訳を紹介しました．

Meta（旧Facebook）の大規模言語モデルがわかりました．