【日本語訳】GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models【OpenAI】

悩んでいる人

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの日本語訳を教えて！

こういった悩みにお答えします．

本記事の信頼性

リアルタイムシステムの研究歴12年．
東大教員の時に，英語でOS（Linuxカーネル）の授業．
2012年9月～2013年8月にアメリカのノースカロライナ大学チャペルヒル校（UNC）コンピュータサイエンス学部で客員研究員として勤務．C言語でリアルタイムLinuxの研究開発．
プログラミング歴15年以上，習得している言語: C/C++，Python，Solidity/Vyper，Java，Ruby，Go，Rust，D，HTML/CSS/JS/PHP，MATLAB，Verse（UEFN）, Assembler (x64，aarch64)．
東大教員の時に，C++言語で開発した「LLVMコンパイラの拡張」，C言語で開発した独自のリアルタイムOS「Mcube Kernel」をGitHubにオープンソースとして公開．
2020年1月～現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務．2022年6月～現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO．
最近は自然言語処理AIとイーサリアムに関する有益な情報発信や，Unreal Editor for Fortnite（UEFN）でゲーム開発に従事．

（AI全般を含む）自然言語処理AIの論文の日本語訳や，AIチャットボット（ChatGPT，Auto-GPT，Gemini（旧Bard）など）の記事を50本以上執筆．アメリカのサンフランシスコ（広義のシリコンバレー）の会社でChatGPT/Geminiを訓練するプロンプトエンジニア・マネージャー・Quality Assurance（QA）の業務委託の経験あり．
（スマートコントラクトのプログラミングを含む）イーサリアムや仮想通貨全般の記事を200本以上執筆．イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり．
UEFNで10本以上のゲームを開発し，フォートナイト上で公開（Fortnite，Fortnite.GG）．

こういった私から学べます．

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ．

: 【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト【初心者，中級者，上級者】【Triton/Mojo言語】【データサイエンス】

こういった悩みにお答えします．こういった私から学べます．【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト AIのプログラミング言語「C++/Python言語」を学 ...

続きを見る

独学が難しいあなたは，AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう．後悔はさせません！

: AI（人工知能）を学べるおすすめのオンラインプログラミングスクール3社【Python，AIアプリ，生成AIが学べます】

こういった悩みにお答えします．こういった私から学べます．今すぐ学びたいあなたは，AIを学べるおすすめのオンラインプログラミングスクール3社は下表になります． AI（人工知能）とは AI（人工知能） ...

続きを見る

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のAIエンジニアのおすすめ求人サイト【転職エージェント】【C++/Python言語】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のAIエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． AIエンジニアになるためには，主にC++/Pytho ...

続きを見る

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のプロンプトエンジニアのおすすめ求人サイト【転職エージェント】【AIチャットボット，ChatGPT，Auto-GPT，Gemini（旧Bard）】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のプロンプトエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． ※プロンプトエンジニアのことを，AIトレーナー ...

続きを見る

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの日本語訳を紹介します．

GPTsはGenerative Pre-trained Transformers（生成系な事前訓練済みのトランスフォーマー）とGeneral-Purpose Technologies（汎用技術）の両方の意味があることがわかります．

※図表を含む論文の著作権はGPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの著者に帰属します．

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの目次は以下になります．

1章：Introduction
2章：Literature Review
3章：Methods and Data Collection
4章：Results
5章：Validation of Measures
6章：Discussion
7章：Conclusion
Acknowledgments
LLM assistance statement
付録A：Taxonomies
付録B：O*NET Basic Skills Definitions
付録C：Education
付録D：Regional, Industrial, and Productivity Exposure
付録E：Demographic Variation in Exposure
付録F：Occupations Without Any Exposed Tasks
References

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsを解説しつつ，私の考えも語ります．

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの概要と私の日本語訳は以下になります．

We investigate the potential implications of Generative Pre-trained Transformer (GPT) models and related technologies on the U.S. labor market.
我々は，Generative Pre-trained Transformer（GPT）モデルと関連技術が米国の労働市場に与える潜在的な影響について調査する．

Using a new rubric, we assess occupations based on their correspondence with GPT capabilities, incorporating both human expertise and classifications from GPT-4.
新しい評価基準を用いて，人間の専門知識とGPT-4の分類の両方を取り入れ，GPT能力との対応に基づいて職業を評価する．

Our findings indicate that approximately 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of GPTs, while around 19% of workers may see at least 50% of their tasks impacted.
その結果，米国のワーカーの約80％がGPTの導入により，少なくとも10％の業務に影響を受ける可能性があり，約19％のワーカーは少なくとも50％の業務に影響を受ける可能性があることがわかった．

The influence spans all wage levels, with higher-income jobs potentially facing greater exposure.
また，その影響はすべての賃金水準に及び，高所得者ほど大きな影響を受ける可能性がある．

Notably, the impact is not limited to industries with higher recent productivity growth.
注目すべきは，その影響が最近の生産性上昇率が高い産業に限定されないことである．

We conclude that Generative Pre-trained Transformers exhibit characteristics of general-purpose technologies (GPTs), suggesting that as these models could have notable economic, social, and policy implications.
我々は，Generative Pre-trained Transformersが汎用技術（GPTs：General-Purpose Technologies）の特徴を示すと結論づけ，これらのモデルが経済，社会，政策に顕著な影響を与える可能性を示唆した．
https://arxiv.org/abs/2303.10130

私の日本語訳の注意点は以下になります．

概要は英語と日本語を両方掲載しましたが，本文は私の日本語訳のみを掲載していること（英語で読みたいあなたは原文を読みましょう！）
基本的には原文の直訳ですが，わかりにくい箇所は意訳や説明を追加している箇所があること
原文の「Acknowledgements」（謝辞）は省略していること
本文中に登場する表記「(Devlin et al., 2019)」などは参考文献ですので，興味がある方は本記事の参考文献を参照されたいこと

それでは，GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの本文を読みすすめましょう！

1 1章：Introduction（はじめに）
2 2章：Literature Review（文献レビュー）
- 2.1 2.1節：The Advancement of Large Language Models（大規模言語モデルの高度化）
- 2.2 2.2節：The Economic Impacts of Automation Technologies（自動化技術の経済効果）
3 3章：Methods and Data Collection（方法とデータ収集）
4 4章：Results（結果）
5 5章：Validation of Measures（測定法のバリデーション）
- 5.1 5.1節：Comparison to Earlier Efforts（これまでの取り組みとの比較）
6 6章：Discussion（ディスカッション）
7 7章：Conclusion（結論）
- 7.1 7.1節：GPT Conclusion (GPT-4’s Version)（GPTの結論（GPT-4'sバージョン））
- 7.2 7.2節：GPT Conclusion (Author-Augmented Version)（GPTの結論（著者補筆版））
8 LLM assistance statement（LLM支援声明）
9 付録A：Taxonomies（タクソノミー）
- 9.1 付録A.1節：Exposure（エクスポージャー）
10 付録B：O*NET Basic Skills Definitions（O*NET基本スキルの定義）
11 付録C：Education（教育）
12 付録D：Regional, Industrial, and Productivity Exposure（地域・産業・生産性エクスポージャー）
13 付録E：Demographic Variation in Exposure（エクスポージャーにおける人口統計の変化）
14 付録F：Occupations Without Any Exposed Tasks（エクスポージャーのない職業）
15 References（参考文献）
16 まとめ

1章：Introduction（はじめに）

GPTs are GPTs Figure1 — 図1：モデル能力の進歩の速さを知るには，GPT-3.5とGPT-4の間の試験成績のジャンプを考慮する(OpenAI, 2023b)．

図1に示すように，近年，Generative AIと大規模言語モデル（LLMs：Large Language Models）の分野では，数年，数ヶ月，数週間のうちに目覚ましい進歩が見られる．

一般にLLMは，Generative Pre-trained Transformer（GPT）のさまざまな反復を連想させることが多いが，LLMはさまざまなアーキテクチャを使用して学習でき，Transformerベースのモデルに限定されない(Devlin et al., 2019)．

LLMは，アセンブリ言語，タンパク質シーケンス，チェスゲームなど，さまざまな形式のシーケンシャルデータを処理・生成でき，自然言語アプリケーションだけにとどまらない拡張性を持っている．

本論文では，LLMとGPTをやや互換的に使用し，ChatGPTまたはOpenAI Playground（ラベル付け時点ではGPT-3.5ファミリーのモデルを含むが，GPT-4ファミリーのモデルは含まない）で利用できるGPTファミリーのモデルと同様に考えるべきことをルーブリックで指定している．

ここでは，テキストやコードを生成するGPTを対象とし，画像や音声などのモダリティも含めて「Generative AI」という用語を用いている．

しかし，我々の研究は，これらのモデルだけの進歩よりも，その周囲で開発された補完的な技術に見られる幅，規模，能力により動機づけられている．

補完技術の役割はまだ不明だが，LLMのインパクトを最大化するには，より大規模なシステムと統合することが不可欠である(Bresnahan, 2019; Agrawal et al., 2021)．

ここでは，LLMの生成能力に焦点を当てるが，LLMを他のタスクに使用することで，新しいタイプのソフトウェアやマシンコミュニケーションが可能になるかもしれない．

例えば，カスタム検索アプリケーションを構築するための埋め込みや，要約や分類のように，何が生成系か否かの区別をどこにつけるかが不明瞭なタスクがある．

この進行を文脈化し，技術の労働影響予測を補完するために，我々はLLM能力とその雇用への潜在的影響を理解するための新しいルーブリックを提案する．

このルーブリック（付録A.1参照）は，機械学習へのエクスポージャーの定量化に関する先行研究(Brynjolfsson et al., 2018; Felten et al., 2018; Webb, 2020)の精神に従って，GPTに対するタスクの全体的なエクスポージャーを測定する．

我々は，労働拡張効果または労働置換効果を区別することなく，潜在的な経済的影響のプロキシとしてエクスポージャーを定義する．

我々は，人間のアノテーターとGPT-4自体を分類器として採用し，主にO*NETデータベースから入手した米国経済の職業データにこのルーブリックを適用している．

※高度な言語モデルを活用して人間の行動をシミュレートする最近の社会科学研究とは異なる(Horton, 2023; Sorensen et al., 2022)．

※我々のエクスポージャールーブリックは，言語モデルの概念を必ずしも特定のモデルに結びつけるものではないが，我々が観察したGPT-4の能力と，OpenAIのローンチパートナーと開発中の一連の能力を見て，強く動機づけられた(OpenAI, 2023b)．

このデータセットを構築するために，著者からのラベルのサンプルと合意するように調整されたプロンプトを使用して，人間のアノテーションとGPT-4の分類の両方を収集した．

タスクレベルに集約した場合，GPT-4の回答や人間と機械による評価の間に，同様の合意レベルが観察された．

この指標は，人間の労働をより効率的にするための技術的能力の推定値を反映している．

しかしながら，社会，経済，規制，またはその他の決定要因は，技術的実現可能性が労働生産性や自動化の結果を保証するものではないことを意味する．

我々の分析によると，現在のモデル機能とその上に構築される予想されるツールの両方を考慮した場合，約19%の職業における少なくとも50%のタスクがエクスポージャーしていることがわかる．

人間の評価では，ソフトウェアやモダリティを追加することなく，既存の言語とコードの能力を考慮した場合，GPTにさらされるタスクが半分以上あるのは，米国のワーカーのわずか3％であることが示されている．

他の生成モデルや補完的な技術を考慮すると，人間の評価では，最大で49%の作業者が，半分以上の作業をLLMにエクスポージャーする可能性があることがわかる．

この結果は，人間とGPT-4アノテーションの両方において，ほとんどの職業がある程度のLLMへのエクスポージャーを示し，異なる種類の仕事においてエクスポージャーレベルが異なることを一貫して示している．

賃金の高い職業は一般的に高いエクスポージャー度を示しているが，これは機械学習全体のエクスポージャー度に関する同様の評価(Brynjolfsson et al., 2023)とは逆の結果である．

O*NETのスキルルーブリックを用いたスキルセットとエクスポージャーの測定値を回帰すると，科学と批判的思考スキルに大きく依存する職務はエクスポージャーと負の相関を示し，プログラミングとライティングスキルはLLMエクスポージャーと正の相関を示すことが判明した．

(Autor et al., 2022a)に従って，「ジョブゾーン」による参入障壁を検証したところ，LLMへの職業的エクスポージャーは，職業準備の難易度に応じて弱く増加することがわかった．

つまり，仕事への参入障壁が高い（低い）ワーカーは，LLMへのエクスポージャーが多い（少ない）傾向にある．

さらに，我々の測定値を，経済における自動化エクスポージャーの分布を文書化した過去の取り組みと比較したところ，ほぼ一貫した結果が得られた．

我々が調査した他のテクノロジーエクスポージャー測定値のほとんどは，我々の好ましいエクスポージャー測定値と統計的に有意な相関があり，一方，マニュアルのルーチン化とロボティクスエクスポージャーの測定値は負の相関を示した．

これらの先行する取り組み(Acemoglu and Autor, 2011a; Frey and Osborne, 2017; Brynjolfsson et al., 2018; Felten et al., 2018; Webb, 2020; Brynjolfsson et al., 2023)により，賃金コントロールと合わせて説明できる分散は60～72%であり，我々のAIエクスポージャー測定における変動の28～40%が以前のテクノロジーエクスポージャー測定により説明されないままであるということがわかる．

産業別では，情報処理産業（4-digit NAICS）が高いエクスポージャーを示し，製造業，農業，鉱業は低いエクスポージャーを示すことがわかった．

過去10年間の生産性向上とGPTの全体的なエクスポージャーとの関連は弱く，LLMによる将来の生産性向上がコスト病の可能性を悪化させないという楽観的なケースを示唆している(Baumol, 2012)．

※ボーモルのコスト病とは，医療や教育など労働集約的なサービスの費用が時間とともに増加する理由を説明する理論である．これは，他の産業の熟練ワーカーの賃金は上昇するが，これらのサービス産業の生産性や効率性はそれに見合うほど上昇しないために起こる．したがって，これらの産業における労働コストは，経済における他の財やサービスと比較して相対的に高価になる．

我々の分析によると，GPT-4のようなLLMの影響は広範に及ぶ可能性がある．

LLMは時間の経過とともに一貫して能力を向上させてきたが，その経済効果の増大は，仮に今日新しい能力の開発を止めたとしても，持続し，増大することが予想される．

また，補完的な技術の開発を考慮すると，LLMの潜在的な影響力は大きく拡大することが分かる．

これらの特徴を総合すると，Generative Pre-trained Transformers（GPTs）は汎用技術（GPTs：General-Purpose Technologies）であることを示唆している(Bresnahan and Trajtenberg, 1995; Lipsey et al., 2005)．

※本論文の残りの部分では，OpenAI経由で利用できるものに代表される大規模な言語モデル全般を指してGPTを使用し，「GPTsはGPTsである」（GPTs are GPTs）と明記する以外では，汎用的な技術を使用する場合に限る．

(Goldfarb et al., 2023)は，広いカテゴリーとしての機械学習は汎用技術である可能性が高いと論じている．

機械学習ソフトウェアのサブセットでさえ，独立して汎用技術の地位を得るための基準を満たすことから，我々の証拠はより広い影響を支持するものである．

本論文の主な貢献は，LLMの影響力の測定法を提供することと，LLMを適用して効率的かつ大規模に測定法を開発するユースケースを実証することである．

さらに，LLMの汎用的な可能性を紹介する．

「GPTsはGPTsである」とすれば，LLMの開発と応用の最終的な軌跡は，政策立案者が予測し規制することが困難である可能性がある．

他の汎用技術と同様に，これらのアルゴリズムの可能性の多くは，新しいタイプの仕事の創出など，経済的に価値のある幅広いユースケースで現れるだろう(Acemoglu and Restrepo, 2018; Autor et al., 2022a)．

我々の研究は，現在の技術的に実現可能なことを測定するものだが，必然的に時間とともに進化するLLMのインパクトの可能性を見逃してしまうことになる．

本論文の構成は以下の通りである．

2章では関連する先行研究をレビューし，3章では方法とデータ収集について述べ，4章では要約統計と結果を示し，5章では我々の測定と先行研究の関連性を示し，6章では結果を探求し，7章では結論を述べる．

2章：Literature Review（文献レビュー）

2.1節：The Advancement of Large Language Models（大規模言語モデルの高度化）

近年，LLMは，AI研究の分野で注目を集め，複雑な言語ベースのタスクに幅広く取り組む能力を示している．

この進歩は，モデルのパラメータ数の増加，学習データ量の増加，学習設定の強化など，複数の要因によって後押しされている(Brown et al., 2020; Radford et al., 2019; Hernandez et al., 2021; Kaplan et al., 2020)．

LaMDA(Thoppilan et al., 2022)やGPT-4(OpenAI, 2023b)などの広範で最先端のLLMは，翻訳，分類，創作，コード生成などの多様な用途に優れている．

これらの用途では，これまで専門技術者がドメイン固有のデータを使用して開発したタスク固有のモデルが必要だが，この能力が必要となる．

同時に，研究者は，人間のフィードバックによるファインチューニングや強化学習などの方法を用いて，これらのモデルの操縦性，信頼性，実用性を向上させてきた(Ouyang et al., 2022; Bai et al., 2022)．

これらの進歩により，ユーザの意図を見分けるモデルの能力が向上し，よりユーザフレンドリーで実用的なものになった．

さらに，最近の研究では，LLMがAPIや検索エンジン，さらには他のGenerative AIシステムなど，他のデジタルツールをプログラムし，制御する可能性があることが明らかにされている(Schick et al., 2023; Mialon et al., 2023; Chase, 2022)．

これにより，個々のコンポーネントをシームレスに統合し，より優れた実用性，性能，汎化を実現することができる．

長期的には，これらの傾向は，LLMがコンピュータで通常行われるあらゆるタスクを実行できるようになる可能性を示唆している．

これまで，Generative AIモデルは，キャプションから画像を生成したり，音声からテキストを書き起こしたりするような，特定のタスクを実行するモジュール型の専門家として主に展開されてきた．

しかしながら，我々は，LLMを追加ツールのための重要なビルディングブロックとして認識し，より広い視点を採用することが不可欠であると主張する．

これらのツールを構築し，包括的なシステムに統合するには時間がかかり，経済全体の既存のプロセスを大幅に再構成する必要があるが，すでに新たな採用傾向が見られるようになっている．

LLMは，その限界にもかかわらず，ライティング支援，コーディング，法的調査などの分野で専門的なアプリケーションに統合されつつあり，企業や個人がより広くGPTを採用する道を開いている．

このような補完的な技術の重要性を強調するのは，既製の汎用GPTは，事実の不正確さ，固有のバイアス，プライバシーへの懸念，偽情報のリスクなどの問題により，さまざまなタスクにおいて信頼性の低い状態が続く可能性があるからである(Abid et al., 2021; Schramowski et al., 2022; Goldstein et al., 2023; OpenAI, 2023a)．

しかしながら，ツール，ソフトウェア，Human-in-the-Loopシステムなどの特殊なワークフローは，ドメイン固有の専門知識を取り入れることで，これらの欠点に対処することができる．

例えば，CasetextはLLMベースの法律研究ツールを提供しており，弁護士に対してより迅速かつ正確な法律研究結果を提供している．

このツールでは，埋め込みと要約を利用して，GPT-4が法律事件や文書セットについて不正確な詳細を提供するリスクに対抗している．

GitHub Copilotは，LLMを採用してコードスニペットやオートコンプリートのコードを生成し，ユーザがその専門性に基づいて受け入れたり拒否したりできるコーディングアシスタントである．

つまり，GPT-4単体では「今が何時なのかわからない」のは事実だが，それをウォッチさせるのは簡単なことなのである．

さらに，LLMが特定の性能の閾値を超えると，正のフィードバックループが生まれ，様々な文脈でLLMの有用性と使いやすさを高めるツールの構築を支援できる可能性がある．

これにより，ツール作成に必要なコストや工学的専門知識が削減され，LLMの採用と統合がさらに加速する可能性がある(Chen et al., 2021; Peng et al., 2023)．

LLMは，研究者のコーディングアシスタント，データラベリングサービス，合成データ生成など，機械学習モデル開発における貴重な資産となる可能性もある．

このようなモデルは，例えば，人間と機械の間のタスクやサブタスクの割り当て方法を改良することで，タスクレベルでの経済的意思決定に貢献する可能性がある(Singla et al., 2015; Shahaf and Horvitz, 2010)．

LLMが時間の経過とともに改善され，ユーザの好みに合うようになれば，継続的に性能が向上することが予想される．

しかしながら，こうした傾向は，さまざまな深刻なリスクももたらすことを認識することが必要不可欠である(Khlaaf et al., 2022; Weidinger et al., 2022; Solaiman et al., 2019)．

2.2節：The Economic Impacts of Automation Technologies（自動化技術の経済効果）

人工知能や自動化技術が労働市場に与える影響については，広範な文献があり，その数は増え続けている．

技術が労働に及ぼす影響を理解するための標準的な枠組みであるとしばしば考えられている，技能偏重型の技術変化と自動化のタスクモデルという概念は，技術の進歩が非熟練ワーカーよりも熟練ワーカーの需要を高めることを示す研究に端を発している(Katz and Murphy, 1992)．

この概念を基に，タスクベースの枠組みで技術変化と自動化がワーカーに与える影響を探る研究が数多く行われてきた(Autor et al., 2003; Acemoglu and Autor, 2011b; Acemoglu and Restrepo, 2018)．

この一連の研究は，ルーチンワークや反復作業に携わるワーカーは，ルーチンに偏った技術変化として知られる現象である，テクノロジーによる置き換えのリスクが高いことを示している．

より最近の研究では，テクノロジーのtask-displacement効果とtask-reinstatement効果（新しいテクノロジーがより幅広い労働集約的なタスクの必要性を高める）を区別している(Acemoglu and Restrepo, 2018, 2019)．

いくつかの研究は，自動化技術が，定型的な作業に特化したワーカーの相対的な賃金低下によって，米国における賃金不平等をもたらしたことを示す(Autor et al., 2006; Van Reenen, 2011; Acemoglu and Restrepo, 2022b)．

先行研究では，AI能力とワーカーが異なる職業で行うタスクや活動の重複を推定するために，以下の様々なアプローチを採用している．

特許の記述をワーカーのタスクの記述にマッピングする方法(Webb, 2020; Meindl et al., 2021)
AI能力をO*NETデータベースに記録された職業能力にリンクする方法(Felten et al., 2018, 2023)
AIタスクベンチマーク評価を認知能力を介してワーカーのタスクに整合する方法(Tolan et al., 2021)
米国の職業のサブセットについて自動化の可能性をラベル付けし，機械学習分類器を使用して他のすべての米国の職業についてこの可能性を推定する方法(Frey and Osborne, 2017)
タスクレベルの自動化をモデル化し，その結果を職業レベルのインサイトに集約する方法(Arntz et al., 2017)
専門家が予測する方法(Grace et al., 2018)
本論文と最も関連がある，機械学習への適合性についてワーカーの活動を評価する新しい基準を考案する方法(Brynjolfsson et al., 2018, 2023)

これらのアプローチの中には，タスクレベルでのAI技術へのエクスポージャーが職業内で多様化する傾向があることを発見したものがある．

各職業をタスクの束として考えると，AIツールがほぼすべての仕事をこなすことができる職業は稀である．

(Autor et al., 2022a)は，自動化と拡張のエクスポージャーが正の相関を持つ傾向があることを同様に発見している．

また，LLMの具体的な経済的影響や機会を検証する研究も増えている(Bommasani et al., 2021; Felten et al., 2023; Korinek, 2023; Mollick and Mollick, 2022; Noy and Zhang, 2023; Peng et al., 2023)．

この仕事と並んで，我々の測定は，言語モデルと労働市場との幅広い潜在的関連性の特徴付けに役立つ．

汎用技術（印刷，蒸気機関など）（GPTs）は，広範な拡散，継続的な改善，補完的なイノベーションの発生を特徴とする(Bresnahan and Trajtenberg, 1995; Lipsey et al., 2005)．

数十年にわたって展開されるその遠大な結果は，特に労働需要との関係で予想が難しい(Bessen, 2018; Korinek and Stiglitz, 2018; Acemoglu et al., 2020; Benzell et al., 2021)．

汎用技術の潜在能力をフルに発揮するには，広範な共同発明(Bresnahan and Trajtenberg, 1995; Bresnahan et al., 1996, 2002; Lipsey et al., 2005; Dixon et al., 2021)，新しいビジネス手順の発見を伴うコストと時間のかかるプロセスが必要となる(David, 1990; Bresnahan, 1999; Frey, 2019; Brynjolfsson et al., 2021; Feigenbaum and Gross, 2021).

その結果，機械学習技術に関する多くの研究は，システムレベルの採用に焦点を当て，新規の機械学習の進歩を効果的に利用するためには，組織システムの再設計が必要な場合があると主張している(Bresnahan, 2019; Agrawal et al., 2021; Goldfarb et al., 2023)．

適切に設計されたシステムは，かなりのビジネス価値をもたらし，企業の性能を向上させることができ(Rock, 2019; Babina et al., 2021; Zolas et al., 2021)，AIツールは発見プロセスを促進する(Cockburn et al., 2018; Cheng et al., 2022)．

LLMがGPT基準を満たすかどうかを評価するためにタスクレベルの情報を採用することで，技術と労働の関係を理解するための2つの視点を融合させることを目指す．

我々は，いくつかの方法で，これらの多様な文献の流れを構築しようと試みている．

(Felten et al., 2023)を参考に，機械学習や自動化技術を広く取り上げるのではなく，LLMの影響に重点を置いて分析することにした．

さらに，LLM，特にGPT-4を使用して，タスクのエクスポージャーと自動化の可能性を評価し，人間のスコアリング作業を強化する新しい方法を提案する．

その後，現代の米国労働市場における潜在的なエクスポージャーの全体像を把握するため，職業や産業別に調査結果を集計する．

3章：Methods and Data Collection（方法とデータ収集）

3.1節：Data on Activities and Tasks Performed by Occupation in the US（米国における職業別活動・タスクデータ）

O*NET 27.2データベース(O*NET, 2023)を使用している．

このデータベースには，1,016の職業に関する情報が含まれており，それぞれの詳細作業活動（DWAs：Detailed Work Activities）とタスクが含まれている．

DWAとは，「プロジェクトの要件を決定するためにスクリプトを研究する」など，タスクを完了するための包括的な行動である．

一方，タスクは職業固有の作業単位であり，1つまたは複数のDWAsと関連付けられることがある．

表1に，タスクとDWAsのサンプルを示す．

使用する2つのデータセットは以下の通りである．

19,265タスク：各タスクには「タスクの説明」と対応する職業があり，ほとんどのタスクが1つ以上のDWAと関連している．
2,087個のDWAs：ほとんどのDWAは1つ以上のタスクに接続され，タスクは1つ以上のDWAsに関連付けられるが，関連するDWAsがないタスクもある．

GPTs are GPTs Table1 — 表1：O*NETデータベースの職業，タスク，Detailed Work Activitiesのサンプル．Gambling Cage Workers（ギャンブルの檻のワーカー）は，与えられたDWAを自分で完成させると予想されることからもわかるように，活動だけで集計するのは不正確である．また，Online Merchants（オンラインマーチャント）がパソコンだけで完結するのとは違い，体を使う仕事である．

3.2節：Data on Wages, Employment, and Demographics（賃金，雇用，人口統計に関するデータ）

雇用と賃金のデータは，労働統計局が提供する2020年と2021年の職業別雇用シリーズから入手したものである．

このデータセットには，職業名，各職業のワーカー数，2031年の職業レベルの雇用予測，職業に就くために必要な典型的な教育，職業における能力を獲得するために必要なOJTが含まれている(BLS, 2022)．

BLSが推薦するO*NETへのクロスウォーク(BLS, 2023b)を使用して，O*NETタスクおよびDWAデータセットと，Current Population Survey（CPS）から得られるBLS Labor Force Demographics(BLS, 2023a)をリンクさせている．

これらのデータソースはどちらも米国政府によって収集され，主に自営業でなく，文書化され，いわゆる正規経済で働くワーカーを捕捉している．

3.3節：Exposure（エクスポージャー）

GPTまたはGPT搭載システムへのアクセスによって，人間が特定のDWAを実行したり，タスクを完了したりするのに必要な時間が少なくとも50%短縮されるかどうかを評価する指標として「エクスポージャー」（exposure）を定義し，エクスポージャールーブリックに基づいて結果を示している．

以下にルーブリックの概要を示すが，完全なルーブリックは付録A.1に記載されている．

DWAのラベルがある場合，職業レベルで集計する前に，まずタスクレベルで集計する．

エクスポージャーの概要

以下の条件が真の場合，エクスポージャーなし（E0）：

同等の品質を維持しながら，活動や作業を完了するのに必要な時間が短縮されないか，最小限の時間しか短縮されない場合．
以下の基準に従って記述された能力の任意の組み合わせを使用することは，アクティビティ/タスクのアウトプットの質を低下させる場合．

以下の条件が真の場合，ダイレクトエクスポージャー（E1）：

ChatGPTまたはOpenAIプレイグラウンドで説明された理論的なLLMまたはGPT-4のみを使用して，DWAまたはタスクの完了に必要な時間を少なくとも半分（50%）減少させることができる場合．

以下の条件が真の場合，LLM + エクスポージャー（E2）：

LLMにアクセスするだけでは，その活動/タスクを完了するのに必要な時間を少なくとも半分に減らすことができない場合．
LLMでは，特定の活動やタスクを高品質で完了するために必要な時間を少なくとも半分に短縮できるようなソフトウェアを追加開発することが可能である．このようなシステムの中で，我々は画像生成システムへのアクセスをカウントしている．

※実際には，付録A.1のルーブリックにあるように，アノテーションを容易にするために，画像機能へのアクセスを別に分類している（E3）．ただし，すべての分析ではE2とE3を組み合わせている．

我々は，一定の品質を保ちながら，特定のDWAやタスクを完了するのに必要な時間を50％削減できる可能性があることをエクスポージャーの閾値として設定した．

生産性の大幅な向上を実現するアプリケーションの採用が最も多く，即効性があると予想される．

この閾値はやや恣意的であるが，アノテーターが解釈しやすいように選択した．

※さらに，選択した閾値にかかわらず，現実のタスク時間の短縮は，我々の推定値よりもわずかに，または大幅に低くなる可能性が高いと推測されたため，比較的高い閾値を選択することになった．我々の検証用ラベルでは，これはGPTまたはGPTを搭載したアプリケーションがタスクのコア部分を実行できるか，ほぼすべてのタスクを実行できるかに密接に対応していることがわかった．

そして，GPT-4が作成したアノテーションを，本論文の解析の基礎となるエクスポージャールーブリックを用いて収集した．

人間の評価：O*NET Detailed Worker Activity（DWA）とO*NET Taskのサブセットにルーブリックを適用し，DWAとタスクのスコアをタスクと職業レベルで集計することで，人間によるアノテーションを得た．これらのアノテーションの品質を保証するために，著者らはタスクとDWAの大規模なサンプルを個人的にラベル付けし，OpenAIのアライメント作業の一環としてGPT出力を広範囲にレビューした経験豊富な人間のアノテーターを参加させた（Ouyang et al.）．
GPT-4の評価：GPT-4の初期バージョン(OpenAI, 2023b)と同様のルーブリックを実施したが，DWAではなく，すべてのタスク/オキュペーションのペアに対して実施した．人間のラベルのセットとの合意を高めるために，ルーブリック（この場合，モデルへの「プロンプト」として使用される）にわずかな修正を加えた．完全な合意率は表2に示す通りである．

※著者らは，明らかに高度な身体性または手先の器用さを必要とするDWAにアノテーションを付け，契約アノテーターは残りのアクティビティと，DWAに関連しないタスクやDWAアノテーションを集約してもタスクレベルのアノテーションが明確でないものを含むサブセットをアノテーション付けした．

GPTs are GPTs Table2 — 表2：合意スコアとピアソン相関スコアのモデル・人間比較．合意スコアは，2つのグループがアノテーション（例：E0，E1，E2）に同意する頻度を見ることによって決定される．論文では，GPT-4のルーブリック1を使用する．

従属変数として，以下の3つの主要な指標を設定する．

\(\alpha\)：上記のエクスポージャールーブリックのE1に相当し，ある職業におけるエクスポージャータスクの割合の下限を表すと予想される．
\(\beta\)：E1と0.5*E2の合計であり，E2に対する0.5の加重は，補完的なツールやアプリケーションを通じて技術を展開する際に追加投資が必要となる場合のエクスポージャーを考慮したものである．
\(\zeta\)：E1とE2の合計であり，GPTおよびGPT搭載ソフトウェアへの最大エクスポージャーの評価を提供するエクスポージャーの上限値である．

※最近，マルチモーダルGPTモデル(OpenAI, 2023b)が進歩したが，視覚機能は\(\alpha\)エクスポージャーの評価に含まれていなかった．

アノテーショングループと測定法の間の合意を表2にまとめた．

分析の残りの部分では，特に指定がない場合，読者は\(\beta\)エクスポージャーと呼ぶと仮定してよい．

つまり，ChatGPTやOpenAI Playgroundのようなツールで直接公開されるすべてのタスクは，何らかの補完的なイノベーションを必要とするタスクの2倍公開されていると見なされる．

3.4節：Limitations of our methodology（我々の手法の限界）

3.4.1項：Subjective human judgments（人間の主観的な判断）

我々のアプローチの基本的な限界は，ラベリングの主観性にある．

本研究では，GPTモデルの能力を熟知しているアノテーターを採用している．

しかしながら，このグループは職業的に多様ではないため，GPTが馴染みのない職業のタスクを実行する際の信頼性や有効性に関して偏った判断を下す可能性がある．

このように，ある職業における各タスクの高品質なラベルを得るためには，その職業に従事している人，あるいは少なくともその職業における多様なタスクに関する深い知識を有していることが必要であることを認識した．

このことは，今回の結果を検証する上で，今後の重要な課題である．

3.4.2項：Measuring GPTs with GPT-4（GPT-4でGPTを測定）

最近の研究では，GPT-4は複雑な分類法を適用し，言葉遣いや強調の変化に対応できる，効果的な識別器として機能することが示されている(OpenAI, 2023b)．

GPT-4のタスク分類の結果は，ルーブリックの文言，プロンプトの順序と構成，ルーブリック内の具体例の有無，提供される詳細度，および主要用語の定義の変更に敏感である．

小規模な検証セットで観察された結果に基づいてプロンプトを反復することで，モデルの出力とルーブリックの意図の合意度を高めることができる．

そのため，人間に提示されるルーブリックとGPT-4で使用されるルーブリックには，若干の違いがある．

これは，人間のアノテーションに過度の影響を与えることなく，モデルを合理的なラベルに導くために意図的に行われた決定である．

その結果，複数のアノテーションソースが使用されているが，どのソースも他のソースと比較して決定的なグランドトゥルース（ground truth）とみなされるべきものではない．

分析では，人間のアノテーションによる結果を主要な結果として提示する．

LLM分類のための効果的なルーブリックを作成する上で，さらなる改善と革新が可能である．

しかし，GPTシステムの全体的なエクスポージャーに関する職業レベルでの人間の評価とGPT-4の評価の間には，高い合意度が見られる（表2，図2参照）．

※訳注：原文の「Figure ??」は図2のことだと思います．

GPTs are GPTs Figure2 — 図2：職業別のGPTエクスポージャーについて，人間の評価者（x軸）とGPT-4の評価（y軸）は高い合意度を示している．職業別エクスポージャーの集計方法である\(\beta\)法に従った最高エクスポージャー付近では，GPT-4の評価が人間の評価よりも低くなる傾向がある．ここでは，生の散布図とビン散布図を示す．エクスポージャー評価のトップエンド付近では，人間は平均して職業をエクスポージャーと評価する傾向がある．

3.4.3項：Additional Weaknesses（その他の弱点）

タスクベースのフレームワークの妥当性：職業をどこまで完全にタスクに分解できるかは不明であり，このアプローチによって，職務遂行に暗黙のうちに必要とされる特定のカテゴリーのスキルやタスクが体系的に省かれる可能性もある．さらに，タスクはサブタスクで構成されることもあり，その中には自動化しやすいものもある．タスクの中には，他のタスクの前段階として機能するものもあり，下流タスクの完了が前段階のタスクに依存する場合もある．もしタスクベースの内訳が，ある職業におけるほとんどの作業がどのように行われるかを正しく表現していないとしたら，我々のエクスポージャー分析はほとんど無効となる．
相対的な測定と絶対的な測定：例えば，エクスポージャーが0.6と推定される職業は，エクスポージャーが0.1の職業よりはるかに多いと解釈するのがよい．
専門知識とタスクの解釈の欠如：人間のアノテーターは，ラベリングプロセスにおいて，各DWAにマッピングされた特定の職業を知らないことがほとんどであった．そのため，タスクと職業を集約するロジックが不明確であり，表1に示すように，ラベルに明らかな相違点があった．そこで，様々な集計方法を試してみたところ，最大公約数的なアプローチ（「人間<>モデル」のラベルが存在する場合，それに合意するものを採用する）でも，比較的合意が保たれることがわかった．最終的には，不合意が顕著なタスク/オキュペーションのペアについて，追加のラベルを収集した．
将来的なものであり，変化する可能性がある，いくつかの初期の証拠がある：将来のLLMの応用を正確に予測することは，専門家であっても依然として大きな課題である(OpenAI, 2023b)．新たな能力，人間の認識の偏り，技術開発のシフトはすべて，LLMが作業員のタスクに与える潜在的な影響に関する予測の正確性と信頼性に影響を与える可能性がある．我々の予測は，本質的に未来志向であり，現在のトレンド，証拠，技術的可能性の認識に基づいている．そのため，この分野で新たな進展があれば，予測は変化する可能性がある．例えば，現在ではLLMが影響を与える可能性が低いと思われる作業も，新しいモデルの導入により変化する可能性がある．逆に，一見可能性が高いと思われるタスクが，言語モデルの適用を制限する予期せぬ課題に直面するかもしれない．
不合意の原因：不合意の原因を厳密に調べたわけではないが，人間とモデルの評価が「行き詰まる」傾向がある箇所がいくつか見受けられた．
- 理論的にはLLMがそのタスクを支援または達成することができるが，それを採用するためには，複数の人が習慣や期待を変える必要があるタスクや活動（例：会議，交渉）．
- 現在，人間の監視を必要とする何らかの規制や，人間の判断や共感を示唆する規範が存在するタスクや活動（例：意思決定，カウンセリング）．
- 合理的にタスクを自動化できる技術がすでに存在するタスクまたは活動（例：予約）．

4章：Results（結果）

汎用的な技術は比較的まれであり，普及性，時間の経過による改善，重要な共同発明やスピルオーバーの発生といった特徴がある(Lipsey et al., 2005)．

Generative Pre-trained Transformers（GPTs）が労働市場に与える影響についての評価は，全要素生産性や資本投入の可能性を考慮していないため，限定的である．

労働への影響に加え，GPTはこれらの次元にも影響を与える可能性がある．

現段階では，特定のGPT基準は他の基準よりも評価しやすい．

例えば，これらのモデルの能力と補完的なアプリケーションやシステムの成長がもたらす長期的な影響を評価することは，より実現可能性が高い．

この初期段階での我々の主な焦点は，GPT言語モデルが経済に広範な影響を与えるという仮説を検証することである．

これは，(Goldfarb et al., 2023)がアルゴリズムカテゴリーとしての機械学習のGPT可能性を評価するために求人情報を通じて機械学習の拡散を分析したのと似ている．

求人情報を使ったり，機械学習全般を研究したりするよりも，人間とGPTの両方のアノテーションを用いたタスク評価アプローチを調べることで，GPTの影響が少数の類似タスクや職業に限定されているかどうかを明らかにできるかもしれない．

この結果は，GPTがタスクレベルの能力に基づいて，米国経済の多様な職業に大きな影響を与える可能性があることを示唆しており，汎用技術の重要な特性を示している．

以下のセクションでは，様々な役割と賃金体系における結果について説明する．

米国経済における産業の相対的なエクスポージャーに関するその他の結果は，付録Dに記載されている．

4.1節：Summary Statistics（要約統計）

これらの測定値の要約統計は，表3に記載されている．

人間とGPT-4のアノテーションの両方から，平均的な職業レベルの\(\alpha\)値は0.14と0.15の間にあることが示され，中央の職業では，約15%のタスクがGPTに直接さらされることが示唆されている．

この数値は，\(\beta\)では30%以上，\(\zeta\)では50%以上に増加する．

偶然にも，人間とGPT-4のアノテーションは，データセットの全タスクの15%から14%をGPTにエクスポージャーされているとしてタグ付けしている．

GPTs are GPTs Table3 — 表3：人間とモデルのエクスポージャーデータの要約統計．

\(\beta\)の値から，80%のワーカーは少なくとも1つのタスクがGPTにさらされている職業に属しており，19%のワーカーは半分以上のタスクがさらされているとラベル付けされている職業に属していると推定されている．

しかしながら，その可能性を十分に発揮させるためには，より広範なシステムに取り込む必要がある．

汎用的な技術に共通することだが，このような共同発明の壁が，GPTの経済的な応用への迅速な普及を妨げている可能性がある．

さらに，人間の監視の必要性を予測することは困難であり，特にモデルの能力が人間と同等かそれ以上であるようなタスクでは，その必要性が高くなる．

人間の監視が必要なため，当初は採用や普及のスピードが落ちるかもしれないが，GPTやGPTを搭載したシステムのユーザは，特にいつ，どのようにその出力を信頼すべきかを理解するという点で，時間とともに技術に慣れていくと思われる．

※訳注：表4が論文中では引用されていないですが，以下に記載します．

GPTs are GPTs Table4 — 表4：各測定によると，最も高いエクスポージャーを持つ職業．最後の行は，\(\sigma^2\)が最も高い職業をリストアップしており，脆弱性予測における変動性が最も高いことを示す．エクスポージャー率は，GPT（\(\alpha\)）またはGPT搭載ソフトウェア（\(\beta\)と\(\zeta\)）にエクスポージャーされた職業のタスクの割合を示し，エクスポージャーとは，タスクを完了するのにかかる時間が50%以上減少することと定義されている（エクスポージャールーブリックの付録A.1参照）．このように，この表に記載されている職業は，GPTやGPT搭載ソフトウェアが，ワーカーの作業の大部分を完了する時間を大幅に短縮できると推定される職業であるが，必ずしもこれらの技術によってその作業が完全に自動化できることを示唆しているわけではない．

4.2節：Wages and Employment（賃金と雇用）

図3に経済全体のエクスポージャーを示す．

図3左は職業総数，図3右はワーカー総数で表したものである．

グラフ上の各ポイントは，y軸に職業（およびワーカー）の推定割合を，x軸にエクスポージャーレベル（\(\alpha\)，\(\beta\)，\(\zeta\)）を表示している．

例えば，人間のアノテーターは，2.4%のワーカーが\(\alpha_{50}\)-exposed，18.6%が\(\beta_{50}\)-exposed，49.6%が\(\zeta_{50}\)-exposedと判定した．

ここで，50%の閾値は図2の右プロットのx軸から，ワーカーの割合はy軸から来るものである．

x軸上の任意の点で，\(\alpha\)と\(\zeta\)の間の垂直距離は，GPTへのダイレクトエクスポージャー以外のツールやアプリケーションに起因するエクスポージャー可能性を表している．

エクスポージャー量の分布は，職業，ワーカーともにほぼ同じであり，ワーカーの職業への集中は，GPTやGPT搭載ソフトウェアへの職業的エクスポージャーと強い相関はないことが示唆される．

GPTs are GPTs Figure3 — 図3：左は影響を受ける職業の割合，右は影響を受けるワーカーの割合で表示した経済全体のエクスポージャー強度．職業別，ワーカー別に見ると，エクスポージャーの分布はほぼ同じであり，ワーカーの職業への集中は，GPTやGPT搭載ソフトウェアへの職業的エクスポージャーと高い相関がないことが示唆される．ただし，特定のドメインに対するGPT搭載ソフトウェアの開発への投資とは，より高い相関がある可能性があると考えられる．

職業レベルで集計すると，図4に示すように，人間のアノテーションとGPT-4のアノテーションは定性的な類似性を示し，相関する傾向がある．

人間のアノテーションは，GPT-4のアノテーションと比較して，高賃金職種のエクスポージャーをわずかに低く見積もっている．

低賃金でエクスポージャーが多い職業と高賃金でエクスポージャーが少ない職業が多数存在するが，ビン散布図の全体的な傾向から，賃金が高いほどGPTへのエクスポージャーが増加することがわかる．

GPTs are GPTs Figure4 — 図4：ビン散布図は，人間の評価者とGPT-4の両方によって評価された，様々な職業における言語モデル（LLM）へのエクスポージャーを表す．これらのビン散布図は，職業レベルのGPT（\(\beta\)）へのエクスポージャーを，職業内の総雇用者数の対数および職業の年間賃金中央値の対数と比較している．いくつかの矛盾が存在するものの，人間の評価とGPT-4の評価の両方が，高賃金の職業がLLMにさらされる傾向があることを示している．また，低賃金の職業は，ルーブリックに基づき，高いエクスポージャーを示しているものが多数ある．平均的なエクスポージャーを算出する際，コアタスクは補助的タスクの2倍の重みを持つ．雇用と賃金のデータは，2021年5月に実施されたBLS-OES調査から得たものである．

GPTの潜在的なエクスポージャーは，現在の雇用水準とほとんど相関がないように思われる．

図4では，GPT-4による総合的なエクスポージャーの評価を職業レベルに集約し（y軸），総雇用者数の対数（x軸）と比較している．

どちらのビン散布図も，雇用レベルの違いによるGPTエクスポージャーの有意な差を明らかにしていない．

4.3節：Skill Importance（スキルの重要性）

本節では，ある職業におけるスキルの重要度（O*NETデータセットにアノテーションがある）と，我々のエクスポージャー測定値の関係を調査する．

まず，O*NETが提供する基本スキル（スキルの定義は付録Bに記載）を用いて，各職業のスキル重要度指標を正規化し，解釈しやすくする．

次に，エクスポージャー指標（\(\alpha\)，\(\beta\)，\(\zeta\)）に対して回帰分析を行い，スキルの重要性とエクスポージャーの間の関連性の強さを検証する．

その結果，科学や批判的思考のスキルの重要性は，エクスポージャーと強い負の相関を示し，これらのスキルを必要とする職業は，現在の言語モデルの影響を受けにくいことが示唆された．

逆に，プログラミングやライティングのスキルは，エクスポージャーと強い正の相関を示し，これらのスキルが必要な職業は，言語モデルの影響を受けやすいことを示唆した（詳細な結果は表5参照）．

GPTs are GPTs Table5 — 表5：O*NETスキルに対するエクスポージャー対策のOLS回帰結果

4.4節：Barriers to Entry（参入障壁）

次に，職種の違いによるエクスポージャーの差別化を理解するために，参入障壁を検討する．

そのひとつが，O*NETの職業レベル記述子である「ジョブゾーン」（Job Zones）である．

ジョブゾーンは，（a）その職業に就くために必要な教育レベル，（b）その仕事をするために必要な関連経験の量，（c）その仕事をするために必要なOJTの程度が似ている職業をグループ化している．

O*NETのデータベースでは，5つのジョブゾーンがあり，ジョブゾーン1は最も少ない準備期間（3ヶ月），ジョブゾーン5は最も多い準備期間（4年以上）が必要であることを示している．

ジョブゾーンによって，必要な準備のレベルが上がるにつれて，所得の中央値が単調に上昇し，ジョブゾーン1のワーカーの中央値は30,230ドル，ジョブゾーン5のワーカーの中央値は80,980ドルであることが確認されている．

すべての指標（\(\alpha\)，\(\beta\)，\(\zeta\)）が同じパターンを示している．

つまり，ジョブゾーン1からジョブゾーン4までエクスポージャーが増加し，ジョブゾーン5では同程度か減少している．

図3と同様に，図5にエクスポージャーの閾値ごとにワーカーの割合をプロットした．

その結果，ジョブゾーン1からジョブゾーン5において，平均して50%以上の\(\beta\)エクスポージャーがある職業のワーカーの割合は，\(\beta\)がそれぞれ0.00%（ジョブゾーン1），6.11%（ジョブゾーン2）,10.57%（ジョブゾーン3），34.5%（ジョブゾーン4），26.45%（ジョブゾーン5）となった．

GPTs are GPTs Figure5 — 図5：5つのジョブゾーンに属する職業の\(\beta\)エクスポージャー評価．これは，類似した職業のグループであり，その職業に就くために必要な教育，経験，OJTのレベルに応じて分類される．

※訳注：表6が論文中では引用されていないですが，以下に記載します．

GPTs are GPTs Table6 — 表6：ジョブゾーン別のGPTへのエクスポージャー

4.4.1項：Typical Education Needed for Entry（入社に必要な一般的な学歴）

ジョブゾーンへの参加は，必要な教育（それ自体がスキル習得のプロキシである）と必要な準備の両方を考慮するため，これらの変数を分離するためのデータを探すことにした．

労働統計局の職業データから「職業に就くために必要な標準的な教育」と「職業能力を獲得するために必要なOJT」の2つの変数を用いる．

これらの要素を検討することで，労働力に影響を与える可能性のあるトレンドを明らかにすることを目的としている．

なお，学歴や職業訓練の必要性に関するデータが不足しているワーカーが350万4,000人いるため，総括表からは除外している．

学士号，修士号，専門職学位を持っている人は，学歴のない人よりもGPTやGPT搭載ソフトウェアに親しんでいることが分析から伺える（表7参照）．

興味深いことに，大学卒業程度の学歴を持つが学位は持っていない人が，GPTやGPT搭載ソフトウェアに高いレベルで接していることもわかった．

参入障壁の表を見ると，GPTに触れる機会が最も少ない職種は，最も長い訓練を必要とするため，能力達成後の報酬（中央値）が低くなる可能性があることがわかる．

逆に，OJTが不要な仕事，あるいはインターンシップやレジデンスが必要な仕事は，より高い収入を得られるが，GPTにさらされる可能性が高い．

GPTs are GPTs Table7 — 表7：職業別平均エクスポージャースコア，職務能力を獲得するために必要なOJTのレベル別に分類．エクスポージャースコアの他に，各職業の年収の中央値，各グループのワーカーの総数（単位：千人）を表示している．

5章：Validation of Measures（測定法のバリデーション）

5.1節：Comparison to Earlier Efforts（これまでの取り組みとの比較）

本論文は，AIおよび/または自動化の進展に伴う職業上のエクスポージャーを検討する，これまでの多くの実証研究を基にすることを目的としている．

これまでの研究は，以下のような様々な方法を用いている．

O*NETのような職業分類を使用して，どの職業がルーチンタスクと非ルーチンタスク，マニュアルタスクと認知タスクの内容を持つかを特徴づける(Autor et al., 2003; Acemoglu and Autor, 2011a)．
タスクのテキスト記述と特許の技術的進歩の記述をマッピングする(Kogan et al., 2021; Webb, 2020)．
AIシステムの能力を職業能力に結びつけ，その能力が必要とされる職業へのエクスポージャー推定値を集計する(Felten et al., 2018, 2023)．
AIタスクベンチマーク評価（ImageNet，Robocupなど）の結果を，認知科学文献から抽出した14の認知能力セットを通じて，59の作業者タスクにマッピングする(Tolan et al., 2021)．
専門家が高い信頼性を持つO*NET職業のセットについて，自動化の可能性を専門家がラベル付けし，確率的分類器と組み合わせて，残りのO*NET職業について自動化の可能性を見積もる(Frey and Osborne, 2017)．
ワーカーが経済活動で行っている活動の「機械学習への適合性」（SML：Suitability for Machine Learning）を評価するためのルーブリックを開発する(Brynjolfsson and Mitchell, 2017; Brynjolfsson et al., 2018, 2023)．

表8に，これらの先行研究の多くについて，一連の要約統計のセットを示す．

GPTs are GPTs Table8 — 表8：AIや自動化への職業的エクスポージャーを測定する一連の先行取り組みの概要統計．また，本研究で新たに発表された測定値の要約統計も掲載した．我々は，(Webb, 2020)からのすべての測定値，(Acemoglu and Autor, 2011a)からの正規化ルーチン認知・マニュアルスコア（職業グループの不完全なマッチングのため，平均値が0から若干ずれる可能性がある），(Brynjolfsson and Mitchell, 2017; Brynjolfsson et al., 2018, 2023)からの機械学習の適否，(Felten et al., 2018)からのAI職業エクスポージャー，(Frey and Osborne, 2017)からの自動化エクスポージャーを含む．マッチング可能な限り多くの職業を含めているが，これらの尺度の開発に伴いO*NET分類が変更されているため，最新版のO*NET 6-digitの職業から役割が欠落している場合もある．

本論文の方法論は，主に，O*NETデータベースで報告されているLLM能力とワーカーのタスクの重複を評価するためのルーブリックを開発することによって，SMLアプローチを基礎としている．

表9は，我々の新しいLLMエクスポージャー測定値を，(Felten et al., 2018)（表中の「AI Occupational Exposure Score」），(Frey and Osborne, 2017)（Frey & Osborne Automation），(Webb, 2020)の3技術すべてからのスコア，(Acemoglu and Autor, 2011a)，(Brynjolfsson et al., 2018, 2023)（SML）からの職業レベルのエクスポージャー測定値に対してOLS回帰した結果である．

また，コントロールとして，最新のBLS職業雇用調査から年率換算した職業給与を使用する．

本論文では，以前の取り組みによって予測された新しいスコアを表す4つの個別の出力変数がある．

GPTs are GPTs Table9 — 表9：GPTエクスポージャーコアの先行取り組みへの回帰．AIや自動化に対する職業エクスポージャーを定量化するための先行取り組みに関するルーブリックからのエクスポージャー指標からの回帰係数である．また，2021年5月のBLS-OES調査から年率換算した賃金を含めている．各測定値は，(Acemoglu and Autor, 2011a)のルーチン認知とルーチン手動のスコアを除き，元の尺度のままである．この2つのスコアは，平均0，分散1に標準化されている．一般に，これまでの取り組みと強い正の相関があることがわかるが，大きな残余分散は，新しい尺度によってまだ説明できる．1列目と2列目は，GPT-4の評価から得られた，主な\(\beta\)エクスポージャー指標に基づいている．3列目と4列目は，GPT-4で評価された，堅牢性のために若干異なる類似のエクスポージャールーブリックに基づいている．5列目と6列目は，1列目と2列目と同じルーブリックに基づく人間の評価を反映している．

GPT-4 Exposure Rating 1は，GPT-4で評価される全体的なエクスポージャールーブリックに対応し，完全なエクスポージャーの可能性を1，エクスポージャーの可能性がないことを0，部分的なエクスポージャー（我々のラベリングスキームのE2）を0.5とする．

GPT-4 Exposure Rating 2は，全体的なエクスポージャーについて同様に採点されるが，プロンプトが若干異なる．

結果は，2つのプロンプトで非常に似ている．

GPT-4 Automation Ratingでは，LLMによる自動化エクスポージャーなしを0，完全自動化を1，レベル2，3，4をそれぞれ0.25，0.5，0.75として，当社の「T」ルーブリックを適用している．

最後に，Human Exposure Ratingは，GPT-4 Exposure Rating 1と同じルーブリックを表しているが，論文の前のセクションで説明したように，人間によって採点されている．

これらの結果は，上に示した統計の\(\beta\)セットに対応する．

各タイプの測定結果には一貫性がある．

LLMのエクスポージャー指標と，ソフトウェアやAIを対象とした過去の測定結果との間には，概ね正の統計的有意な相関があることがわかった．

興味深いことに，職業別のSMLエクスポージャースコアは，本論文で開発したエクスポージャースコアと有意かつ正の相関を示し，類似のアプローチを用いた2つの研究の間に一貫性があることを実証している．

WebbのソフトウェアとAIの特許に基づく測定，SML，Normalized（標準偏差で除算した）Routine Cognitive（ルーチン認知）のスコアは，すべて我々の測定と正の関連を示している．

ソフトウェア，SML，Routine Cognitiveの各スコアは，いずれもLLMへのエクスポージャースコアと1%水準で正の統計的有意な関連を示している．

(Webb, 2020)のAIスコアの係数も5％水準で正で統計的に有意であるが，3列目と4列目のLLMへのエクスポージャー全体に関する二次プロンプトは，統計的に有意な関係を示していない．

ほとんどの場合，AI Occupational Exposureスコアは，我々のエクスポージャー指標と相関がない．

Webbのロボットエクスポージャースコア，Routine Manualタスクの内容，および(Frey and Osborne, 2017)の総合的な自動化指標はすべて，他の測定値を条件として，我々の主要なGPT-4および人間による総合エクスポージャー評価と負の相関がある．

この負の相関は，物理的作業のLLMへのエクスポージャーが限定的であることを反映している．

手作業はLLMにさらされることはなく，当分の間，追加のシステム統合を伴うLLMにエクスポージャーされることはない．

我々の自動化ルーブリックの結果は，(Frey and Osborne, 2017)の測定値とも相関がない．

(Felten et al., 2018)や(Frey and Osborne, 2017)との相関が低いのは，アプローチの違いによって説明できる可能性がある．

DWAやタスクレベルのスコアリングから職業まで集計するのではなく，（SML論文や我々の論文のように）AI能力をワーカーの能力にリンクさせたり，職業の特徴に基づいて直接エクスポージャーをスコアリングさせたりすることは，職業の内容に関する少し異なる視点を提供する．

すべての回帰において，\(R^2\)は60.7%（3列目）から72.8%（5列目）の間である．

これは，LLMの能力に明示的に焦点を当てた我々の測定が，他の測定と比較して28～40％の説明不能な分散を持っていることを示唆している．

特にAI関連のエクスポージャースコアの場合，他の測定値の組み合わせが我々のスコアと強い相関を持つことが予想される．

しかしながら，以前の取り組みでは，LLM技術の将来の進歩に関する情報は限られている．

我々は，将来の機械学習技術に対する理解も同様に，今日のルーブリックでは不完全にしか捉えられないと予想している．

6章：Discussion（ディスカッション）

6.1節：GPTs as a General-Purpose Technology（汎用技術としてのGPTs）

本論文の前半で，GPTが汎用技術に分類される可能性について述べる．

この分類では，GPTが3つの中核的な基準，すなわち，経時的な改善，経済全体への普及，補完的なイノベーションを生み出す能力を満たす必要がある(Lipsey et al., 2005)．

AIや機械学習の文献から得られた証拠は，GPTが最初の基準を満たすことを徹底的に示している．

つまり，GPTは時間とともに能力を向上させ，ますます複雑化する一連のタスクやユースケースを完了したり，役立てたりする能力を備えている（2.1節参照）．

本論文では，後者の2つの基準を支持する証拠を提示し，GPTが単独で経済全体に広範な影響を与えることができ，GPTが可能にする補完的なイノベーション（特にソフトウェアやデジタルツールを介して）が経済活動に広く適用され得ることを発見した．

図3は，LLMsの上に構築された補完的なソフトウェアがもたらす潜在的な経済効果を示したものである．

x軸（ある職業に属するタスクのエクスポージャーの割合）に沿ったある点で，\(\alpha\)と\(\zeta\)のy軸の差（全職業の割合）を取ると，LLM単体による直接的なエクスポージャー以上に，ツールやソフトウェアによる職業内のエクスポージャーの可能性の総量が示される．

GPT-4アノテーションを用いた場合は0.42，人間アノテーションを用いた場合は0.32という，全タスクにおける\(\alpha\)と\(\zeta\)の平均値の差から（図3参照），タスクエクスポージャーにおけるGPT搭載ソフトウェアの平均的な影響は，LLM自身による平均エクスポージャー（人間アノテーションおよびGPT-4アノテーションの両方による平均\(\zeta\)0.14）と比べると，倍以上大きいかもしれないと言える．

この結果は，これらのモデルが，すぐにでも，有意義なワーカーとタスクに関連することを示唆する一方で，これらのモデルが生み出すソフトウェアイノベーションが，より広範なインパクトをもたらす可能性があることを示唆している．

技術の普及度を示す要素のひとつに，企業やユーザによる採用の度合いがある．

本論文では，これらのモデルの採用を体系的に分析することはしないが，LLMsの採用と使用がますます広まっていることを示す初期の定性的証拠がある．

LLMsの上で比較的簡単なUIを改善することの威力は，ChatGPTの展開で明らかになった．

基礎となるモデルのバージョンは，それまでAPI経由で利用可能だが，ChatGPTインターフェースのリリース後に利用が急増した(Chow, 2023; OpenAI, 2022)．

このリリース後，多くの商業調査が，企業やワーカーのLLMの採用が過去数ヶ月で増加したことを示している(Constantz, 2023; ResumeBuilder.com, 2023)．

しかしながら，これらのモデルを広く普及させるためには，既存のボトルネックを特定する必要がある．

モデルの有用性を決定する重要な要素は，人間の信頼度や習慣である．

例えば，法律の専門家であれば，原本を確認したり，独自に調査したりすることなく，モデルの出力を信頼できるかどうかが，モデルの有用性を左右する．

LLMsの上に構築されたツールの採用には，技術のコストや柔軟性，ワーカーや企業の好み，インセンティブも重要な役割を果たす．

このように，LLMsに関連する倫理的・安全的リスク（偏見，事実の捏造，ズレなど）に対する進展によって，採用が促進される可能性がある(OpenAI, 2023a)．

さらに，LLMsの採用は，データの利用可能性，規制の質，イノベーション文化，権力と利益の分配といった要因によって，異なる経済セクター間で異なる．

したがって，ワーカーや企業による大規模な言語モデルの採用や利用を包括的に理解するには，これらの複雑な要素をより深く掘り下げる必要がある．

1つの可能性は，大半のタスクにおいて，品質向上よりも時間短縮（時短）とシームレスな適用がより重要視されることである．

もう1つは，最初は拡張に焦点が当てられ，その後自動化が進むというものである(Huang and Rust, 2018)．

完全自動化の前に，まず仕事が不安定になる（作家がフリーランサーになる）オーグメンテーションの段階が訪れるというのも，1つの形かもしれない．

6.2節：Implications for US Public Policy（米国の公共政策への示唆）

LLMsを含む自動化技術の導入は，これまでにも経済格差の拡大や労働の混乱と関連しており，下流に悪影響を及ぼす可能性がある(Acemoglu and Restrepo, 2022a; Acemoglu, 2002; Moll et al., 2021; Klinova and Korinek, 2021; Weidinger et al., 2021, 2022)．

米国におけるワーカーのエクスポージャーを検証した我々の結果は，LLMsとそれが生み出す補完技術がもたらす潜在的な経済的混乱に対する社会的・政策的準備の必要性を強調している．

LLMがますます普及する経済への移行をスムーズにするための具体的な政策処方を提言することは本論文の範囲外であるが，(Autor et al., 2022b)などの先行研究は，教育，ワーカー訓練，セーフティネット制度の改革などに関連する米国政策の重要な方向性をいくつか明示している．

6.3節：Limitations and Future Work（限界と今後の課題）

本研究には，さらなる調査を必要とするいくつかの限界がある．

特に，産業組織，技術インフラ，規制の枠組み，言語の多様性，文化的背景などの要因により，生成モデルの採用と影響が異なる可能性がある他の国に対して，米国に焦点を当てたため，本研究の結果の汎化可能性が制限されている．

我々は，研究の範囲を広げ，我々の方法を共有することで，この制限を解決し，他の研究者がそれを基に研究を進めることを望んでいる．

今後の研究活動では，以下の2つの追加研究を検討する必要がある．

1つは様々な部門や職種におけるGPTの採用パターンを探るものであり，もう1つはエクスポージャースコアの範囲外のワーカーの活動に関する最新モデルの実際の能力と限界を精査するものである．

例えば，GPT-4でマルチモーダル機能が最近進歩したのにもかかわらず，GPTのダイレクトエクスポージャーに関する\(\alpha\)評価では，視覚機能を考慮しなかった(OpenAI, 2023b)．

将来的には，このような能力の進歩がもたらす影響について検討する必要がある．

特に複雑かつオープンエンドでドメインに特化したタスクでは，理論的な性能と実用的な性能に乖離がある可能性があることを認める．

7章：Conclusion（結論）

結論として，本研究は，LLMs，特にGPTが米国経済の様々な職業や産業に与える潜在的な影響について考察したものである．

LLMの能力とそれが仕事に及ぼす潜在的な影響を理解するための新しい評価基準を適用することで，ほとんどの職業がGPTにある程度さらされ，一般的に高賃金の職業は，より多くのタスクに高いエクスポージャーを示すことが観察された．

我々の分析によると，現在のモデルの能力とGPTを搭載した予想されるソフトウェアの両方を考慮した場合，約19％の職業における少なくとも50％のタスクがGPTにエクスポージャーされていることがわかった．

本研究の目的は，GPTの汎用的な可能性と，米国のワーカーに対するその可能な意味を明らかにすることである．

これまでの文献では，GPTが今日まで目覚ましい進歩を遂げてきたことが示されている（2.1節参照）．

また，ソフトウェアやデジタルツールを中心としたGPTによるさらなる進化が，さまざまな経済活動に大きな影響を与えるという仮説も確認された．

しかしながら，GPTが人間の労働をより効率的にする技術的能力は明らかであるように見えるが，社会，経済，規制，その他の要因が実際の労働生産性の結果に影響を与える可能性があることを認識することが重要である．

GPTの進化に伴い，GPTが経済に与える影響は持続的かつ増大する可能性が高く，政策立案者はその軌道を予測し規制する上で課題を抱えている．

人間の労働力を拡張したり，置き換えたりする可能性，仕事の質への影響，不平等への影響，スキル開発，その他多くの成果など，GPTの進歩がもたらす幅広い意味を探るには，さらなる研究が必要である．

GPTの能力と労働力への潜在的な影響を理解しようとすることで，政策立案者と利害関係者は，AIの複雑な状況や仕事の未来を形成する役割をナビゲートするために，より多くの情報に基づいた意思決定を行うことができる．

7.1節：GPT Conclusion (GPT-4’s Version)（GPTの結論（GPT-4'sバージョン））

Generative Pre-trained Transformers（GPTs）は，技術的成長の可能性を秘め，タスクに浸透し，職業に大きな影響を与える，深い変革をもたらす．

本研究では，特に米国の労働市場において，タスクのGPTエクスポージャーを測定するための画期的なルーブリックを提示し，GPTの潜在的な軌跡を探る．

7.2節：GPT Conclusion (Author-Augmented Version)（GPTの結論（著者補筆版））

Generative Pre-trained Transformers（GPTs）は，潜在的な技術的成長，タスクの浸透，プロフェッショナルなマネジメントを実現し，深い変革をもたらす．

可能性のある軌跡を把握する先駆的な分類法を生み出し，政策立案者を集め，今日の過去を汎化する．

LLM assistance statement（LLM支援声明）

GPT-4とChatGPTは，このプロジェクトにおけるライティング，コーディング，フォーマットの支援に使用した．

付録A：Taxonomies（タクソノミー）

付録A.1節：Exposure（エクスポージャー）

#E Exposure Rubric（エクスポージャールーブリック）

最も強力なOpenAIの大規模言語モデル（LLM：Large Language Model）を考慮する．

このモデルは，テキスト入力とテキスト出力があり，入力の文脈を2,000語で捉えることができると定式化できる多くのタスクをこなすことができる．

また，このモデルは，入力に含まれない限り，最新の事実（1年未満のもの）を引き出すことができない．

あなたは，与えられたタスクを完了するために，自分の役割について平均的なレベルの専門知識を持つワーカーであると仮定する．

あなたは，LLMと，タスクで言及されているその他の既存のソフトウェアやコンピュータハードウェアのツールにアクセスすることができる．

また，ノートパソコンからアクセスできる一般的な技術ツール（例：マイク，スピーカーなど）にもアクセスできる．

その他の物理的なツールや材料へのアクセスはできない．

以下のルーブリックに従って，与えられたタスクにラベルを付けなさい．

同等の品質とは，その研究をレビューする人が，人間が自分で完成させたのか，LLMの支援を受けて完成させたのかを見分けることができないことを意味する．

タスクにかかる時間をどのように判断したらよいかわからない場合は，説明されているツールがタスクに関連するサブタスクの大部分をカバーしているかどうかを検討している．

##E1 – Direct exposure（ダイレクトエクスポージャー）

ChatGPTやOpenAIプレイグラウンドのようなインターフェースを通じてLLMに直接アクセスするだけで，同等の品質でタスクを完了するのにかかる時間を半分以上短縮できる場合，タスクE1のラベルを貼る．

以下の削減できるタスクが含まれる．

複雑な命令に従い，テキストやコードを書いたり変換したりする．
既存のテキストやコードに，仕様に沿った編集を加える．
これまで手作業で行っていた作業の実行を助けることができるコードを書く．
言語間のテキストを翻訳する．
中編の文書を要約する．
文書に対するフィードバックを提供する．
文書に関する質問に答える．
ユーザが文書について尋ねたいと思う質問を生成する．
面接やアセスメントのための質問を書く．
メールの作成，返信する．

以下の情報への反論や交渉（ただし，書面による交渉の場合のみ）を含む．

書き込んだデータの記録を保持する．
一般的な知識をもとに訓練資料を作成する．
あらゆる情報を，文字または音声の媒体を通じて，誰にでも知らせる．

##E2 – Exposure by LLM-powered applications（LLMを搭載したアプリケーションによるエクスポージャー）

LLMを利用するだけでは，タスクを完了するのにかかる時間を少なくとも半分に減らすことができない場合，タスクE2にラベルを付けるが，LLMの上に開発できる追加のソフトウェアによって，タスクを完了するのにかかる時間を半分に減らせることは容易に想像できる．

このソフトウェアには，以下のような機能が含まれる可能性がある．

2,000語以上の文書を要約し，その文書に関する質問に答える．
インターネットから最新の事実を取得し，その事実とLLMの機能を組み合わせて使用する．
組織の既存の知識，データ，文書などを検索し，情報を取得する．
専門性の高いドメイン知識を検索する．
データまたは文書による入力があった場合，推薦事項を決定する．
書かれた情報を分析し，意思決定に役立てる．
高度な専門知識に基づく訓練教材を作成する．
課題に対する助言を提供する．
複雑なデータベースを維持する．

##E3 – Exposure given image capabilities（画像処理能力を考慮したエクスポージャー）

LLMと，LLMを搭載したシステム（上記E2のシステム）と同様に，画像の閲覧，キャプション，作成が可能なシステムの両方を利用できたと仮定する．

このシステムは，ビデオを入力として受け取ることも，ビデオを出力として作り出すこともできない．

このシステムは，画像入力から非常に詳細な情報（画像内の寸法の測定など）を正確に取得することができない．

LLMとこれらの画像機能を利用することで，タスクの完了にかかる時間が大幅に短縮される場合，タスクをE3としてラベル付けする．

PDFからテキストを読み取る．
画像をスキャンする．
命令に従い，デジタル画像を作成または編集する．

画像はリアルにすることができるが，細かくはしてはいけない．

モデルは画像内のオブジェクトを識別できるが，それらのオプション間の関係は識別できない．

##E0 – No exposure（エクスポージャーなし）

上記のいずれにも該当しない場合，経験豊富な作業者がその作業を高品質で完了するのに要する時間を少なくとも半分に減少させることが明らかであれば，タスクE0と表示する．

いくつか例を挙げる．

あるタスクが高度な人間関係を必要とする場合（例：対面でのデモンストレーション），E0に分類されるべきである．
正確な測定が必要なタスクは，E0に分類されるべきである．
ビジュアルを詳細に確認する必要があるタスクは，E0に分類されるべきである．
手を使ったり，歩いたりするタスクは，E0に分類されるべきである．
LLMの上に構築されたツールは，人間の生活に影響を与える可能性のある決定（例：雇用，採点など）を行うことはできない．

タスクの一部に，最終的な決定を下すためのインプットの収集が含まれる場合（決定や勧告を行うためのデータ分析とは異なる），それはE0に分類されるべきである．

LLMは推薦を行うことができる．

LLMの上に構築されたツールでタスクを実行できたとしても，そのツールを使うことで経験豊富な作業者がそのタスクを完了する時間を大幅に短縮できない場合，それはE0に分類されるべきである．
LLMとその上に構築されたシステムは，法律上，人間がそのタスクを実行する必要があることはできない．
LLMを搭載していない既存の技術で，一般的に使用され，タスクを完了できるものがある場合，LLMまたはLLMを搭載したツールを使用しても，タスク完了までの時間をさらに短縮できない場合は，タスクをE0とする必要がある．

疑問がある場合は，E0をデフォルトとする．

##Annotation examples:（アノテーションの例：）

【職業】：検査員，試験員，仕分け人，サンプラー，ウェイター．【仕事内容】：検査で見つかった欠陥を修正するために，製品や加工装置を調整，清掃，または修理する．【ラベル（E0/E1/E2/E3）：E0 Explanation】：このモデルは，あらゆる身体性を利用することができず，記述されている作業（装置の調整，清掃，修理）の半分以上は手などの身体性を必要とする．

【職業】：コンピュータと情報の研究者，課題：コンピュータを新しい用途に適用するための原理を適応させるなど，理論的な専門知識とイノベーションを応用して新しい技術を創造または適用する．【ラベル（E0/E1/E2/E3）：E1 Explanation】：モデルは一般的な知識ベースの一部として訓練中に理論的な専門知識を学ぶことができ，適応するための原則はモデルへの入力テキストに取り込むことができる．

【活動内容】：食事の予約をする．【ラベル（E0/E1/E2/E3）：E2 Explanation】：このための自動化技術はすでに存在し（例：Resy），LLMがその技術を使った上で何を提供するのかは不明である（no-diff）．とはいえ，LLMに頼んでResyで予約してもらうようなものを作ることはできるだろう．

付録B：ONET Basic Skills Definitions（ONET基本スキルの定義）

基本スキル

学習やより迅速な知識の習得を促進する能力を身につけること．

コンテンツ

様々な異なる領域で活躍し，より具体的なスキルを身につけるために必要な背景構造．

読解力：仕事に関連する文書の文章や段落を理解する．
アクティブリスニング：相手の話に十分な注意を払い，時間をかけてポイントを理解し，適宜質問をし，不適切なタイミングで話を中断しない．
書く：読み手のニーズに合わせて，効果的に文章で伝える．
話す：情報を効果的に伝えるために他人と話す．
数学：問題を解決するために数学を使用する．
科学：科学的なルールや方法を用いて問題を解決する．

プロセス

様々な領域の知識や技術をより早く習得することに貢献する手順．

クリティカルシンキング：論理と推論を駆使して，問題に対する代替的な解決策，結論，アプローチの長所と短所を特定する．
アクティブラーニング：新しい情報が現在および将来の問題解決や意思決定に与える影響を理解する．
学習戦略：新しいことを学んだり教えたりする際に，状況に応じた適切な訓練/指導方法と手順を選択し使用する．
モニタリング：自分自身，他の個人，または組織の性能を監視/評価し，改善や是正措置を講じる．

付録C：Education（教育）

GPTs are GPTs Table10 — 表10：職業別の平均エクスポージャースコア（職業に就くために必要な典型的な学歴でグループ分けしたもの）．エクスポージャースコアと並行して，各職業の年収の中央値，および各グループのワーカーの総数を千人単位で表示している．

付録D：Regional, Industrial, and Productivity Exposure（地域・産業・生産性エクスポージャー）

自動化・拡張に最もさらされる（地図）のはどの地域か？

図6と図7は，それぞれ人間の評価者と我々のアルゴリズムによるエクスポージャーの基準に従って，3-digit NAICS産業の全体的な雇用加重相対エクスポージャーを示している．

ほぼ全産業に影響力があり，異質性が大きい．

表XX（PUT A TABLE SHOWING RELATIVE EXPOSURES）は，異なる評価レジームによる相対的エクスポージャーの説明である．

どちらの方法も，相対的なエクスポージャーについては概ね合意している．

データ処理，情報処理，病院はいずれも高いエクスポージャーを持つということである．

※訳注：おそらく表XXは以下の散布図のことだと思います．

※訳注：下の画像は文字がとても小さくて読めないので，原文のPDFを拡大して読みましょう！

最近の生産性の伸び（全要素と労働の両方）は，同様にエクスポージャーと相関がないように見える．

図6と図7は，2012年以降の生産性の伸びと，モデルによって評価された現在のLLMのエクスポージャーとの間にほとんど関係がないことを示している．

※訳注：原文の「Figures D and D」は図6と図7の間違い．

すでに急成長している生産性産業とエクスポージャーの相関が高いということは，ボーモルのコスト病の増悪を意味するのかもしれない．

つまり，LLMが産業ごとに異なる生産性の向上をもたらすとすれば，最も生産性の高い産業がさらに生産性を高めてしまうことが懸念される．

そのような産業の生産に対する需要が非弾力的であれば，最も生産性の高い部門は，経済における投入量の割合として縮小することになる．

これが事実であることを示唆するものはほとんどない．

2012年以降の生産性向上とLLM技術の導入は無関係と思われる．

付録E：Demographic Variation in Exposure（エクスポージャーにおける人口統計の変化）

GPTs are GPTs Table11 — 表11：エクスポージャーにおける人口統計の違い

上表から，職業に従事する女性の比率は，GPTへのエクスポージャーと正の有意な相関があることがわかる．

また，すべての指標において，職業に就くアジア人の割合はGPTへのエクスポージャーと正の相関があり，ラテンアメリカ人（hispanic）の割合は負の相関があることがわかる．

人口統計は職業によって偏在している．

付録F：Occupations Without Any Exposed Tasks（エクスポージャーのない職業）

GPTs are GPTs Table12 — 表12：どの測定法でもエクスポージャーと判定されなかった34職種すべて．

References（参考文献）

(Abid et al., 2021) Abid, A., Farooqi, M., and Zou, J. (2021). Persistent anti-muslim bias in large language models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society, AIES ’21, page 298–306, New York, NY, USA. Association for Computing Machinery.
(Acemoglu, 2002) Acemoglu, D. (2002). Technical change, inequality, and the labor market. Journal of Economic Literature, 40.
(Acemoglu and Autor, 2011a) Acemoglu, D. and Autor, D. (2011a). Skills, tasks and technologies: Implications for employment and earnings. In Handbook of labor economics, volume 4, pages 1043–1171. Elsevier.
(Acemoglu and Autor, 2011b) Acemoglu, D. and Autor, D. (2011b). Skills, Tasks and Technologies: Implications for Employment and Earnings. In Ashenfelter, O. and Card, D., editors, Handbook of Labor Economics, volume 4 of Handbook of Labor Economics, chapter 12, pages 1043–1171. Elsevier.
(Acemoglu et al., 2020) Acemoglu, D., Autor, D., Hazell, J., and Restrepo, P. (2020). Ai and jobs: Evidence from online vacancies. Technical report, National Bureau of Economic Research.
(Acemoglu and Restrepo, 2018) Acemoglu, D. and Restrepo, P. (2018). The race between man and machine: Implications of technology for growth, factor shares, and employment. American economic review, 108(6):1488–1542.
(Acemoglu and Restrepo, 2019) Acemoglu, D. and Restrepo, P. (2019). Automation and new tasks: How technology displaces and reinstates labor. Journal of Economic Perspectives, 33(2):3–30.
(Acemoglu and Restrepo, 2022a) Acemoglu, D. and Restrepo, P. (2022a). Demographics and automation. The Review of Economic Studies, 89(1):1–44.
(Acemoglu and Restrepo, 2022b) Acemoglu, D. and Restrepo, P. (2022b). Tasks, automation, and the rise in us wage inequality. Econometrica, 90(5):1973–2016.
(Agrawal et al., 2021) Agrawal, A. K., Gans, J. S., and Goldfarb, A. (2021). Ai adoption and system-wide change. Technical report, National Bureau of Economic Research.
(Arntz et al., 2017) Arntz, M., Gregory, T., and Zierahn, U. (2017). Revisiting the risk of automation. Economics Letters, 159:157–160.
(Autor et al., 2022a) Autor, D., Chin, C., Salomons, A. M., and Seegmiller, B. (2022a). New frontiers: The origins and content of new work, 1940–2018. Technical report, National Bureau of Economic Research.
(Autor et al., 2022b) Autor, D., Mindell, D. A., and Reynolds, E. B. (2022b). The Work of the Future: Building Better Jobs in an Age of Intelligent Machines. The MIT Press.
(Autor et al., 2006) Autor, D. H., Katz, L. F., and Kearney, M. S. (2006). The polarization of the us labor market. American economic review, 96(2):189–194.
(Autor et al., 2003) Autor, D. H., Levy, F., and Murnane, R. J. (2003). The skill content of recent technological change: An empirical exploration. The Quarterly journal of economics, 118(4):1279–1333.
(Babina et al., 2021) Babina, T., Fedyk, A., He, A., and Hodson, J. (2021). Artificial intelligence, firm growth, and product innovation. Firm Growth, and Product Innovation (November 9, 2021).
(Bai et al., 2022) Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D., Henighan, T., Joseph, N., Kadavath, S., Kernion, J., Conerly, T., El-Showk, S., Elhage, N., Hatfield-Dodds, Z., Hernandez, D., Hume, T., Johnston, S., Kravec, S., Lovitt, L., Nanda, N., Olsson, C., Amodei, D., Brown, T., Clark, J., McCandlish, S., Olah, C., Mann, B., and Kaplan, J. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862 [cs].
(Baumol, 2012) Baumol, W. J. (2012). The cost disease: Why computers get cheaper and health care doesn’t. Yale university press.
(Benzell et al., 2021) Benzell, S. G., Kotlikoff, L. J., LaGarda, G., and Ye, V. Y. (2021). Simulating endogenous global automation. Working Paper 29220, National Bureau of Economic Research.
(Bessen, 2018) Bessen, J. (2018). Artificial intelligence and jobs: The role of demand. In The economics of artificial intelligence: an agenda, pages 291–307. University of Chicago Press.
(BLS, 2022) BLS (2022). Employment by detailed occupation.
(BLS, 2023a) BLS (2023a). Demographic characteristics (cps).
(BLS, 2023b) BLS (2023b). Occupational outlook handbook a-z index.
(Bommasani et al., 2021) Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
(Bresnahan, 2019) Bresnahan, T. (2019). Artificial intelligence technologies and aggregate growth prospects.
(Bresnahan et al., 1996) Bresnahan, T., Greenstein, S., Brownstone, D., and Flamm, K. (1996). Technical progress and co-invention in computing and in the uses of computers. Brookings Papers on Economic Activity. Microeconomics, 1996:1–83.
(Bresnahan, 1999) Bresnahan, T. F. (1999). Computerisation and wage dispersion: an analytical reinterpretation. The economic journal, 109(456):390–415.
(Bresnahan et al., 2002) Bresnahan, T. F., Brynjolfsson, E., and Hitt, L. M. (2002). Information technology, workplace organization, and the demand for skilled labor: Firm-level evidence. The quarterly journal of economics, 117(1):339–376.
(Bresnahan and Trajtenberg, 1995) Bresnahan, T. F. and Trajtenberg, M. (1995). General purpose technologies ‘engines of growth’? Journal of econometrics, 65(1):83–108.
(Brown et al., 2020) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901.
(Brynjolfsson et al., 2023) Brynjolfsson, E., Frank, M. R., Mitchell, T., Rahwan, I., and Rock, D. (2023). Quantifying the Distribution of Machine Learning’s Impact on Work. Forthcoming.
(Brynjolfsson and Mitchell, 2017) Brynjolfsson, E. and Mitchell, T. (2017). What can machine learning do? workforce implications. Science, 358(6370):1530–1534.
(Brynjolfsson et al., 2018) Brynjolfsson, E., Mitchell, T., and Rock, D. (2018). What can machines learn, and what does it mean for occupations and the economy? AEA Papers and Proceedings, 108:43–47.
(Brynjolfsson et al., 2021) Brynjolfsson, E., Rock, D., and Syverson, C. (2021). The productivity j-curve: How intangibles complement general purpose technologies. American Economic Journal: Macroeconomics, 13(1):333–72.
(Chase, 2022) Chase, H. (2022). LangChain.
(Chen et al., 2021) Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
(Cheng et al., 2022) Cheng, Z., Lee, D., and Tambe, P. (2022). Innovae: Generative ai for understanding patents and innovation. Available at SSRN.
(Chow, 2023) Chow, A. R. (2023). Why ChatGPT Is the Fastest Growing Web Platform Ever | Time.
(Cockburn et al., 2018) Cockburn, I. M., Henderson, R., and Stern, S. (2018). The impact of artificial intelligence on innovation: An exploratory analysis. In The economics of artificial intelligence: An agenda, pages 115–146. University of Chicago Press.
(Constantz, 2023) Constantz, J. (2023). Nearly a third of white collar workers have tried chatgpt or other ai programs, according to a new survey.
(David, 1990) David, P. A. (1990). The dynamo and the computer: an historical perspective on the modern productivity paradox. The American Economic Review, 80(2):355–361.
(Devlin et al., 2019) Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding. ArXiv, abs/1810.04805.
(Dixon et al., 2021) Dixon, J., Hong, B., and Wu, L. (2021). The robot revolution: Managerial and employment consequences for firms. Management Science, 67(9):5586–5605.
(Feigenbaum and Gross, 2021) Feigenbaum, J. J. and Gross, D. P. (2021). Organizational frictions and increasing returns to automation: Lessons from at&t in the twentieth century. Technical report, National Bureau of Economic Research.
(Felten et al., 2023) Felten, E., Raj, M., and Seamans, R. (2023). How will language modelers like chatgpt affect occupations and industries? arXiv preprint arXiv:2303.01157.
(Felten et al., 2018) Felten, E. W., Raj, M., and Seamans, R. (2018). A method to link advances in artificial intelligence to occupational abilities. AEA Papers and Proceedings, 108:54–57.
(Frey, 2019) Frey, C. B. (2019). The technology trap. In The Technology Trap. Princeton University Press.
(Frey and Osborne, 2017) Frey, C. B. and Osborne, M. A. (2017). The future of employment: Howsusceptible are jobs to computerisation? Technological Forecasting and Social Change, 114(C):254–280.
(Goldfarb et al., 2023) Goldfarb, A., Taska, B., and Teodoridis, F. (2023). Could machine learning be a general purpose technology? a comparison of emerging technologies using data from online job postings. Research Policy, 52(1):104653.
(Goldstein et al., 2023) Goldstein, J. A., Sastry, G., Musser, M., DiResta, R., Gentzel, M., and Sedova, K. (2023). Generative language models and automated influence operations: Emerging threats and potential mitigations.
(Grace et al., 2018) Grace, K., Salvatier, J., Dafoe, A., Zhang, B., and Evans, O. (2018). When will ai exceed human performance? evidence from ai experts. Journal of Artificial Intelligence Research, 62:729–754.
(Hernandez et al., 2021) Hernandez, D., Kaplan, J., Henighan, T., and McCandlish, S. (2021). Scaling laws for transfer. arXiv preprint arXiv:2102.01293.
(Horton, 2023) Horton, J. J. (2023). Large language models as simulated economic agents: What can we learn from homo silicus? arXiv preprint arXiv:2301.07543.
(Huang and Rust, 2018) Huang, M.-H. and Rust, R. T. (2018). Artificial intelligence in service. Journal of service research, 21(2):155–172.
(Kaplan et al., 2020) Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
(Katz and Murphy, 1992) Katz, L. F. and Murphy, K. M. (1992). Changes in relative wages, 1963–1987: supply and demand factors. The quarterly journal of economics, 107(1):35–78.
(Khlaaf et al., 2022) Khlaaf, H., Mishkin, P., Achiam, J., Krueger, G., and Brundage, M. (2022). A hazard analysis framework for code synthesis large language models.
(Klinova and Korinek, 2021) Klinova, K. and Korinek, A. (2021). Ai and shared prosperity. In AIES 2021 - Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society.
(Kogan et al., 2021) Kogan, L., Papanikolaou, D., Schmidt, L. D. W., and Seegmiller, B. (2021). Technology, vintage-specific human capital, and labor displacement: Evidence from linking patents with occupations. Working Paper 29552, National Bureau of Economic Research.
(Korinek, 2023) Korinek, A. (2023). Language models and cognitive automation for economic research. Technical report, National Bureau of Economic Research.
(Korinek and Stiglitz, 2018) Korinek, A. and Stiglitz, J. E. (2018). Artificial intelligence and its implications for income distribution and unemployment. In The economics of artificial intelligence: An agenda, pages 349–390. University of Chicago Press.
(Lipsey et al., 2005) Lipsey, R. G., Carlaw, K. I., and Bekar, C. T. (2005). Economic transformations: general purpose technologies and long-term economic growth. Oup Oxford.
(Meindl et al., 2021) Meindl, B., Frank, M. R., and Mendonça, J. (2021). Exposure of occupations to technologies of the fourth industrial revolution. arXiv preprint arXiv:2110.13317.
(Mialon et al., 2023) Mialon, G., Dessì, R., Lomeli, M., Nalmpantis, C., Pasunuru, R., Raileanu, R., Rozière, B., Schick, T., Dwivedi-Yu, J., Celikyilmaz, A., et al. (2023). Augmented language models: a survey. arXiv preprint arXiv:2302.07842.
(Moll et al., 2021) Moll, B., Rachel, L., and Restrepo, P. (2021). Uneven growth: Automation’s impact on income and wealth inequality. SSRN Electronic Journal.
(Mollick and Mollick, 2022) Mollick, E. R. and Mollick, L. (2022). New modes of learning enabled by ai chatbots: Three methods and assignments. Available at SSRN.
(Noy and Zhang, 2023) Noy, S. and Zhang, W. (2023). Experimental evidence on the productivity effects of generative artificial intelligence. Available at SSRN 4375283.
(O*NET, 2023) O*NET (2023). O*net 27.2 database.
(OpenAI, 2022) OpenAI (2022). Introducing chatgpt.
(OpenAI, 2023a) OpenAI (2023a). Gpt-4 system card. Technical report, OpenAI.
(OpenAI, 2023b) OpenAI (2023b). Gpt-4 technical report. Technical report, OpenAI.
(Ouyang et al., 2022) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.
(Peng et al., 2023) Peng, S., Kalliamvakou, E., Cihon, P., and Demirer, M. (2023). The impact of ai on developer productivity: Evidence from github copilot. arXiv preprint arXiv:2302.06590.
(Radford et al., 2019) Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I., et al. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8):9.
(ResumeBuilder.com, 2023) ResumeBuilder.com (2023). 1 in 4 companies have already replaced workers with chatgpt.
(Rock, 2019) Rock, D. (2019). Engineering value: The returns to technological talent and investments in artificial intelligence. Available at SSRN 3427412.
(Schick et al., 2023) Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Zettlemoyer, L., Cancedda, N., and Scialom, T. (2023). Toolformer: Language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761.
(Schramowski et al., 2022) Schramowski, P., Turan, C., Andersen, N., Rothkopf, C. A., and Kersting, K. (2022). Large pre-trained language models contain human-like biases of what is right and wrong to do. Nature Machine Intelligence, 4(3):258–268.
(Shahaf and Horvitz, 2010) Shahaf, D. and Horvitz, E. (2010). Generalized task markets for human and machine computation. Proceedings of the AAAI Conference on Artificial Intelligence.
(Singla et al., 2015) Singla, A. K., Horvitz, E., Kohli, P., and Krause, A. (2015). Learning to hire teams. In AAAI Conference on Human Computation & Crowdsourcing.
(Solaiman et al., 2019) Solaiman, I., Brundage, M., Clark, J., Askell, A., Herbert-Voss, A., Wu, J., Radford, A., Krueger, G., Kim, J. W., Kreps, S., McCain, M., Newhouse, A., Blazakis, J., McGuffie, K., and Wang, J. (2019). Release strategies and the social impacts of language models.
(Sorensen et al., 2022) Sorensen, T., Robinson, J., Rytting, C., Shaw, A., Rogers, K., Delorey, A., Khalil, M., Fulda, N., and Wingate, D. (2022). An information-theoretic approach to prompt engineering without ground truth labels. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics.
(Thoppilan et al., 2022) Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., et al. (2022). Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239.
(Tolan et al., 2021) Tolan, S., Pesole, A., Martínez-Plumed, F., Fernández-Macías, E., Hernández-Orallo, J., and Gómez, E. (2021). Measuring the occupational impact of ai: tasks, cognitive abilities and ai benchmarks. Journal of Artificial Intelligence Research, 71:191–236.
(Van Reenen, 2011) Van Reenen, J. (2011). Wage inequality, technology and trade: 21st century evidence. Labour economics, 18(6):730–741.
(Webb, 2020) Webb, M. (2020). The impact of artificial intelligence on the labor market. Working paper, Stanford University.
(Weidinger et al., 2021) Weidinger, L. et al. (2021). Ethical and social risks of harm from language models. arXiv:2112.04359 [cs].
(Weidinger et al., 2022) Weidinger, L., Uesato, J., Rauh, M., Griffin, C., Huang, P.-S., Mellor, J., Glaese, A., Cheng, M., Balle, B., Kasirzadeh, A., Biles, C., Brown, S., Kenton, Z., Hawkins, W., Stepleton, T., Birhane, A., Hendricks, L. A., Rimell, L., Isaac,W., Haas, J., Legassick, S., Irving, G., and Gabriel, I. (2022). Taxonomy of risks posed by language models. In 2022 ACM Conference on Fairness, Accountability, and Transparency, FAccT ’22, page 214–229, New York, NY, USA. Association for Computing Machinery.
(Zolas et al., 2021) Zolas, N., Kroff, Z., Brynjolfsson, E., McElheran, K., Beede, D. N., Buffington, C., Goldschlag, N., Foster, L., and Dinlersoz, E. (2021). Advanced technologies adoption and use by us firms: Evidence from the annual business survey. Technical report, National Bureau of Economic Research.

まとめ

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Modelsの日本語訳を紹介しました．

GPTsはGenerative Pre-trained Transformers（生成系な事前訓練済みのトランスフォーマー）とGeneral-Purpose Technologies（汎用技術）の両方の意味があることがわかりました．