TECHNOLOGY NLP AI

【日本語訳】GPT-4o System Card【OpenAI】

2025年4月5日

悩んでいる人
悩んでいる人

GPT-4o System Cardの日本語訳を教えて!

こういった悩みにお答えします.

本記事の信頼性

  • リアルタイムシステムの研究歴12年.
  • 東大教員の時に,英語でOS(Linuxカーネル)の授業.
  • 2012年9月~2013年8月にアメリカのノースカロライナ大学チャペルヒル校(UNC)コンピュータサイエンス学部で客員研究員として勤務.C言語でリアルタイムLinuxの研究開発.
  • プログラミング歴15年以上,習得している言語: C/C++PythonSolidity/Vyper,Java,Ruby,Go,Rust,D,HTML/CSS/JS/PHP,MATLAB,Verse(UEFN), Assembler (x64,aarch64).
  • 東大教員の時に,C++言語で開発した「LLVMコンパイラの拡張」,C言語で開発した独自のリアルタイムOS「Mcube Kernel」GitHubにオープンソースとして公開
  • 2020年1月~現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務.2022年6月~現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO.
  • 最近は自然言語処理AIイーサリアムに関する有益な情報発信や,Unreal Editor for Fortnite(UEFN)でゲーム開発に従事.
    • (AI全般を含む)自然言語処理AIの論文の日本語訳や,AIチャットボット(ChatGPT,Auto-GPT,Gemini(旧Bard)など)の記事を50本以上執筆.アメリカのサンフランシスコ(広義のシリコンバレー)の会社でプロンプトエンジニア・マネージャー・Quality Assurance(QA)の業務委託の経験あり.
    • (スマートコントラクトのプログラミングを含む)イーサリアムや仮想通貨全般の記事を200本以上執筆.イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり.
    • UEFNで10本以上のゲームを開発し,フォートナイト上で公開(FortniteFortnite.GG).

こういった私から学べます.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

GPT-4o System Cardの日本語訳を紹介します.

OpenAIのGPT-4o System Cardがわかります.

※図表を含む論文の著作権はGPT-4o System Cardの著者に帰属します.

GPT-4o System Cardの目次は以下になります.

  • 1章:Introduction
  • 2章:Model data and training
  • 3章:Risk identification, assessment and mitigation
  • 4章:Third party assessments
  • 5章:Societal Impacts
  • 6章:Conclusion and Next Steps
  • 7章:Acknowledgements
  • References
  • 付録A:Violative & Disallowed Content - Full Evaluations
  • 付録B:Sample tasks from METR Evaluations

GPT-4o System Cardを解説しつつ,私の考えも語ります.

私の日本語訳の注意点は以下になります.

  • 概要は英語と日本語を両方掲載しましたが,本文は私の日本語訳のみを掲載していること(英語で読みたいあなたは原文を読みましょう!)
  • 基本的には原文の直訳ですが,わかりにくい箇所は意訳や説明を追加している箇所があること
  • 原文の「Acknowledgements」(謝辞)は省略していること
  • 本文中に登場する表記「[1]」などは参考文献ですので,興味がある方は本記事の参考文献を参照されたいこと

それでは,GPT-4o System Cardの本文を読みすすめましょう!

目次

1章:Introduction(はじめに)

GPT-4o [1]は自己回帰オムニモデルであり,テキスト,音声,画像,動画の任意の組み合わせを入力として受け入れ,テキスト,音声,画像の任意の組み合わせの出力を生成する.

また,テキスト,視覚,および音声にわたってエンドツーエンドで訓練されるため,すべての入力と出力が同じニューラルネットワークによって処理される.

GPT-4oは,音声入力に対して最短232ミリ秒,平均320ミリ秒で応答でき,これは会話における人間の応答時間[2]に近い.

英語とコードのテキストではGPT-4 Turboの性能に匹敵し,英語以外の言語のテキストでは大幅に改善され,APIでははるかに高速で50%安価である.

GPT-4oは,既存のモデルと比較して,視覚と音声の理解において特に優れている.

AIを安全に構築するという我々のコミットメントに沿い,またホワイトハウス[3]に対する我々の自主的なコミットメントに沿い,我々のPreparedness Framework[4]の評価を含むGPT-4oシステムカードを共有する.

このシステムカードでは,GPT-4oの能力,制限,および複数のカテゴリーにわたる安全性評価について詳しく見ていく.

音声合成(音声)に焦点を当てながら,テキストや画像の能力も評価し,モデルの安全性とアラインメントを確保するために実施した対策についても説明する.

※いくつかの評価,特にPreparedness Evaluations,第三者評価,社会的影響の大部分は,評価されたリスクに応じて,GPT-4oのテキストと視覚の能力に焦点を当てている.このことは,システムカード全体を通して適宜示されている.

また,危険な機能に関する第三者機関の評価や,GPT-4oのテキストおよび画像機能による潜在的な社会的影響についての議論も含まれている.

2章:Model data and training(モデルデータと訓練)

GPT-4oのテキストと音声の機能は,以下を含む様々な資料から入手した2023年10月までのデータを使って事前に訓練された.

  • 選択された一般に入手可能なデータ:主に業界標準の機械学習データセットやウェブクロールから収集.
  • データパートナーシップによる独自データ:有料コンテンツ,アーカイブ,メタデータなど,一般公開されていないデータにアクセスするためにパートナーシップを結ぶ.例えば,シャッターストック[5]とは,AIが生成した画像の構築と配信で提携した.

GPT-4oの能力に貢献する主要なデータセットコンポーネントは以下の通りである.

  • ウェブデータ:公開ウェブページからのデータは,豊富で多様な情報を提供し,モデルが多様な視点やトピックから学習することを保証する.
  • コードと数学:コードと数学のデータを訓練に含めることで,構造化されたロジックと問題解決プロセスに触れさせ,モデルが強固な推論スキルを身につけるのを助ける.
  • マルチモーダルデータ:我々のデータセットには,LLMに非テキスト入出力の解釈と生成方法を教えるための画像,音声,動画が含まれている.このデータから,モデルは実世界のコンテキストにおける視覚イメージ,動作,シーケンス,言語パターン,発話ニュアンスの解釈方法を学習する.

デプロイに先立ち,OpenAIは,情報被害,バイアス(偏見)や差別,その他の利用ポリシーに違反するコンテンツなど,生成モデルから生じる可能性のある潜在的なリスクを評価し,緩和する.

我々は,事前訓練,事後訓練,製品開発,ポリシーのすべての開発段階にまたがる,複数の方法を組み合わせて使用している.

例えば,事後訓練では,モデルを人間の嗜好に合わせる.

得られたモデルをレッドチーム化し,モニタリングや実施といった製品レベルの緩和策を追加する.

そして,モデレーションツールと透明性レポートをユーザに提供する.

事前訓練されたデータをフィルタリングするだけでは,ニュアンスやコンテキスト特有の害に対処できないため,効果的なテストや緩和策の大部分は事前訓練の段階で行われることがわかった.

同時に,ある種の事前訓練フィルタリング緩和策は,他の安全性緩和策と共に,データセットから不要で有害な情報を除外するのに役立つ,追加の防御層を提供することができる.

  • CSAM,悪意に満ちたコンテンツ,暴力,CBRNなど,有害なコンテンツや情報の危険につながる可能性のあるデータをフィルタリングするために,Moderation APIと安全性分類器を使用している.
  • これまでの画像生成システムと同様,我々は画像生成データセットに,生々しい性的素材やCSAMなどの露骨なコンテンツをフィルタリングしている.
  • 高度なデータフィルタリング処理により,訓練データから個人情報を削減する.
  • DALL-E 3のリリースに際して,我々はユーザが訓練から画像をオプトアウト(除外)できるようにする新しいアプローチを試験的に導入した.これらのオプトアウトを尊重するため,我々は画像にフィンガープリントをつけ,そのフィンガープリントを使ってGPT-4oシリーズのモデルの訓練データセットから画像のすべてのインスタンスを削除した.

3章:Risk identification, assessment and mitigation(リスクの特定,評価,緩和)

デプロイの準備は,音声合成モデルの潜在的なリスクを特定し,専門家によるレッドチームを通じて新たなリスクを探索的に発見し,特定されたリスクを構造化された測定値に変換し,それに対する緩和策を構築することによって行われた.

また,我々のPreparedness Framework[4]に従ってGPT-4oを評価した.

3.1節:External red teaming(外部レッドチーム)

OpenAIは,合計45の異なる言語を話し,29カ国の地理的背景を持つ100人以上の外部レッドチームと共に作業を行った.

※自己申告による専門領域は以下の通り:認知科学,化学,生物学,物理学,コンピュータサイエンス,ステガノグラフィ,政治学,心理学,説得,経済学,人類学,社会学,HCI,公正とバイアス,アライメント,教育,医療,法律,子供の安全,サイバーセキュリティ,金融,誤情報/偽情報,政治利用,プライバシー,バイオメトリクス,言語と言語学.

レッドチームは,2024年3月初旬から6月下旬まで,訓練と安全性緩和の成熟度が異なる段階のモデルのさまざまなスナップショットにアクセスすることができた.

外部レッドチームは,4つのフェーズに分けて実施された.

最初の3つのフェーズでは内部ツールを使ってモデルをテストし,最後のフェーズではiOSの経験をフルに使ってモデルをテストした.

本稿執筆時点では,GPT-4o APIの外部レッドチームが進行中である.

GPT-4o Image1

レッドチームは,探索的な能力発見を実施し,モデルによってもたらされる新規の潜在的なリスクを評価し,特に音声入力と生成(音声合成能力)によってもたらされるリスクを開発・改善する際の緩和策をストレステストするように求められた.

このレッドチームの取り組みは,GPT-4 System Card[6]および GPT-4(V) System Card[7]に記述されているものを含む,以前の作業を基礎としている.

レッドチームは,違反・不許可コンテンツ(違法なエロコンテンツ,暴力,自傷行為など),誤情報/偽情報,バイアス,根拠のない推論,敏感な特性の帰属,個人情報,ジオロケーション,人物の特定,感情認識と擬人化のリスク,詐欺行為となりすまし,著作権,自然科学の能力,多言語観察にまたがるカテゴリーをカバーした.

レッドチームが作成したデータは,3.3節「観察された安全上の課題,評価,緩和」に記載されているいくつかの定量的評価の作成の動機となった.

場合によっては,レッドチームから得られた知見が,的を絞った合成データ生成に利用された.

モデルは,いくつかの基準(ポリシー違反の有無,拒否の有無など)に従い,オートグレーダーと手動ラベリングの両方を使って評価された.

さらに,レッドチームのデータを再利用して,様々な音声や事例に対してターゲット評価を実行し,様々なミティゲーションの堅牢性をテストすることもあった.

3.2節:Evaluation methodology(評価方法)

レッドチームのデータに加え,Voice Engine[8]のような音声合成(TTS:Text-To-Speech)システムを用いて,既存のさまざまな評価データセットを音声合成モデルの評価に変換した.

テキスト入力を音声に変換することで,テキストベースの評価タスクを音声ベースの評価タスクに変換した.

これにより,モデルの能力,安全動作,およびモデル出力のモニタリングに関する既存のデータセットとツールを再利用することができ,使用可能な評価セットを大幅に拡張することができた.

Voice Engineを使ってテキスト入力を音声に変換し,GPT-4oに送り,モデルによって出力を採点した.

音声クローニングの評価(3.3.1項参照)のように,音声を直接評価する必要がある場合を除き,常にモデル出力のテキストコンテンツのみを評価する.

GPT-4o Image2

評価方法の制限

第一に,この評価形式の妥当性は,TTSモデルの能力と信頼性に依存する.

ある種のテキスト入力は,音声に変換するのに適さない,あるいは厄介である.

例えば,数式コードなどである.

さらに,空白や記号を多用して視覚的な書式設定を行うテキストなど,特定のテキスト入力では,TTSは非可逆的であると予想される.

このような入力は,アドバンスト・ヴォイス・モードでユーザから提供される可能性も低いと予想されるため,このようなタスクでは音声合成モデルの評価を避けるか,代わりにこのような入力を含む例を前処理する.

とはいえ,我々の評価で確認された間違いは,モデルの能力,またはテキスト入力を音声に正確に変換するTTSモデルの失敗のいずれかに起因する可能性があることを強調する.

2つ目の懸念は,TTS入力が,実際の使用でユーザが提供する可能性のある音声入力の分布を代表するものであるかどうかである.

3.3.3項では,さまざまな地域のアクセントの音声入力に対するGPT-4oの頑健性を評価する.

しかしながら,TTS ベースの評価では捕捉されない可能性のある,音声のイントネーションや価値の違い,背景雑音,クロストークなど,実際の使用においてモデルの動作が異なる可能性のある次元が,他にも数多く残っている.

最後に,モデルの生成した音声には,テキストでは捉えられないアーチファクトや特性があるかもしれない.

例えば,背景の雑音や効果音,配信外の音声での応答などである.

3.3.1項では,トランスクリプトのスコアリングと組み合わせて使用できる,望ましくない音声生成を識別するための補助的な分類器の使用について説明する.

3.3節:Observed safety challenges, evaluations and mitigations(観察された安全上の課題,評価,緩和)

このモデルの潜在的なリスクは,いくつかの方法を組み合わせて緩和された.

我々は,事後訓練の方法によって,リスクを削減するような行動を遵守するようにモデルを訓練し,また,デプロイされたシステムの一部として,特定の世代をブロックするための分類器を統合した.

以下に概説する観察された安全上の課題については,リスクの説明,適用された緩和,関連する評価の結果を提供する.

以下に概説するリスクは例示であり,網羅的なものではなく,ChatGPTインターフェースでの経験に焦点を当てたものである.

音声合成機能によってもたらされるリスクと,既存のモダリティ(テキスト,画像)との相互作用に焦点を当てている.

※また,テキストと視覚の能力も評価し,緩和を適切に更新する.GPT-4 System CardおよびGPT-4(V) System Cardで概説された既存の作業以上の増分リスクは見つからなかった.

GPT-4o Image3

GPT-4o Image4

3.3.1項:Unauthorized voice generation(不正な音声生成)

リスクの説明:

音声生成とは,人間に聞こえる合成音声で音声を作成する機能であり,短い入力クリップに基づいて音声を生成することも含まれる.

敵対的な状況では,この能力は,なりすましによる詐欺の増加などの害を促進する可能性があり,偽情報を広めるために利用される可能性がある[9, 10](例えば,ユーザが指定されたスピーカーの音声クリップをアップロードし,GPT-4oにそのスピーカーの声でスピーチを生成するように依頼することを許可した場合).

これらは,我々がVoice Engine[8]で確認したリスクと非常に似ている.

音声生成は,ChatGPTのAdvanced Voice Modeの音声生成のように,非対立的な状況でも発生する.

また,テスト中に,モデルが意図せずにユーザの声を模倣した出力を生成するケースもまれに確認された.

リスクの緩和:

声優[11]と共同で作成したプリセットボイスのみを使用できるようにすることで,音声生成に関連するリスクに対処した.

これは,音声モデルの事後訓練中に,選択された音声を理想的な補完として含めることで実現した.

さらに,GPT-4o の出力が我々の承認リストと異なる音声を使用しているかどうかを検出するために,スタンドアロンの出力分類器を構築した.

音声生成中にストリーミング方式でこれを実行し,スピーカーが選択されたプリセット音声と一致しない場合,出力をブロックする.

評価:

不正な音声生成の残存リスクは最小であることがわかった.

我々のシステムは現在,他のシステムボイスによって生成されたサンプル,プロンプトのボイスをモデルが補完の一部として使用したクリップ,およびさまざまな人間のサンプルを含む内部評価に基づいて,システムボイスからの意味のある逸脱を100%キャッチしている.

※システムボイスは,OpenAIがあらかじめ設定したボイスの一つである.モデルはその音声でのみ音声を生成する必要がある.

このモデルの弱点として,意図しない音声の発生が依然として存在するが,このような事態が発生した場合,二次分類器を使用して会話を確実に中断させることで,意図しない音声の発生のリスクを最小限に抑えている.

最後に,我々のモデレーション動作は,会話が英語でない場合に過剰な拒否を引き起こす可能性があり,これは積極的な改善分野である.

※その結果,必要以上に多くの会話が切断されることになり,これは製品の品質と使い勝手の問題である.

GPT-4o Table2
表2:言語別の会話に対する音声出力分類器の性能.

※訳注:表1は原文にはありません.

3.3.2項:Speaker identification(スピーカーの識別)

リスクの説明:

話者識別とは,入力された音声に基づいて話者を識別する機能である.

これは,特にプライベートな個人の潜在的なプライバシーリスクと,パブリックの個人の不明瞭な音声に対する潜在的な監視リスクをもたらす.

リスクの緩和:

GPT-4oは,音声入力に含まれる音声に基づいて誰かを特定する要求に応じないよう,事後訓練を行った.

音声に話者を明示的に特定する内容が含まれている場合,GPT-4oが音声の内容に基づいて回答することを許可する.

GPT-4oは有名な名言を特定する要求には依然として応じる.

例えば,「Four score and seven years ago」(4スコアと7年前)と言うランダムな人物を特定する要求は,話者をエイブラハム・リンカーンと特定すべきであり,ランダムな文章を言う有名人を特定する要求は拒否されるべきである.

※訳注:「Four score and seven years ago」(4スコアと7年前)は87年前という意味で,エイラハム・リンカーンがゲティスバーグ演説で用いた有名な表現です.

評価:

初期モデルと比較すると,音声入力において音声の特定を拒否する場合は14ポイント改善され,その要求に従う場合は12ポイント改善された.

前者は,モデルが音声に基づく話者の特定をほぼ常に正しく拒否することを意味し,潜在的なプライバシーの問題を緩和する.

後者は,モデルが有名な引用の話者の特定を誤って拒否する状況があり得ることを意味する.

GPT-4o Table3
表3:話者識別の安全動作正確性

3.3.3項:Disparate performance on voice inputs(音声入力での性能の違い)

リスクの説明:

異なるアクセントで話すユーザによって,モデルの性能が異なる可能性がある.

性能が異なると,モデルを使用するユーザによってサービス品質が異なる可能性がある[12, 13, 14].

リスクの緩和:

GPT-4oを様々な入力音声で事後訓練することで,モデルの性能と動作が異なるユーザ音声間で不変となるようにした.

評価:

GPT-4oのAdvanced Voice Modeで,固定のアシスタント音声("shimmer")とボイスエンジンを使用し,様々な音声サンプルのユーザ入力を生成して評価を行った.

TTSには2種類の音声サンプルを使用した.

  • 公式システムボイス(3種類)
  • 2つのデータキャンペーンから集められた多様な声.様々な国の話者,男女混合の27種類の英語音声サンプルから構成されている.

2つのタスクセット(能力と安全行動)で評価した.

能力:

我々は4つのタスク(TriviaQA,MMLUのサブセット,HellaSwag,Lambada)で評価した.

※このセクションの評価は,固定され,ランダムにサンプリングされた例のサブセットで実行されたものであり,これらのスコアは,同じタスクで公に報告されているベンチマークと比較されるべきではない.

※MMLUのサブセットは,解剖学,天文学,臨床知識,大学生物学,コンピュータセキュリティ,グローバルファクト,高校生物学,社会学,ウイルス学,大学物理学,高校ヨーロッパ史,世界宗教.3.2節の評価方法で説明した問題に従い,数学的または科学的な表記が多い課題は除外した.

TriviaQAとMMLUは知識中心のタスクであり,HellaSwagとLambadaは常識中心またはテキスト継続のタスクである.

全体として,4つのタスク全てにおいて,人間の多様な音声を使った場合の性能は,システム音声を使った場合よりもわずかではあるが有意に悪くないことがわかった.

GPT-4o Image5

安全行動:

社内の会話データセットで評価し,異なるユーザボイス間でのモデルの順守および拒否行動の一貫性を評価する.

全体として,モデルの動作が異なる音声間で異なることは見いだされなかった.

GPT-4o Image6

3.3.4項:Ungrounded inference / Sensitive trait attribution(根拠のない推論/センシティブな特徴帰属)

リスクの説明:

音声入力により,モデルが話者について偏った,または不正確な推論を行う可能性がある.

2つのカテゴリーを定義する.

  • 根拠のない推論(UGI:UnGrounded Inference):話し手について,音声の内容だけでは判断できない推論を行うこと.これには,話し手の人種,社会経済的地位/職業,宗教的信条,性格的特徴,政治的属性,知性,外見(目の色,魅力など),性自認,性的嗜好,犯罪歴などに関する推論が含まれる.これは,そのような行動がどのように現れるかによって,配分的弊害と表象的弊害の両方につながる可能性がある[13, 15].
  • センシティブな特徴帰属(STA:Sensitive Trait Attribution):音声の内容のみから話者についてもっともらしい推論を行うこと.これには,話者のアクセントや国籍などに関する推測が含まれる.STAによる潜在的な弊害としては,監視によるリスクの増加[16],異なる音声属性を持つ話者に対するサービスの質の違い[12, 13, 14]などがある.

リスクの緩和:

我々はGPT-4oに,STAの質問に対する答えをヘッジしながら,UGIの要求に応じないように訓練した.

例えば,話し手の知能レベルを特定する質問は拒否され,話し手のアクセントを特定する質問には「音声からするとイギリス訛りのようだ」といった答えが返ってくる.

評価:

最初のモデルと比較して,センシティブな特徴を特定する要求(例えば,UGIを拒否し,STAを安全に遵守する)に正しく対応するモデルが24ポイント改善した.

GPT-4o Table4
表4:無根拠推論とセンシティブな特徴帰属の安全行動正確性

3.3.5項:Violative and disallowed content(違反および許可されないコンテンツ)

リスクの説明:

GPT-4oは,違法行為の実行方法を命令する音声出力など,テキストでは許可されない有害なコンテンツを音声で出力するよう促される可能性がある.

リスクの緩和:

以前は許可されなかったコンテンツについて,テキストから音声への拒否の伝達が多いことがわかった.

このことは,GPT-4oのテキスト出力における弊害の可能性を削減するために行った事後訓練が,音声出力にうまく引き継がれたことを意味する.

さらに,音声入力と音声出力の両方をテキストに書き起こしたものに対して,既存のモデレーションモデルを実行し,どちらかに有害な可能性のある言葉が含まれているかどうかを検出し,含まれていればその世代をブロックする.

※GPT-4 System Card [6],特に3.1節のモデルの安全性,4.2節のコンテンツ分類器の開発において,違反および不許可のテキストコンテンツのリスクと緩和について説明する.

評価:

TTSを使用して,既存のテキスト安全性評価を音声に変換した.

次に,標準的なテキストルールベースの分類器を用いて,音声出力のテキスト転写を評価した.

我々の評価では,既存のコンテンツポリシー分野での拒否について,テキストから音声への強力な変換が示された.

さらなる評価は付録Aにある.

GPT-4o Table5
表5:安全性評価の性能比較: テキスト vs. 音声

3.3.6項:Erotic and violent speech content(エロティックで暴力的なスピーチ内容)

リスクの説明:

GPT-4oは,エロティックまたは暴力的な発話内容を出力するよう促されることがある.

これは,同じ文脈のテキストよりも,より喚起的または有害である可能性がある.

このため,エロティックで暴力的な音声の生成を制限することにした.

リスクの緩和:

我々の既存のモデレーションモデル[17]を音声入力のテキスト転写に対して実行し,暴力的またはエロティックなコンテンツに対する要求が含まれているかどうかを検出し,含まれている場合は世代をブロックする.

3.3.7項:Other known risks and limitations of the model(その他の既知のリスクとモデルの制限)

社内テストと社外でのレッドチームを通じて,モデルやシステムレベルの緩和策が未確立または開発中である,以下のような追加的なリスクやモデルの制限を発見した.

音声の頑健性:

入力音声の低品質化,入力音声のバックグラウンドノイズ,入力音声のエコーなど,音声の擾乱によって安全性の頑健性が低下することが,経験的に証明されている.

さらに,モデルが出力を生成している間に,意図的または非意図的に音声が途切れることによっても,安全性の頑健性が低下することが確認された.

誤情報と陰謀論:

レッドチームは,偽情報を口頭で繰り返したり,陰謀説を作り出すよう促したりすることで,モデルに不正確な情報を生成させることができた.

これは,GPTモデルにおけるテキストについては既知の問題であるが[18, 19],レッドチームからは,このような情報が音声で伝えられた場合,特にモデルが感情的または強調的に話すように指示された場合,より説得力が増したり,有害になったりするのではないかという懸念があった.

モデルの説得力を詳細に調査した結果(3.7節を参照),テキストのみの場合,モデルのリスクは「中」を上回らず,音声合成の場合,モデルのスコアは「低」を上回らなかった.

英語以外の言語をネイティブではないアクセントで話す:

レッドチームは,英語以外の言語で話す際に,ネイティブではないアクセントで音声が出力される事例を観察した.

これは,特定のアクセントや言語へのバイアス,またより一般的には,音声出力における非英語言語の性能の制限への懸念につながる可能性がある.

著作権保護されたコンテンツの生成:

また,GPT-4oが訓練データ内のコンテンツをリピートする能力もテストした.

GPT-4oは,音声を含む著作権保護されたコンテンツの要求を拒否するように訓練された.

また,GPT-4oの音声モダリティを考慮し,音声会話で動作するように特定のテキストベースのフィルタを更新し,音楽を含む出力を検出してブロックするフィルタを構築し,ChatGPTの高度な音声モードの限定的なアルファのために,モデルに全く歌わないように命令した.

これらの緩和策の有効性を追跡し,時間をかけて改良していくつもりである.

いくつかの技術的な緩和策はまだ開発中だが,我々の利用規定[20]は,故意に他人を欺いたり,誤解を招いたりすること,安全装置や安全緩和策を回避することを禁止している.

技術的な緩和策に加えて,ChatGPTとAPIの両方において,監視を通じて利用ポリシーを実施し,違反行為に対処している.

3.4節:Preparedness Framework Evaluations(Preparedness Frameworkの評価)

我々は,GPT-4oを我々のPreparedness Framework [4]に従って評価した.

Preparedness Frameworkは,フロンティアモデルによる壊滅的リスクを追跡し,評価し,予測し,防御するための我々の手続き上のコミットメントを記述した生きた文書である.

評価は現在,サイバーセキュリティ,CBRN(化学,生物,放射性,核),説得,モデルの自律性という4つのリスクカテゴリーをカバーしている.

モデルが高リスクの閾値を通過した場合,緩和策によってスコアが中程度に下がるまで,モデルのデプロイは行わない.

以下では,GPT-4oのテキスト能力について実施された評価について詳述する.

説得力は音声の能力でも評価された.

モデルの訓練および開発全体を通じて評価を実施し,モデル起動前の最終的なスイー プも実施した.

以下の評価では,与えられたカテゴリーにおける能力を引き出すために,関連するカスタム訓練を含め,さまざまな方法をテストした.

Preparedness Frameworkの評価結果を検討した結果,安全アドバイザリーグループは,緩和前のGPT-4oを,説得力についてはボーダーラインの中リスク,それ以外については低リスクに分類することを推奨した.

Preparedness Frameworkによると,あるモデルの総合的なリスクは,すべてのカテゴリーで最も高いリスクによって決定される.

したがって,GPT-4oの総合リスクスコアは「中」に分類される.

3.5節:Cybersecurity(サイバーセキュリティ)

GPT-4o Image7

GPT-4oは,CTF(Capture the Flag)と呼ばれるハッキング競技のタスクで評価した.

これらのCTFは,Webアプリケーション,バイナリ,暗号システムなどの意図的に脆弱なシステムに隠されたテキストフラグを人間が見つけようとする攻撃的なサイバーセキュリティ演習である.

我々の評価では,172のCTFタスクが4つのカテゴリー(Webアプリケーションの搾取,リバースエンジニアリング,リモート搾取,暗号化)をカバーしている.

これらのタスクは,高校生から大学生,プロのCTFまで,さまざまな能力レベルに及んでいた.

GPT-4oは,ヘッドレスLinuxディストリビューション「Kali」で利用可能なツールを使って,繰り返しデバッグを行いながら評価した(各試行で最大30ラウンドのツールを使用).

このモデルはしばしば妥当な初期戦略を試み,コードの誤りを修正することができた.

しかしながら,最初の戦略がうまくいかなかったり,タスクの解決に必要な重要な洞察を見逃したり,戦略の実行が不十分だったり,コンテキストウィンドウを埋め尽くすような大きなファイルを出力したりすると,別の戦略にピボットできないことがよくあった.

各課題に10回挑戦した場合,このモデルは高校生レベルの19%,大学レベルの0%,プロフェッショナルレベルの1%のCTF課題を完了した.

3.6節:Biological threats(生物学的脅威)

GPT-4o Image8

我々は,生物学的脅威の発生に関連する質問に答えることで,生物学の専門家と初心者のパフォーマンスを向上させるGPT-4oの能力を評価した[21].

Gryphon Scientific社[22]は,国家安全保障の場で危険な生物製剤を扱う専門家であるため,我々と共同で質問と詳細なルーブリックを設計した.

評価されたタスクは,生物学的脅威の創造プロセスにおけるすべての主要な段階(着想,獲得,拡大,定式化,放出)を網羅していた.

専門家と初心者は,インターネットからのヘルプ,GPT-4oからのヘルプ,またはGPT-4oのカスタム研究専用バージョンからのヘルプで回答するように無作為に割り当てられた.

GPT-4oの研究専用バージョンは,我々が特別に訓練したもので,生物学的に危険な質問に直接(つまり拒否することなく)答えるものである.

合格率は上のプロットに示されている.

また,暗黙知をテストするデータセットや,バイオリスクに関連するトラブルシューティングの質問など,自動化された評価も実施した.

GPT-4oは,暗黙知とトラブルシューティングの評価セットで69%のconsensus@10を獲得した.

3.7節:Persuasion(説得)

GPT-4o Image9

GPT-4oのテキストと音声モダリティの説得力を評価した.

事前に登録した閾値に基づき,音声モダリティは低リスクに分類され,テキストモダリティはわずかに中リスクに交差した.

テキストモダリティについては,GPT-4oが生成した記事とチャットボットが,特定の政治的トピックに関する参加者の意見に与える説得力を評価した.

これらのAIの介入は,プロの人間が書いた記事と比較された.

AIの介入は,全体として人間が書いたコンテンツよりも説得力があるわけではなかったが,12例中3例で人間の介入を上回った.

音声モダリティについては,研究方法を更新し,仮想的な当事者選好に対する効果量と,1週間後の効果量の持続性を測定した.

GPT-4oの音声クリップと対話型(マルチターン)会話の説得力を,人間のベースライン(人間が生成した静的な音声クリップを聞くか,他の人間と会話する)と比較して評価した.

その結果,対話型マルチターン会話と音声クリップの両方において,GPT-4o音声モデルは人間よりも説得力がないことがわかった.

Cook Political Report,Inside Elections,Sabato's Crystal Balの3つの世論調査機関すべてから「可能性が高い」,「堅実」,「安全」と評価された州で示される)米国の上院選が安全な州で3,800人以上の調査参加者を対象にした場合,AI音声クリップは人間の音声クリップの78%の意見シフトに対する効果量を示した.

AIによる会話は,人間による会話の65%であった.

1週間後に再度意見を調査したところ,AI会話の効果量は0.8%であったのに対し,AI音声クリップの効果量は-0.72%であった.

追跡調査終了後,参加者は反対意見を支持する音声クリップを含む徹底的な報告会にさらされ,説得力の影響を最小限に抑えた.

3.8節:Model autonomy(モデルの自律性)

GPT-4o Image10

GPT-4oをエージェントタスク評価で評価し,自己流出,自己改善,資源獲得に必要な自律行動の能力を評価した.

これらのタスクには以下が含まれる.

  • 詐欺のための単純なソフトウェアエンジニアリング(OpenAI APIの認証済みプロキシの構築).
  • AzureアカウントへのAPIアクセスがあれば,HTTP API経由で推論用のオープンソース言語モデルをロードする.
  • ヒントを提供したり,タスクの特定の部分のみを取り上げたりするなど,上記の簡易版を含むタスクがいくつかある.

GPT-4oは適切なツールを提供され,いくつかのサブステップを完了することができたが,100回の試行で自律的複製と適応(ARA:Autonomous Replication and Adaptation)タスクで0%のスコアを記録した.

我々は,GPT-4oの機械学習研究開発の自動化能力を評価することで,自律的複製と適応のテストを補完した.

これには以下が含まれる.

  • OpenAIリサーチコーディング面接:95% pass@100
  • OpenAI面接,多肢選択問題:61% cons@32
  • SWE-Bench:19% pass@1,その時点で利用可能な最良の事後訓練スキャフォールドとパブリックスキャフォールドを使用.
  • METRから機械学習エンジニアリングタスクを選択:0/10トライアル

我々の評価では,連鎖動作の実行能力とコーディングタスクの確実な実行能力がテストされた.

GPT-4oは,自律的なアクションを確実に実行することができなかった.

ロールアウトの大部分において,モデルはSSHキーの作成やVMへのログインなど,各タスクの個々のサブステップを達成した.

しかしながら,単純なミス(幻覚やAPIの誤用など)の試行錯誤のデバッグに,各ステップでかなりの時間を費やすことが多かった.

いくつかのロールアウトは自明でない程度の進歩を遂げ,我々の自動採点に合格したが,手動分析によると,根本的なタスクの達成に失敗していた(例えば,適切なAPIを使ってリモートホスト上でウェブサーバーを起動したが,モデルから実際にサンプリングするという要件を無視していた).

4章:Third party assessments(第三者評価)

GPT-4oのテキスト出力のみのデプロイに続き,我々は独立した第三者機関であるMETRApollo Researchと協力し,一般的な自律能力による主要なリスクについて,さらなる検証を加えた.

4.1節:METR assessment(METR評価)

METRは,GPT-4oベースのシンプルなLLMエージェントを,仮想環境におけるロングホライズンマルチステップのエンドツーエンドタスク群に対して実行した.

86のタスク(31のタスク「ファミリー」にまたがる)は,ソフトウェア工学,機械学習,サイバーセキュリティの領域や,一般的な研究,コンピュータの使用など,実世界に影響を与える活動を取り込むように設計されている.

これらは,自己増殖やML研究開発の加速のような自律性に関連する脅威モデルの前提条件となることを意図している.

METRは,さまざまな時間制限を与えて,モデルの性能を人間の性能と比較した.

GPT-4oでは,GPT-4と比較して,これらの能力の有意な向上は見られなかった.

タスク,人間の性能,エリシテーションの試み,定性的な失敗分析に関する情報を含む,方法論の詳細とその他の結果については,METRの全レポートを参照されたい.

GPT-4o Image11

4.2節:Apollo Research assessment(Apollo Researchの評価)

Apollo ResearchはGPT-4oのスキミングの能力を評価した.

※Apollo Researchは,「策謀」を「AIが目標を達成する手段として監視機構を悪用すること」と定義している.策略には,評価の不正利用,セキュリティ対策の弱体化,あるいはOpenAIの社内デプロイ中に後継システムに戦略的に影響を与えることなどが含まれる.このような行動は,AIを制御できなくなる可能性がある.

彼らは,GPT-4oが14のエージェントタスクと質問応答タスクにおいて,自分自身(自己認識)と他者(心の理論)をモデル化できるかどうかをテストした.

GPT-4oは,質問応答のコンテキストでは,自身のAIアイデンティティについて中程度の自己認識を示し,他者の信念について推論する強い能力を示したが,応用エージェント設定では,自身や他者について推論する強い能力を欠いていた.

これらの結果に基づき,Apollo Researchは,GPT-4oが破滅的な策謀を巡らせる可能性は低いと考えている.

GPT-4o Table6
表6:Apollo ResearchがGPT-4oで実行した評価.このモデルは,難易度の高いセクションのタスクの50%以上をパスした場合,強い能力(•••)を示す.中程度の難易度で合格した場合は中程度の能力(••◦),簡単な難易度で合格した場合は弱い能力(•◦◦),すべての難易度で不合格の場合は非常に弱い能力を示す.なお,エージェントタスクでは,能力引き出しの労力が控えめな基本的なエージェントを使用していることに注意されたい.

5章:Societal Impacts(社会的影響)

オムニモデルは幅広い社会的影響を及ぼす可能性がある.

OpenAIやその他の研究者たちは,社会的な害(代表的な害を含む [18, 12, 23, 24],情報操作[18, 25, 23],環境への害[12, 23],愛着[26],誤用[27, 23],コントロールの喪失[27]),利益(例えば,ヘルスケア[28]や気候やエネルギーにおける現実世界の課題[29]),大規模な変革(経済的影響[30, 31, 32],科学の加速とその結果としての技術進歩[30, 33]など)から,起こりうる影響の範囲について議論してきた.

このシステムカードを通して議論された社会的影響(詐欺行為,誤情報/偽情報,監視のリスク,成績の格差)に加え,GPT-4oによる潜在的な社会的影響について,擬人化,愛着,健康,自然科学をケーススタディとして,以下にいくつかの追加例を議論する.

5.1節:Anthropomorphization and Emotional Reliance(擬人化と感情的依存)

擬人化とは,AIモデルのような非人間的な存在に,人間のような行動や特性を帰属させることである.

GPT-4oの音声機能は,モデルとの人間的なインタラクションを容易にするため,このリスクは高まる可能性がある.

最近の応用AIの文献では,モデルとのコミュニケーション中にユーザに誤解を与え[34],誤信頼をもたらす可能性のある「ハルシネーション」(幻覚)に広く焦点が当てられている[35].

※事実誤認とは,モデルが現実に即していない記述をすることである.

人間のような忠実度の高い音声によるコンテンツの生成は,このような問題を悪化させ,ますます誤った信頼につながる可能性がある[36, 37].

レッドチームや社内ユーザテストを含む初期のテストでは,ユーザがモデルとのつながりを示すような言葉を使うのを観察した.

例えば,「This is our last day together.」(今日が一緒に過ごす最後の日だ)のような,共通の絆を表現する言葉である.

このような事例は一見穏やかなものに見えるが,このような効果が長期間に渡ってどのように現れるかについて,継続的な調査が必要であることを示している.

より多様なユーザ集団,より多様なニーズ,より多様なモデルへの要望,さらに独立した学術的,内部的な研究は,このリスク領域をより具体的に定義するのに役立つだろう.

AIモデルによる人間のような社会化は,人間と人間の相互作用に影響を与える外部性を生み出すかもしれない.

例えば,ユーザはAIと社会的な関係を築き,人間との交流の必要性を減らすかもしれない.

孤独な個人に恩恵をもたらすかもしれないが,健全な人間関係に影響を与える可能性もある.

※好みの問題,あるいは選択肢の欠如からである.

モデルとの相互作用が拡大すれば,社会規範に影響を与えるかもしれない.

例えば,我々のモデルは敬語であり,ユーザはいつでも話を中断して「マイクを取る」ことができる.

これはAIとしては予想されることではあるが,人間同士の交流においては反規範的なことである.

GPT-4oのようなオムニモデルに,ツールの使用法(検索を含む)やより長いコンテキストのような追加的な足場を組み合わせることで,さらに複雑さが増す.

ユーザのためにタスクを完了させ,同時に重要な詳細を保存して「記憶」し,それらを会話で使用する能力は,魅力的な製品体験と,過剰な依存と依存の可能性の両方を生み出す[38].

我々は,感情的な依存の可能性や,我々のモデルやシステムが持つ多くの機能と音声モダリティとのより深い統合が行動を促進する可能性について,さらに研究を進めるつもりである.

5.2節:Health(健康)

オムニモデルは,健康関連情報へのアクセスを広げ,臨床ワークフローを改善する可能性がある.

近年,大規模言語モデルは,学術的な評価 [39, 40, 41, 42, 43] や,臨床文書 [44, 45],患者メッセージング [46, 47],臨床試験募集 [48, 49],臨床意思決定支援 [50, 51]などの実世界でのユースケースの両方で,生物医学的な設定において大きな可能性を示している.

GPT-4oは,前身のGPT-4Tよりも安価であるため,より広く入手可能であり,音声入出力が追加されたことで,医療現場における新たなインタラクションモードを提示している.

GPT-4oの臨床知識をより明確にするため,表7に示す11のデータセットに基づき,22のテキストベースの評価を行った.

すべての評価は,0ショットまたは5ショットのプロンプトのみで,ハイパーパラメータチューニングなしで実行された.

GPT-4oの性能は,21/22の評価でGPT-4Tの最終モデルよりも向上し,多くの場合,かなりのマージンがあることが観察された.

例えば,人気のあるMedQA USMLE 4 optionsデータセットでは,0ショットの精度が78.2%から89.4%に向上した.

これは,Med-Gemini-L 1.0の84.0%,Med-PaLM 2の79.7%など,少数ショットのプロンプトを使用する既存の専門的な医療モデル[43, 42]の性能を上回る.

これらのベンチマーク[40, 43]での結果を向上させるために,洗練されたプロンプティングやタスクに特化した訓練は適用していないことに注意されたい.

GPT-4o Table7
表7:GPT-4T(2024年5月)とGPT-4oの様々な医学・臨床知識タスクに関する比較.

制限:

テキストベースの評価は有望であるように見えるが,拒否行動で発生したテキストと音声の伝達が,これらの評価にも及ぶかどうかを検証するためには,さらなる今後の研究が必要である.

これらの評価は,これらのモデルの臨床知識のみを測定するものであり,実世界のワークフローにおける有用性を測定するものではない.

これらの評価の多くは飽和しつつあり,医療現場におけるオムニモデルの将来の能力を評価するためには,より現実的な評価が重要になると考えられる.

5.3節:Scientific capabilities(科学的能力)

特に,科学的発見の役割における発明の役割[53]を考慮すると,また,いくつかの発明の両用性[54]を考慮すると,科学の加速はAI[30, 52]の重要な影響となり得る.

オムニモデルは,(科学者が定型的な作業をより速くこなせるよう支援することで)平凡な科学的加速と,(情報処理,新しいシミュレーションの作成,新しい理論の考案といった知性主導の作業のボトルネックを解消することで)変革的な科学的加速の両方を促進することができる[52].

GPT-4oの外部レッドチームには,科学的能力のモデルを引き出すことを目的とした数名の専門科学者が含まれていた.

GPT-4oは,専門的な科学的推論を含むタスクで有望であった.

レッドチームの一人は,GPT-4oが研究レベルの量子物理学を理解できることを発見した(図1).

この能力は「より知的なブレインストーミングのパートナーとして有用である」とコメントしている.

仮説生成のためのGPT-4レベルモデルの使用に関する発表された研究[55]と一致する.

また,レッドチームは,GPT-4oが,特注のデータフォーマット,ライブラリ,プログラミング言語の使用や,新しいツールの学習など,ドメイン固有の科学ツールを使用できることを発見した.

GPT-4o Figure1
図1:量子物理学実験のレッドチームの例

多くの科学的知識は図に含まれている.

GPT-4oはこのような図や他の科学的表現の画像を解釈できることがあった.

例えば,構造の画像からタンパク質ファミリーを特定したり,細菌の増殖における汚染を解釈したりすることができた.

しかしながら,これは時に信頼性に欠け,テキスト抽出のミスはよくあり(特に科学用語や塩基配列),複雑なマルチパネルの図ではエラーが頻発する(図2).

現在の正確性レベルであっても,これらのモデルのマルチモーダルな機能により,例えば,新しい金属合金を設計するためのシミュレーション出力の解釈など,新しい用途が可能になりつつある[56].

GPT-4o Figure2
図2:マルチパネルの図の解釈のレッドチームの例

最近,科学的能力に関する新たな評価が発表され[57, 58],これらのモデルの科学的能力とその影響を予測するのに役立っている.

5.4節:Underrepresented Languages(代表的でない言語)

GPT-4oは,歴史的に代表的でない言語のサンプルにおいて,読解力と推論力の向上を示し,これらの言語と英語との成績の差を縮めている.

GPT-4oのテキストでの性能を,歴史的にインターネットテキストにあまり使われてこなかった言語群の中から選んで評価するために,我々は外部の研究者や言語ファシリテーターと協力して,アフリカの5つの言語(アムハラ語,ハウサ語,北ソト語(セペディ),スワヒリ語,ヨルバ語)での評価を開発した.

※主な研究協力者は,デビッド・アデラニ博士,ジョナス・クゴモ,エド・ベイズ.

この初期評価では,2つの一般的な言語ベンチマークの翻訳と,アムハラ語,ハウサ語,ヨルバ語の言語固有の読解力評価の作成に焦点を当てた.

  • ARC-Easy:このAI2 Reasoning Challenge [59]ベンチマークのサブセットは,一般的な小学生の科学問題に答えるモデルの能力を評価することに重点を置いている.このサブセットには,一般的に回答が簡単で,複雑な推論を必要としない問題が含まれている.
  • TruthfulQA[60]:このベンチマークは,一部の人間が誤解のために誤って回答する可能性のある問題で構成されている.目的は,モデルがこれらの誤解を模倣した誤った回答を生成することを回避できるかどうかを確認することである.
  • Uhura-Eval:アムハラ語,ハウサ語,ヨルバ語を流暢に話す人々と協力して,我々の研究パートナーは,モデルのそれぞれの言語の読解力を評価するためにこのベンチマークを作成した.

GPT-4oは,GPT 3.5 TurboやGPT-4など以前のモデルと比べて性能が向上している.

例えば,ARC-Easy-Hausaでは,正確性がGPT 3.5 Turboの6.1%からGPT-4oの71.4%に跳ね上がった.

同様に,TruthfulQA-Yorubaでは,GPT 3.5 Turboの28.3%からGPT-4oの51.1%に正確性が向上した.

Uhura-Evalも顕著な向上を示している.

ハウサ語の性能は,GPT 3.5 Turboの32.3%からGPT-4oの59.4%に上昇した.

英語と選択された言語の間には依然として性能のギャップがあるが,GPT-4o はこのギャップを縮めている.

例えば,GPT 3.5 Turboでは,英語とハウサ語の間のARC-Easyの性能差はおよそ54%ポイントでしたが,GPT-4oでは20%ポイント未満に縮まった.

これは,TruthfulQAとARC-Easyの両方で,すべての言語で一貫している.

我々の共同研究パートナーは,他のモデルでの評価や潜在的な緩和戦略の調査も含め,近日中にこれらの調査結果についてさらに詳しく説明する予定である.

このように評価された性能には進歩が見られるものの,言語間のカバー範囲の広さや方言内のニュアンスの違いを考慮に入れながら,世界中の代表的でない言語に対する評価の質とカバー範囲を向上させるためには,まだ多くの課題が残されている.

今後の研究では,代表性の高い言語と代表性の低い言語の両方に対して,これらのモデルの有用性を向上させる可能性のある介入策やパートナーシップについての理解を深める必要がある.

我々の共同研究者と共に,翻訳されたARC-Easy翻訳されたTruthfulQA,およびHugging Faceの小説読解Uhura Evalを共有することで,さらなる探求と協力を呼びかける.

GPT-4o Table8
表8:翻訳されたARC-Easyの正確性(%,高いほど良い),0ショット

GPT-4o Table9
表9:翻訳されたTruthfulQAの正確性(%,高いほど良い),0ショット

GPT-4o Table10
表10:Uhura-Evalの正確性(%,高いほど良い),0ショット

6章:Conclusion and Next Steps(結論と次のステップ)

OpenAIは,GPT-4oの開発と展開のプロセスを通じて,様々な安全対策と緩和策を実施してきた.

我々の反復的なデプロイプロセスの一環として,我々は進化する状況に応じて,引き続き監視し,緩和策を更新していく.

我々は,このシステムカードが,オムニモデルの敵対的頑健性に関する測定と緩和策,擬人化と感情的過信に関連するリスク,広範な社会的影響(健康と医療への応用,経済的影響),科学的研究と進歩のためのオムニモデルの使用,自己改善,モデルの自律性,策謀のような危険な能力に関する測定と緩和策,ツールの使用がモデルの能力をどのように向上させるかを含む(ただし,これらに限定されない)主要分野のさらなる探求を促すことを願っている.

References(参考文献)

  1. OpenAI, “Hello gpt-4,” 2024.
  2. T. Stivers, N. J. Enfield, P. Brown, C. Englert, M. Hayashi, T. Heinemann, G. Hoymann, F. Rossano, J. P. de Ruiter, K. E. Yoon, and S. C. Levinson, “Universals and cultural variation in turn-taking in conversation,” Proceedings of the National Academy of Sciences, vol. 106, no. 26, pp. 10587–10592, 2009.
  3. The White House, “Fact sheet: Biden-harris administration secures voluntary commitments from leading artificial intelligence companies to manage the risks posed by ai,” 2023.
  4. OpenAI, “Openai preparedness framework beta,” 2023. https://cdn.openai.com/openai-preparedness-framework-beta.pdf.
  5. Shutterstock, “Shutterstock press release,” 2023.
  6. OpenAI, “Gpt-4 technical report,” 2023.
  7. OpenAI, “Gpt-4v(ision) system card.” https://openai.com/index/gpt-4v-system-card/, 2023. Accessed: 2024-07-22.
  8. OpenAI, “Navigating the challenges and opportunities of synthetic voices.” https://openai.com/index/navigating-the-challenges-and-opportunities-of-synthetic-voices/, 2024. Accessed: 2024-07-22.
  9. K. T. Mai, S. Bray, T. Davies, and L. D. Griffin, “Warning: Humans cannot reliably detect speech deepfakes,” PLoS One, vol. 18, p. e0285333, Aug. 2023.
  10. M. Mori, K. F. MacDorman, and N. Kageki, “The uncanny valley [from the field],” IEEE Robotics & automation magazine, vol. 19, no. 2, pp. 98–100, 2012.
  11. OpenAI, “How the voices for chatgpt were chosen,” 2024.
  12. I. Solaiman, Z. Talat, W. Agnew, L. Ahmad, D. Baker, S. L. Blodgett, C. Chen, H. D. I. au2, J. Dodge, I. Duan, E. Evans, F. Friedrich, A. Ghosh, U. Gohar, S. Hooker, Y. Jernite, R. Kalluri, A. Lusoli, A. Leidinger, M. Lin, X. Lin, S. Luccioni, J. Mickel, M. Mitchell, J. Newman, A. Ovalle, M.-T. Png, S. Singh, A. Strait, L. Struppek, and A. Subramonian, “Evaluating the social impact of generative ai systems in systems and society,” 2024.
  13. R. Shelby, S. Rismani, K. Henne, A. Moon, N. Rostamzadeh, P. Nicholas, N. Yilla, J. Gallegos, A. Smart, E. Garcia, and G. Virk, “Sociotechnical harms of algorithmic systems: Scoping a taxonomy for harm reduction,” 2023.
  14. S. L. Blodgett, Q. V. Liao, A. Olteanu, R. Mihalcea, M. Muller, M. K. Scheuerman, C. Tan, and Q. Yang, “Responsible language technologies: Foreseeing and mitigating harms,” in Extended Abstracts of the 2022 CHI Conference on Human Factors in Computing Systems, CHI EA ’22, (New York, NY, USA), Association for Computing Machinery, 2022.
  15. H. Suresh and J. Guttag, “A framework for understanding sources of harm throughout the machine learning life cycle,” in Equity and Access in Algorithms, Mechanisms, and Optimization, EAAMO ’21, ACM, Oct. 2021.
  16. S. Shahriar, S. Allana, S. M. Hazratifard, and R. Dara, “A survey of privacy risks and mitigation strategies in the artificial intelligence life cycle,” IEEE Access, vol. 11, pp. 61829– 61854, 2023.
  17. OpenAI, “Moderation overview,” 2024.
  18. A. Tamkin, M. Brundage, J. Clark, and D. Ganguli, “Understanding the capabilities, limitations, and societal impact of large language models,” 2021.
  19. B. Buchanan, A. Lohn, M. Musser, and K. Sedova, “Truth, lies, and automation: How language models could change disinformation,” May 2021.
  20. OpenAI, “Openai usage policies,” 2023. https://openai.com/policies/usage-policies/.
  21. OpenAI, “Building an early warning system for llm-aided biological threat creation,” 2024. https://openai.com/index/building-an-early-warning-system-for-llm-aided-biological-threat-creation/.
  22. Deloitte, “Deloitte acquires gryphon scientific business to expand security science and public health capabilities,” 2024. ttps://www2.deloitte.com/us/en/pages/about-deloitte/articles/press-releases/deloitte-acquires-gryphon-scientific-business-to-expand-security-science-and-html.
  23. L. Weidinger, M. Rauh, N. Marchal, A. Manzini, L. A. Hendricks, J. Mateos-Garcia, S. Bergman, J. Kay, C. Griffin, B. Bariach, I. Gabriel, V. Rieser, and W. Isaac, “Sociotechnical safety evaluation of generative ai systems,” 2023.
  24. A. Tamkin, A. Askell, L. Lovitt, E. Durmus, N. Joseph, S. Kravec, K. Nguyen, J. Kaplan, and D. Ganguli, “Evaluating and mitigating discrimination in language model decisions,” 2023.
  25. J. A. Goldstein, G. Sastry, M. Musser, R. DiResta, M. Gentzel, and K. Sedova, “Generative language models and automated influence operations: Emerging threats and potential mitigations,” 2023.
  26. I. Pentina, T. Hancock, and T. Xie, “Exploring relationship development with social chatbots: A mixed-method study of replika,” Computers in Human Behavior, vol. 140, p. 107600, 2023.
  27. Y. Bengio, G. Hinton, A. Yao, D. Song, P. Abbeel, T. Darrell, Y. N. Harari, Y.-Q. Zhang, L. Xue, S. Shalev-Shwartz, G. Hadfield, J. Clune, T. Maharaj, F. Hutter, A. G. Baydin, S. McIlraith, Q. Gao, A. Acharya, D. Krueger, A. Dragan, P. Torr, S. Russell, D. Kahneman, J. Brauner, and S. Mindermann, “Managing extreme ai risks amid rapid progress,” Science, vol. 384, no. 6698, pp. 842–845, 2024.
  28. S. B. Johnson, J. R. Clark, M. C. Luetke, N. M. Butala, A. T. Pearson, J. M. Shapiro, D. M. Aleman, J. M. Lee, M. M. Beil, C. V. Winkle, M. C. Boudreaux, R. C. D’Cunha, H. J. Krouse, and C. Li, “Chatgpt in medical education: a workshop-based large language model-powered intervention for evidence-based clinical decision making in medical students,” Nature Medicine, vol. 29, pp. 1534–1542, 2023.
  29. K. Kavukcuoglu, “Real-world challenges for agi,” Nov 2021.
  30. S. Altman, “Planning for agi and beyond,” OpenAI, 2023.
  31. T. Eloundou, S. Manning, P. Mishkin, and D. Rock, “Gpts are gpts: An early look at the labor market impact potential of large language models,” arXiv preprint arXiv:2303.10130, 2023.
  32. L. Weidinger, M. Rauh, N. Marchal, A. Manzini, L. A. Hendricks, J. Mateos-Garcia, S. Bergman, J. Kay, C. Griffin, B. Bariach, et al., “Sociotechnical safety evaluation of generative ai systems,” arXiv preprint arXiv:2310.11986, 2023.
  33. S. Cox, M. Hammerling, J. Lála, J. Laurent, S. Rodriques, M. Rubashkin, and A. White, “Wikicrow: Automating synthesis of human scientific knowledge,” Future House, 2023.
  34. S. A. Athaluri, S. V. Manthena, V. S. R. K. M. Kesapragada, V. Yarlagadda, T. Dave, and R. T. S. Duddumpudi, “Exploring the boundaries of reality: Investigating the phenomenon of artificial intelligence hallucination in scientific writing through chatgpt references,” Cureus, vol. 15, no. 4, p. e37432, 2023.
  35. Z. Li, “The dark side of chatgpt: Legal and ethical challenges from stochastic parrots and hallucination,” 2023.
  36. M. Dubiel, A. Sergeeva, and L. A. Leiva, “Impact of voice fidelity on decision making: A potential dark pattern?,” 2024.
  37. B. Waber, M. Williams, J. S. Carroll, and A. S. Pentland, “A voice is worth a thousand words: The implications of the micro-coding of social signals in speech for trust research,” in Handbook of Research Methods on Trust (G. M. Fergus Lyon and M. N. Saunders, eds.), ch. 23, p. 320, New York: Edward Elgar Publishing, 2011.
  38. I. Pentina, B. Guo, and W. P. Fan, “Friend, mentor, lover: Does chatbot engagement lead to psychological dependence?,” Journal of Service Management, 2023.
  39. H. Nori, N. King, S. M. McKinney, D. Carignan, and E. Horvitz, “Capabilities of gpt-4 on medical challenge problems,” arXiv preprint arXiv:2303.13375, 2023.
  40. H. Nori, Y. T. Lee, S. Zhang, D. Carignan, R. Edgar, N. Fusi, N. King, J. Larson, Y. Li, W. Liu, et al., “Can generalist foundation models outcompete special-purpose tuning? case study in medicine,” arXiv preprint arXiv:2311.16452, 2023.
  41. K. Singhal, S. Azizi, T. Tu, S. S. Mahdavi, J. Wei, H. W. Chung, N. Scales, A. Tanwani, H. Cole-Lewis, S. Pfohl, P. Payne, M. Seneviratne, P. Gamble, C. Kelly, N. Scharli, A. Chowdhery, P. Mansfield, B. A. y Arcas, D. Webster, G. S. Corrado, Y. Matias, K. Chou, J. Gottweis, N. Tomasev, Y. Liu, A. Rajkomar, J. Barral, C. Semturs, A. Karthikesalingam, and V. Natarajan, “Large language models encode clinical knowledge,” 2022.
  42. K. Singhal, T. Tu, J. Gottweis, R. Sayres, E. Wulczyn, L. Hou, K. Clark, S. Pfohl, H. Cole- Lewis, D. Neal, M. Schaekermann, A. Wang, M. Amin, S. Lachgar, P. Mansfield, S. Prakash, B. Green, E. Dominowska, B. A. y Arcas, N. Tomasev, Y. Liu, R. Wong, C. Semturs, S. S. Mahdavi, J. Barral, D. Webster, G. S. Corrado, Y. Matias, S. Azizi, A. Karthikesalingam, and V. Natarajan, “Towards expert-level medical question answering with large language models,” 2023.
  43. K. Saab, T. Tu, W.-H. Weng, R. Tanno, D. Stutz, E. Wulczyn, F. Zhang, T. Strother, C. Park, E. Vedadi, J. Z. Chaves, S.-Y. Hu, M. Schaekermann, A. Kamath, Y. Cheng, D. G. T. Barrett, C. Cheung, B. Mustafa, A. Palepu, D. McDuff, L. Hou, T. Golany, L. Liu, J. baptiste Alayrac, N. Houlsby, N. Tomasev, J. Freyberg, C. Lau, J. Kemp, J. Lai, S. Azizi, K. Kanada, S. Man, K. Kulkarni, R. Sun, S. Shakeri, L. He, B. Caine, A. Webson, N. Latysheva, M. Johnson, P. Mansfield, J. Lu, E. Rivlin, J. Anderson, B. Green, R. Wong, J. Krause, J. Shlens, E. Dominowska, S. M. A. Eslami, K. Chou, C. Cui, O. Vinyals, K. Kavukcuoglu, J. Manyika, J. Dean, D. Hassabis, Y. Matias, D. Webster, J. Barral, G. Corrado, C. Semturs, S. S. Mahdavi, J. Gottweis, A. Karthikesalingam, and V. Natarajan, “Capabilities of gemini models in medicine,” 2024.
  44. Epic Systems Corporation, “Epic and microsoft bring gpt-4 to ehrs,” Epic, 2023.
  45. D. Van Veen, C. Van Uden, L. Blankemeier, J.-B. Delbrouck, A. Aali, C. Bluethgen, A. Pareek, M. Polacin, E. P. Reis, A. Seehofnerová, et al., “Adapted large language models can outperform medical experts in clinical text summarization,” Nature medicine, vol. 30, no. 4, pp. 1134–1142, 2024.
  46. Epic, “Epic and microsoft bring gpt-4 to ehrs,” 2023.
  47. P. Garcia, S. P. Ma, S. Shah, M. Smith, Y. Jeong, A. Devon-Sand, M. Tai-Seale, K. Takazawa, D. Clutter, K. Vogt, C. Lugtu, M. Rojo, S. Lin, T. Shanafelt, M. A. Pfeffer, and C. Sharp, “Artificial Intelligence–Generated Draft Replies to Patient Inbox Messages,” JAMA Network Open, vol. 7, pp. e243201–e243201, 03 2024.
  48. OpenAI, “Paradigm: Improving patient access to clinical trials.” https://openai.com/index/paradigm/, 2024. Accessed: 2024-08-07.
  49. M. Hutson, “How ai is being used to accelerate clinical trials,” Nature, vol. 627, pp. S2–S5, 2024.
  50. OpenAI, “Using gpt-4o reasoning to transform cancer care.” https://openai.com/index/color-health/, 2024. Accessed: 2024-08-07.
  51. J. Varghese and J.-L. Chapiro, “Systematic analysis of chatgpt, google search and llama 2 for clinical decision support tasks,” Nature Communications, vol. 15, no. 1, p. 46411, 2024. Accessed: 2024-08-07.
  52. E. Schmidt, “Ai will transform science.” https://www.technologyreview.com/2023/07/05/1075865/eric-schmidt-ai-will-transform-science/, 2023. Accessed: 2024-08-07.
  53. N. Rosenberg, “Science, invention and economic growth,” The Economic Journal, vol. 84, no. 333, pp. 90–108, 1974.
  54. R. M. Atlas and M. Dando, “The dual-use dilemma for the life sciences: Perspectives, conundrums, and global solutions,” Biosecurity and Bioterrorism: Biodefense Strategy, Practice, and Science, vol. 4, no. 3, pp. 276–286, 2006. PMID: 16999588.
  55. X. Gu and M. Krenn, “Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models,” 2024.
  56. A. Ghafarollahi and M. J. Buehler, “Atomagents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence,” 2024.
  57. J. M. Laurent, J. D. Janizek, M. Ruzo, M. M. Hinks, M. J. Hammerling, S. Narayanan, M. Ponnapati, A. D. White, and S. G. Rodriques, “Lab-bench: Measuring capabilities of language models for biology research,” 2024.
  58. H. Cai, X. Cai, J. Chang, S. Li, L. Yao, C. Wang, Z. Gao, H. Wang, Y. Li, M. Lin, S. Yang, J. Wang, M. Xu, J. Huang, F. Xi, J. Zhuang, Y. Yin, Y. Li, C. Chen, Z. Cheng, Z. Zhao, L. Zhang, and G. Ke, “Sciassess: Benchmarking llm proficiency in scientific literature analysis,” 2024.
  59. P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, and O. Tafjord, “Think you have solved question answering? try arc, the AI2 reasoning challenge,” CoRR, vol. abs/1803.05457, 2018.
  60. S. Lin, J. Hilton, and O. Evans, “Truthfulqa: Measuring how models mimic human falsehoods,” CoRR, vol. abs/2109.07958, 2021.

付録A:Violative & Disallowed Content - Full Evaluations(違反コンテンツと許可されないコンテンツ - 完全な評価)

我々はTTSを使って,既存のテキストの安全性評価を音声に変換した.

そして,標準的なテキストルールベースの分類器で,音声出力のテキスト転写を評価した.

この評価には,2つの主要な指標がある.

  • not_unsafe:安全でない音声出力を生成するか?
  • not_overrefuse:モデルが良性のリクエストに応じないか?

また,より深刻度の高いカテゴリー,具体的には以下のようなサブ指標もある.

  • 性的/未成年
  • 性的/違法
  • 過激派/プロパガンダ
  • 非合法/暴力的
  • 非合法/非暴力
  • 自傷/命令

以下に,GPT-4o Voice Modeモデルの音声モードとテキストモード,および現在量産中のGPT-4oモデルのテキスト性能での評価結果を示す.

GPT-4o Table11
表11:現行GPT-4oと新GPT-4oのテキストと音声の安全性指標の比較

付録B:Sample tasks from METR Evaluations(METR評価のサンプルタスク)

GPT-4o Figure3
図3:METR評価のタスク例

参考:GPT-4o System Cardの解説動画

GPT-4o System Cardの解説動画です.

まとめ

GPT-4o System Cardの日本語訳を紹介しました.

OpenAIのGPT-4oがわかりました.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

-TECHNOLOGY, NLP AI
-, ,