AIガードレールとは【大規模言語モデルの安全や信頼】

悩んでいる人

AIガードレールを教えて！

こういった悩みにお答えします．

本記事の信頼性

リアルタイムシステムの研究歴12年．
東大教員の時に，英語でOS（Linuxカーネル）の授業．
2012年9月～2013年8月にアメリカのノースカロライナ大学チャペルヒル校（UNC）コンピュータサイエンス学部で客員研究員として勤務．C言語でリアルタイムLinuxの研究開発．
プログラミング歴15年以上，習得している言語: C/C++，Python，Solidity/Vyper，Java，Ruby，Go，Rust，D，HTML/CSS/JS/PHP，MATLAB，Verse（UEFN）, Assembler (x64，aarch64)．
東大教員の時に，C++言語で開発した「LLVMコンパイラの拡張」，C言語で開発した独自のリアルタイムOS「Mcube Kernel」をGitHubにオープンソースとして公開．
2020年1月～現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務．2022年6月～現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO．
最近は自然言語処理AIとイーサリアムに関する有益な情報発信や，Unreal Editor for Fortnite（UEFN）でゲーム開発に従事．

（AI全般を含む）自然言語処理AIの論文の日本語訳や，AIチャットボット（ChatGPT，Auto-GPT，Gemini（旧Bard）など）の記事を50本以上執筆．アメリカのサンフランシスコ（広義のシリコンバレー）の会社でChatGPT/Geminiを訓練するプロンプトエンジニア・マネージャー・Quality Assurance（QA）の業務委託の経験あり．
（スマートコントラクトのプログラミングを含む）イーサリアムや仮想通貨全般の記事を200本以上執筆．イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり．
UEFNで10本以上のゲームを開発し，フォートナイト上で公開（Fortnite，Fortnite.GG）．

こういった私から学べます．

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ．

: 【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト【初心者，中級者，上級者】【Triton/Mojo言語】【データサイエンス】

こういった悩みにお答えします．こういった私から学べます．【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト AIのプログラミング言語「C++/Python言語」を学 ...

続きを見る

独学が難しいあなたは，AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう．後悔はさせません！

: AI（人工知能）を学べるおすすめのオンラインプログラミングスクール3社【AIチャットボットやAIバスケロボが作れます】

こういった悩みにお答えします．こういった私から学べます．今すぐ学びたいあなたは，AIを学べるおすすめのオンラインプログラミングスクール3社は下表になります． AI（人工知能）とは AI（人工知能） ...

続きを見る

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のAIエンジニアのおすすめ求人サイト【転職エージェント】【C++/Python言語】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のAIエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． AIエンジニアになるためには，主にC++/Pytho ...

続きを見る

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のプロンプトエンジニアのおすすめ求人サイト【転職エージェント】【AIチャットボット，ChatGPT，Auto-GPT，Gemini（旧Bard）】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のプロンプトエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． ※プロンプトエンジニアのことを，AIトレーナー ...

続きを見る

AIガードレール

AIガードレール（AI guardrails）とは，AIシステムが安全で信頼が高く，望ましい挙動を保つために設けられる制約や安全策のことです．

AIガードレールには，技術的な側面と倫理的な側面の両方が含まれています．

AIが不適切な出力を生成したり，予期せぬリスクを生じたりしないように設計されています．

AIガードレールは，特に大規模言語モデルによる生成AIのように幅広い用途で活用されるシステムにとって非常に重要です．

以下が主なAIガードレールの例です．

コンテンツのフィルタリング：AIが不適切または危険なコンテンツ（暴力，差別，偏見など）を生成しないようにするためのフィルタリング機能が設けられています．例えば，OpenAIのChatGPTは，ユーザにとって有害な情報や危険なアドバイスを回避するよう設計されています．

倫理的および法的規範の順守：AIが個人情報保護や差別禁止といった倫理的・法的基準に従うよう，開発プロセスにおいて倫理基準が設定されています．また，開発者はAIの挙動が法律に反しないように調整を行います．

偏見（バイアス）の除去：AIは訓練データに基づいて出力を生成しますが，データに偏りがあるとAIも偏見を持つ可能性があります．このため，AIを訓練する際に，できる限り偏見を排除する工夫がされています．

説明可能性と透明性：ガードレールの一環として，AIの意思決定プロセスを理解しやすくし，透明性を高める努力が行われています．これにより，ユーザがAIの出力がどのようにして生成されたかを理解しやすくし，信頼性を確保します．

安全性の検証とテスト：AIシステムを実際に使用する前に，さまざまなシナリオでテストし，安全性を確保するプロセスもガードレールに含まれます．これは，予期せぬ挙動を防ぐために非常に重要です．

フィードバックと改善の仕組み：実際にユーザからのフィードバックを得る仕組みを取り入れ，AIの出力が問題を起こした場合に迅速に修正・改善することもガードレールの一部です．

目的に応じた制限：AIが特定の用途でのみ使われるように制限することもガードレールの一環です．たとえば，医療診断用AIは他の領域での使用が制限される場合があります．

これらのAIガードレールが適切に機能することで，AIの活用が安心・安全なものになり，ユーザがより信頼して利用できるようになります．

AIガードレールの解説記事や論文

AIガードレールの解説記事や論文は以下になります．

大規模言語モデル（LLM）の課題を克服するガードレールが担う役割とは

生成AIも安全運転！　注目を集める「LLM用のガードレール」とは何か　AIの事故を防ぐために企業がすべきこと

未来を守る: AI におけるガードレールの重要な役割

モデルの入出力から有害な言葉を取り除く

LLMにガードレールを適用してビジネスリスクを抑制する

What are AI guardrails?

Guardrails for avoiding harmful medical product recommendations and off-label promotion in generative AI models

AIガードレールの解説動画

AIガードレールの解説動画です．

AIガードレールを実現する代表的なソフトウェア・モデル

AIガードレールを実現する代表的なソフトウェア・モデルは以下になります．

NeMo Guardrails

Llama Guard

Constitutional chain

Guardrails AI

LLM Guard

Patronus Lynx

ActiveFence

NeMo Guardrailsの使い方は以下の記事や動画が詳しいです．

NeMo Guardrails により LLM の脆弱性を防ぐ: 導入編

NeMo-Guardrailsを試してみる

NVIDIA NeMo Guardrails

NeMo Guardrails: The Missing Manual

まとめ

AIシステムが安全で信頼性が高く，望ましい挙動を保つために設けられる制約や安全策「AIガードレール（AI guardrails）」を紹介しました．

AIガードレールは，大規模言語モデルによる生成AIにとって非常に重要です！