TECHNOLOGY NLP AI

【日本語訳】Video generation models as world simulators【Sora】【OpenAI】

悩んでいる人

Video generation models as world simulatorsの日本語訳を教えて!

こういった悩みにお答えします.

本記事の信頼性

  • リアルタイムシステムの研究歴12年.
  • 東大教員の時に,英語でOS(Linuxカーネル)の授業.
  • 2012年9月~2013年8月にアメリカのノースカロライナ大学チャペルヒル校(UNC)コンピュータサイエンス学部で客員研究員として勤務.C言語でリアルタイムLinuxの研究開発.
  • プログラミング歴15年以上,習得している言語: C/C++PythonSolidity/Vyper,Java,Ruby,Go,Rust,D,HTML/CSS/JS/PHP,MATLAB,Assembler (x64,ARM).
  • 東大教員の時に,C++言語で開発した「LLVMコンパイラの拡張」,C言語で開発した独自のリアルタイムOS「Mcube Kernel」GitHubにオープンソースとして公開
  • 2020年1月~現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務.2022年6月~現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO.
  • 最近は自然言語処理AIイーサリアムに関する有益な情報発信に従事.
    • (AI全般を含む)自然言語処理AIの論文の日本語訳や,AIチャットボット(ChatGPT,Auto-GPT,Gemini(旧Bard)など)の記事を50本以上執筆.アメリカのサンフランシスコ(広義のシリコンバレー)の会社でプロンプトエンジニア・マネージャー・Quality Assurance(QA)の業務委託の経験あり.
    • (スマートコントラクトのプログラミングを含む)イーサリアムや仮想通貨全般の記事を200本以上執筆.イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり.

こういった私から学べます.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

Video generation models as world simulatorsの日本語訳を紹介します.

OpenAIのSoraがわかります.

OpenAIのSoraは,「無限の創造的可能性」を意味する日本語の「空」にちなんで名付けられました.

また,Soraのランディングページも合わせて読むことをおすすめします.

※図表を含む論文の著作権はVideo generation models as world simulatorsの著者に帰属します.

Video generation models as world simulatorsの目次は以下になります.

  • Abstract
  • 1章:Introduction
  • 2章:Turning visual data into patches
  • 3章:Video compression network
  • 4章:Spacetime latent patches
  • 5章:Scaling transformers for video generation
  • 6章:Variable durations, resolutions, aspect ratios
  • 7章:Language understanding
  • 8章:Prompting with images and videos
  • 9章:Image generation capabilities
  • 10章:Emerging simulation capabilities
  • 11章:Discussion
  • References

※訳注:1章はタイトルがないのでIntroductionと表記しました.また章番号がないので追加しました.

Video generation models as world simulatorsを解説しつつ,私の考えも語ります.

Video generation models as world simulatorsの概要と私の日本語訳は以下になります.

We explore large-scale training of generative models on video data.
我々は,動画データに対する生成モデルの大規模な訓練を探求する.

Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios.
具体的には,様々な時間,解像度,アスペクト比の動画と画像に対して,テキスト条件付き拡散モデルを共同で訓練する.

We leverage a transformer architecture that operates on spacetime patches of video and image latent codes.
動画と画像の潜在コードの時空間パッチ上で動作するTransformerアーキテクチャを活用する.

Our largest model, Sora, is capable of generating a minute of high fidelity video.
我々の最大のモデルであるSoraは,1分間の忠実度の高い動画を生成することができる.

Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
我々の結果は,動画生成モデルのスケーリングが,物理世界の汎用シミュレータを構築するための有望な道であることを示唆している.

https://openai.com/research/video-generation-models-as-world-simulators

私の日本語訳の注意点は以下になります.

  • 概要は英語と日本語を両方掲載しましたが,本文は私の日本語訳のみを掲載していること(英語で読みたいあなたは原文を読みましょう!)
  • 基本的には原文の直訳ですが,わかりにくい箇所は意訳や説明を追加している箇所があること
  • 原文の「Acknowledgements」(謝辞)は省略していること
  • 本文中に登場する表記「[1,2,3]」などは参考文献ですので,興味がある方は本記事の参考文献を参照されたいこと

それでは,Video generation models as world simulatorsの本文を読みすすめましょう!

1章:Introduction(はじめに)

※訳注:プロンプトの原文と日本語訳を追加しました.東京の新宿のような場所ですね.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.
プロンプト:暖かく光るネオンとアニメーションの街の看板で埋め尽くされた東京の通りを,スタイリッシュな女性が歩いている.

She wears a black leather jacket, a long red dress, and black boots, and carries a black purse.
黒のレザージャケットに赤いロングドレス,黒のブーツを履き,黒いハンドバッグを持っている.

She wears sunglasses and red lipstick.
サングラスをかけ,赤い口紅を塗っている.

She walks confidently and casually.
彼女は自信に満ち,さりげなく歩いている.

The street is damp and reflective, creating a mirror effect of the colorful lights.
通りは湿っていて反射し,色とりどりのライトの鏡のような効果を生み出している.

Many pedestrians walk about.
多くの歩行者が歩いている.

https://openai.com/sora

本テクニカルレポートでは,(1)あらゆる種類のビジュアルデータを,生成モデルの大規模学習を可能にする統一的な表現に変換する手法,および(2)Soraの能力と限界の定性的評価に焦点を当てる.

モデルと実装の詳細は本レポートには含まれていない.

多くの先行研究では,リカレントネットワーク[1,2,3],敵対的生成ネットワーク[4,5,6,7],Autoregressive Transformer[8,9],拡散モデル[10,11,12]など,様々な手法を用いた動画データの生成的モデリングが研究されている.

これらの研究は,狭いカテゴリーの視覚データ,短い動画,または一定のサイズの動画に焦点を当てることが多い.

Soraは視覚データの汎化モデルであり,様々な時間,アスペクト比,解像度にまたがる動画や画像を生成することができ,最大1分の動画まで可能である.

2章:Turning visual data into patches(視覚データをパッチに変える)

我々は,インターネット規模のデータで訓練することで汎化能力を獲得する大規模言語モデルからヒントを得ている[13,14].

LLMパラダイムの成功は,テキスト,数学,様々な自然言語の多様なモダリティをエレガントに統合するトークンの使用によって可能になった部分もある.

本研究では,視覚データの生成モデルが,このような利点をどのように継承できるかを検討する.

LLMがテキストトークンを持つのに対し,Soraは視覚パッチを持つ.

パッチは視覚データのモデルにとって効果的な表現であることが以前に示されている[15,16,17,18].

我々は,パッチが多様な種類の動画や画像に対して生成モデルを訓練するための,拡張性の高い効果的な表現であることを発見した.

高度なレベルでは,まず動画を低次元の潜在空間に圧縮し[19],次に表現を時空間パッチに分解することで,動画をパッチに変換する.

3章:Video compression network(動画圧縮ネットワーク)

視覚データの次元を削減するネットワークを訓練する[20].

このネットワークは生の動画を入力とし,時間的にも空間的にも圧縮された潜在表現を出力する.

Soraはこの圧縮された潜在空間内で訓練され,動画を生成する.

また,生成された潜像をピクセル空間にマップする対応するデコーダモデルも訓練する.

4章:Spacetime latent patches(時空間潜在パッチ)

圧縮された入力動画が与えられると,Transformerトークンとして機能する時空間パッチのシーケンスを抽出する.

画像は1フレームの動画に過ぎないので,この方式は画像にも有効である.

パッチベースの表現により,Soraは様々な解像度,時間,アスペクト比の動画や画像に対して訓練することができる.

推論時には,ランダムに初期化されたパッチを適切なサイズのグリッドに配置することで,生成される動画のサイズを制御することができる.

5章:Scaling transformers for video generation(動画生成用Transformerのスケーリング)

Soraは拡散モデル[21,22,23,24,25]であり,入力されたノイズの多いパッチ(およびテキストプロンプトのような条件付け情報)が与えられると,元の「clean」(きれいな)パッチを予測するように訓練される.

重要なのは,Soraは拡散Transformerである[26].

Transformerは,言語モデリング[13,14],コンピュータビジョン[15,16,17,18],画像生成[27,28,29]など,様々な領域で顕著なスケーリング特性を実証している.

この研究では,拡散Transformerが動画モデルとしても効果的にスケールすることを発見した.

以下に,シードと入力を固定した動画サンプルの,訓練の進行に伴う比較を示す.

訓練の計算量が増えるにつれて,サンプルの品質は著しく向上する.

※訳注:プロンプトは見つかり次第追加します.

基本計算

4倍速計算

32倍速計算

6章:Variable durations, resolutions, aspect ratios(可変の持続時間,解像度,アスペクト比)

これまでの画像や動画生成のアプローチでは,標準的なサイズ,例えば256x256の解像度で4秒の動画にリサイズ,クロップ,トリミングするのが一般的であった.

その代わりに,本来のサイズのデータで訓練することで,いくつかの利点が得られることがわかった.

6.1節:Sampling flexibility(サンプリングの柔軟性)

Soraは,ワイドスクリーンの1920x1080p動画,タテの1080x1920動画,そしてその中間のすべてをサンプリングすることができる.

これにより,Soraは様々なデバイス向けのコンテンツをネイティブのアスペクト比で直接作成することができる.

また,同じモデルでフル解像度のコンテンツを作成する前に,より小さいサイズで素早くプロトタイプを作成することができる.

6.2節:Improved framing and composition(フレーミングと構図の改善)

我々は経験的に,本来のアスペクト比の動画で訓練することで,構図とフレーミングが改善されることを発見した.

Soraを,生成モデルを訓練する際によく使われる,すべての訓練動画を正方形に切り抜くバージョンと比較する.

正方形にトリミングされたモデル(左)は,被写体が一部しか映っていない動画を生成することがある.

それに比べ,Soraの動画(右)はフレーミングが改善されている.

※訳注:プロンプトは見つかり次第追加します.

7章:Language understanding(言語理解)

text-to-video生成システムの訓練には,対応するテキストキャプションを持つ大量の動画が必要である.

我々は,DALL-E 3[30]で導入されたリキャプション技術を動画に適用する.

まず,高度に記述的なキャプションモデルを訓練し,そのモデルを用いて,訓練セットのすべての動画に対してテキストキャプションを生成する.

記述性の高い動画キャプションを訓練することで,動画の全体的な品質だけでなく,テキストの忠実度も向上することが分かる.

また,DALL-E 3と同様に,GPTを活用して,短いユーザプロンプトを長い詳細なキャプションに変換し,動画モデルに送信している.

これにより,Soraはユーザのプロンプトに正確に従った高品質の動画を生成することができる.

※訳注:原文では多くの動画が紹介されているので是非観ましょう!

Prompt: a toy robot wearing a green dress and a sun hat taking a pleasant stroll in Johannesburg, South Africa during a winter storm
プロンプト:冬の嵐の中,南アフリカのヨハネスブルグを散歩する,緑のドレスと日よけ帽子をかぶったおもちゃのロボット.

8章:Prompting with images and videos(画像と動画によるプロンプティング)

上記とランディングページの結果はすべて,text-to-videoのサンプルである.

しかし,Soraは既存の画像や動画など,他の入力も可能である.

この機能により,Soraは様々な画像や動画の編集作業を行うことができる.

完璧なループ動画の作成,静止画像のアニメーション化,動画の時間的前方または後方への延長などである.

8.1節:Animating DALL-E images(DALL-Eの画像のアニメーション)

Soraは画像とプロンプトを入力として動画を生成することができる.

以下に,DALL-E 2[31]とDALL-E 3[30]の画像から生成した動画の例を示す.

Prompt: A Shiba Inu dog wearing a beret and black turtleneck.
プロンプト:ベレー帽と黒のタートルネックを着た柴犬.

Prompt: Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.
プロンプト:フラットデザインで描かれたモンスターのイラスト.毛むくじゃらの茶色のモンスター,アンテナを持ったなめらかな黒いモンスター,斑点のある緑のモンスター,小さな水玉模様のモンスターが,遊び心のある環境の中で交流している.

Prompt: An image of a realistic cloud that spells “SORA”.
プロンプト:「SORA」と書かれたリアルな雲の画像.

Prompt: In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.
プロンプト:華麗な歴史的ホールで,巨大な高波がピークに達し,砕け始める.二人のサーファーがその瞬間をとらえ,巧みに波打ち際を進んでいく.

8.2節:Extending generated videos(生成動画の拡張)

Soraはまた,動画を時間的に前後に延長することもできる.

下の4つの動画は,生成された動画のセグメントから始まって,すべて時間的に後ろに延長されたものである.

その結果,4つの動画はそれぞれ他の動画とは異なる始まり方をしているが,4つの動画はすべて同じ結末を迎えている.

この方法を使えば,動画を前方にも後方にも伸ばして,シームレスな無限ループを作ることができる.

8.3節:Video-to-video editing(Video-to-Videoの編集)

拡散モデルによって,テキストプロンプトから画像や動画を編集するための多くの方法が可能になった.

以下では,これらの手法の一つであるSDEdit[32]をSoraに適用する.

この手法により,Soraは入力動画のスタイルや環境をZero-Shotで変換することができる.

※訳注:原文では「change the setting to be in a lush jungle」(舞台を緑豊かなジャングルに変える)だけでなく多くの出力動画が紹介されているので是非観ましょう!

Input video(入力動画)

change the setting to be in a lush jungle(舞台を緑豊かなジャングルに変える)

8.4節:Connecting videos(動画の接続)

また,Soraを使って2つの入力動画の間を徐々に補間することで,被写体やシーンの構図が全く異なる動画間のシームレスなトランジションを作成することもできる.

下の例では,中央の動画が左右の動画の間を補間している.

9章:Image generation capabilities(画像生成機能)

Soraは画像を生成することもできる.

これは,ガウシアンノイズのパッチを1フレームの時間的広がりを持つ空間グリッドに配置することで行う.

このモデルは,2048x2048の解像度までの様々なサイズの画像を生成することができる.

Prompt: Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
プロンプト:秋の女性をクローズアップで撮影,ディテールを極端に,被写界深度を浅く

Prompt: Vibrant coral reef teeming with colorful fish and sea creatures
プロンプト:色とりどりの魚や海の生き物で溢れる鮮やかなサンゴ礁

Prompt: Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details
プロンプト:リンゴの木の下にいる若い虎のデジタルアート

Prompt: A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2
プロンプト:居心地の良いキャビンとオーロラディスプレイのある雪の山村,高精細で写実的なデジタル一眼レフカメラ,50mm F1.2

10章:Emerging simulation capabilities(新たなシミュレーション能力)

我々は,動画モデルが大規模に訓練されたときに,多くの興味深い出現能力を示すことを発見した.

これらの能力により,Soraは物理的な世界の人,動物,環境のいくつかの側面をシミュレートすることができる.

これらの特性は,3Dやオブジェクトなどに対する明示的な帰納的バイアスなしに現れる.

純粋にスケールの現象である.

3Dの一貫性:

Soraはダイナミックなカメラモーションを持つ動画を生成することができる.

カメラが移動したり回転したりすることで,人物やシーンの要素が3次元空間を一貫して移動する.

長距離コヒーレンスとオブジェクトの永続性:

動画生成システムにとって重要な課題は,長い動画をサンプリングする際に時間的一貫性を維持することである.

我々は,Soraが短距離と長距離の依存関係を効果的にモデル化できることを発見した.

例えば,我々のモデルは,人や動物や物体がフレームから外れても,その存在を維持することができる.

同様に,1つのサンプルで同じキャラクタの複数のショットを生成し,動画全体を通してその外観を維持することができる.

世界と対話する:

Soraはときどき,世界の状態に単純な影響を与える行動をシミュレートすることができる.

例えば,画家がキャンバスに新しいストロークを残したり,人がハンバーガーを食べて噛み跡を残したりすることができる.

デジタル世界のシミュレーション:

Soraは人工的なプロセスをシミュレートすることもできる.

Soraは,Minecraftのプレーヤーを基本的な方針でコントロールすると同時に,世界とそのダイナミクスを忠実にレンダリングすることができる.

このような能力は,「Minecraft」というキャプションでSoraをプロンプトすることで,Zero-Shotで引き出すことができる.

これらの能力は,動画モデルの継続的な拡張が,物理的・デジタル的世界と,その中で生きる物体,動物,人間の高度な能力を持つシミュレータの開発に向けた有望な道であることを示唆している.

11章:Discussion(議論)

Soraは現在,シミュレータとして多くの限界を見せている.

例えば,ガラスが割れるような基本的なインタラクションの多くは,物理を正確にモデル化していない.

食べ物を食べるような他の相互作用は,常にオブジェクトの状態を正しく変化させるとは限らない.

我々は,長時間のサンプルで発生する不整合や,オブジェクトの突発的な出現など,モデルのその他の一般的な失敗モードをランディングページに列挙している.

今日のSoraの能力は,動画モデルの継続的なスケーリングが,物理的・デジタル的世界と,その中で生きる物体,動物,人間の有能なシミュレータの開発への有望な道であることを示していると信じている.

References(参考文献)

  1. Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.
  2. Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
  3. Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
  4. Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).
  5. Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
  6. Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
  7. Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
  8. Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).
  9. Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.
  10. Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).
  11. Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
  12. Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
  13. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
  14. Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
  15. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
  16. Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.
  17. He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
  18. Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).
  19. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
  20. Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).
  21. Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.
  22. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.
  23. Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.
  24. Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.
  25. Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.
  26. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
  27. Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.
  28. Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.
  29. Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.
  30. Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8.
  31. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.
  32. Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).

参考:Video generation models as world simulatorsの解説動画

Video generation models as world simulatorsの解説動画です.

参考:X(旧Twitter)で公開されているSoraで作られた動画

X(旧Twitter)で公開されているSoraで作られた動画です.

OpenAIのCEOのサム・アルトマンが様々な人からのリクエストに答えて生成しているSoraの動画もあります.

※先述した動画と内容が重複しているものもあります.

まとめ

Video generation models as world simulatorsの日本語訳を紹介しました.

OpenAIのSoraがわかりました.

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ.

独学が難しいあなたは,AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう.後悔はさせません!

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ.

-TECHNOLOGY, NLP AI
-, , ,