NVIDIA社によるAI活用術！実世界の動画から仮想世界をすばやく作成する可能性

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、NVIDIA Develops AI That Creates Interactive Graphics From Real Worldを
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

792 views

読了時間 : 約2分23秒

・NVIDIA社の研究者たちが新しいタイプの動画間合成を実証。
・実世界の動画からインタラクティブな3D環境をレンダリングできる。
・2K解像度で30秒の動画を作成可能。

およそ20年前、NVIDIA社【アメリカの半導体メーカー】は世界初のGPUを開発し、3Dゲーム性能を大幅に飛躍させました。そして今回、開発者が実世界の動画から完全に合成されたインタラクティブな3次元環境をレンダリングできる人工知能ツールを発表しました。

現実世界のダイナミクスをモデル化して再現する能力は、知的エージェント【外界を知覚し、学習しながら外界に反応することができる、人工知能エージェント】の開発に不可欠です。

連続的な視覚体験を合成することは、コンピュータグラフィックスやロボット工学において様々な応用が可能です。これは、開発者が照明、マテリアル、シーン形状を指定することなく、リアルなシーンを作成するのに役立つ可能性があるのです。

今回の研究では、新しいタイプの動画間合成を実証しました。その目的は、入力映像を出力映像に効率的に変換できるマッピング関数を学習することです。研究チームは、ジェネレータと識別器、時空間敵対的学習を用いて、高解像度で時間的に一貫性のある映像を合成しました。

高度な描写をレンダリングするためのニューラルネットワークの使用

合成された3次元世界をリアルタイムでレンダリングするために、研究チームは条件付き生成ニューラルネットワークから始め、既存の動画でそれを学習させました。ネットワークは、車、建物、木などのオブジェクトのレンダリングを徐々に学習していきました。

既存の技術では、開発者は各オブジェクトを個別にモデル化する必要があり、これは時間もコストもかかる作業です。一方、新しいツールは、実際の映像から自動的に学習するモデルに基づいており、自動車、ゲーム、ロボット工学、建築、仮想現実のための仮想世界を作成することができます。

これは、実際の場所に基づいたインタラクティブな環境を作り出したり、好きなロックスターのように踊る人々を表示したりすることができます。このネットワークは、オブジェクトの位置や、画像のある部分を構成するものが建物か車か、といった一般的な属性を記述したエッジマップのような、3Dシーンのハイレベルな記述で動作します。そして、実世界のシーンを使用して詳細を埋めるのです。

このニューラルネットワークは、実際の都市部の動画で学習されました。研究チームは、このネットワークによってレンダリングされた仮想の都市世界をナビゲートできるデモを作成しました。シーンは合成的に作成されるため、仮想シーンのオブジェクトを編集、追加、修正するのは簡単です。

出典：研究チーム

報告書によれば、デモはNVIDIA Tensor Core GPU上で実行され、インタラクティブなグラフィックスの全く新しい体験を提供するということです。ニューラルネットワークは、NVIDIA Tesla V100 GPUを使用して、CUDA Deep Neural NetworkライブラリとともにDGX-1で学習されています。チームは、CityscapesとApolloscapesのデータセットから数千のクリップを選択し、ネットワークを学習させました。