・NVIDIA社の研究者たちが新しいタイプの動画間合成を実証。
・実世界の動画からインタラクティブな3D環境をレンダリングできる。
・2K解像度で30秒の動画を作成可能。
およそ20年前、NVIDIA社【アメリカの半導体メーカー】は世界初のGPUを開発し、3Dゲーム性能を大幅に飛躍させました。そして今回、開発者が実世界の動画から完全に合成されたインタラクティブな3次元環境をレンダリングできる人工知能ツールを発表しました。
現実世界のダイナミクスをモデル化して再現する能力は、知的エージェント【外界を知覚し、学習しながら外界に反応することができる、人工知能エージェント】の開発に不可欠です。
連続的な視覚体験を合成することは、コンピュータグラフィックスやロボット工学において様々な応用が可能です。これは、開発者が照明、マテリアル、シーン形状を指定することなく、リアルなシーンを作成するのに役立つ可能性があるのです。
今回の研究では、新しいタイプの動画間合成を実証しました。その目的は、入力映像を出力映像に効率的に変換できるマッピング関数を学習することです。研究チームは、ジェネレータと識別器、時空間敵対的学習を用いて、高解像度で時間的に一貫性のある映像を合成しました。
高度な描写をレンダリングするためのニューラルネットワークの使用
合成された3次元世界をリアルタイムでレンダリングするために、研究チームは条件付き生成ニューラルネットワークから始め、既存の動画でそれを学習させました。ネットワークは、車、建物、木などのオブジェクトのレンダリングを徐々に学習していきました。
既存の技術では、開発者は各オブジェクトを個別にモデル化する必要があり、これは時間もコストもかかる作業です。一方、新しいツールは、実際の映像から自動的に学習するモデルに基づいており、自動車、ゲーム、ロボット工学、建築、仮想現実のための仮想世界を作成することができます。
これは、実際の場所に基づいたインタラクティブな環境を作り出したり、好きなロックスターのように踊る人々を表示したりすることができます。このネットワークは、オブジェクトの位置や、画像のある部分を構成するものが建物か車か、といった一般的な属性を記述したエッジマップのような、3Dシーンのハイレベルな記述で動作します。そして、実世界のシーンを使用して詳細を埋めるのです。
このニューラルネットワークは、実際の都市部の動画で学習されました。研究チームは、このネットワークによってレンダリングされた仮想の都市世界をナビゲートできるデモを作成しました。シーンは合成的に作成されるため、仮想シーンのオブジェクトを編集、追加、修正するのは簡単です。
出典:研究チーム
報告書によれば、デモはNVIDIA Tensor Core GPU上で実行され、インタラクティブなグラフィックスの全く新しい体験を提供するということです。ニューラルネットワークは、NVIDIA Tesla V100 GPUを使用して、CUDA Deep Neural NetworkライブラリとともにDGX-1で学習されています。チームは、CityscapesとApolloscapesのデータセットから数千のクリップを選択し、ネットワークを学習させました。
テスト
研究チームは複数のテストを実施し、定量的・定性的な結果を得たましたが、その結果、合成されたシーンは、既存の最先端の手法で生成されたものよりもリアルに見えることがわかりました。
この新しいAIは、2K解像度の30秒の動画を生成することができます。また、出力に対する高度な制御も可能です。例えば、シーンに木を追加したり、建物と置き換えたりすることが簡単にできるのです。
このアプローチは完璧ではなく、地図データが不十分なために旋回する車両をレンダリングするなど、いくつかのシナリオで失敗しています。しかし、これは深度マップのような3Dキューを統合することで解決できるはずです。
この研究は初期段階ではあるものの、この技術を応用することで、様々な領域の仮想環境をより簡単かつ安価に開発できるようになるでしょう。