・ディープラーニング【深層学習】を用いた新しいシステムにより、好きなダンサーの動きをミラーリングして見せることができるようになった。
・このアルゴリズムは高価な3Dデータやモーションキャプチャデータを必要とせず、高品質な動画を生成することができる。
人工知能(AI)は、電子機器との付き合い方から宇宙開発まで、すべてを変えようとしています。AIはテクノロジー産業にとって不可欠なものとなり、もう後戻りはできません。
最近、カリフォルニア大学の研究者たちが、ディープラーニングに基づくアルゴリズムを発表しました。これは、踊っている人の動きをひとつの動画から別の動画へ転送し、どんな対象者(素人)でもプロのダンサーのように見せることができる、というものです。
このアルゴリズムは、「私と同じようにする」というシンプルなアプローチに従っています。標準的な動きをしている対象者に動きを伝えるのにかかるのは数分です。これで世界的なバレリーナやマイケル・ジャクソンのようなポップスターに変身できるのですから、楽しみですね。
どんな仕組みなのか?
2つの被写体間の映像のひとコマごとに動きの伝達を行うため、開発者は2人の人物(元の人と対象者)の写真をマッピングしました。その結果、キーポイントを利用したポーズ(外観を写さずに身体の位置を符号化)が、2つの被写体間の中間表現として利用できることを発見しました。
そこで、彼らは棒状の人体図のような中間表現を考案しました。さらに、監視下アルゴリズムを用いて、対象映像の各コマの棒状図を取得しました。
元の人から対象者へ動きを伝達するために、学習させたモデルに棒状の人体図のポーズを与えます。これにより、元の人と同じポーズの対象者の映像が得られます。さらに、この2つのモジュールを統合して、結果の品質を向上させました。
全体的にみると、このタスクは3段階に分けられます。
1.ポーズの検出
2.全体的なポーズの基準化
3.棒状の人体図のポーズを対象者にマッピングする
時間的に滑らかな結果を得るために、現在のコマの棒状の人体図ポーズのデータと、以前に合成されたコマを組み合わせました。これにより、出力のジッター【映像の乱れ】を大幅に低減することができました。フレームレート【コマ数】の低い映像では中央値平滑化を、フレームレートの高い映像(120fps)ではキーポイントの時間的なガウス平滑化を用いました。
さらに、生成モデルの近似や細部まで鮮明な高画質を実現するために、敵対的生成ネットワークが追加されました。
条件付き敵対的生成ネットワークは、120fpsで撮影された様々なポーズをとる素人ダンサーのビデオで学習されます。各被験者は少なくとも20分の動画を投稿しています。
開発者は、推論と学習の両方に、CUDA深層学習フレームワークで加速されたPyTorchを搭載したNVIDIA GeForce GTX 1080 TiとTITAN Xp GPUを使用しました。画像変換アルゴリズムは、NVIDIAが設計したpix2pixHDアーキテクチャをベースにしています。
次の課題は?
このアルゴリズムは、高価な3Dデータやモーションキャプチャデータを必要とせず、様々な映像被写体間で動作が伝達される映像を生成することが可能です。
ただし、まだ完璧ではありません。時間的な干渉性と事前平滑化というキーポイントを統合していますが、その結果、ジッタリングに悩まされることがよくあります。また、学習時の動作と動作速度が一致しない場合にもエラーが多発します。
こういった問題を解決するために、研究者たちは現在、動きの転送に最適化された様々なポーズ推定技術に取り組んでいます。