まるでプロのダンサー？驚くべきAI技術！

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、New Artificial Intelligence Can Turn Anyone Into A Professional Dancerを
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

932 views

読了時間 : 約2分9秒

・ディープラーニング【深層学習】を用いた新しいシステムにより、好きなダンサーの動きをミラーリングして見せることができるようになった。
・このアルゴリズムは高価な3Dデータやモーションキャプチャデータを必要とせず、高品質な動画を生成することができる。

人工知能（AI）は、電子機器との付き合い方から宇宙開発まで、すべてを変えようとしています。AIはテクノロジー産業にとって不可欠なものとなり、もう後戻りはできません。

最近、カリフォルニア大学の研究者たちが、ディープラーニングに基づくアルゴリズムを発表しました。これは、踊っている人の動きをひとつの動画から別の動画へ転送し、どんな対象者（素人）でもプロのダンサーのように見せることができる、というものです。

このアルゴリズムは、「私と同じようにする」というシンプルなアプローチに従っています。標準的な動きをしている対象者に動きを伝えるのにかかるのは数分です。これで世界的なバレリーナやマイケル・ジャクソンのようなポップスターに変身できるのですから、楽しみですね。

どんな仕組みなのか？

2つの被写体間の映像のひとコマごとに動きの伝達を行うため、開発者は2人の人物（元の人と対象者）の写真をマッピングしました。その結果、キーポイントを利用したポーズ（外観を写さずに身体の位置を符号化）が、2つの被写体間の中間表現として利用できることを発見しました。

そこで、彼らは棒状の人体図のような中間表現を考案しました。さらに、監視下アルゴリズムを用いて、対象映像の各コマの棒状図を取得しました。

元の人から対象者へ動きを伝達するために、学習させたモデルに棒状の人体図のポーズを与えます。これにより、元の人と同じポーズの対象者の映像が得られます。さらに、この2つのモジュールを統合して、結果の品質を向上させました。

全体的にみると、このタスクは3段階に分けられます。

1.ポーズの検出
2.全体的なポーズの基準化
3.棒状の人体図のポーズを対象者にマッピングする

時間的に滑らかな結果を得るために、現在のコマの棒状の人体図ポーズのデータと、以前に合成されたコマを組み合わせました。これにより、出力のジッター【映像の乱れ】を大幅に低減することができました。フレームレート【コマ数】の低い映像では中央値平滑化を、フレームレートの高い映像（120fps）ではキーポイントの時間的なガウス平滑化を用いました。

さらに、生成モデルの近似や細部まで鮮明な高画質を実現するために、敵対的生成ネットワークが追加されました。

条件付き敵対的生成ネットワークは、120fpsで撮影された様々なポーズをとる素人ダンサーのビデオで学習されます。各被験者は少なくとも20分の動画を投稿しています。

開発者は、推論と学習の両方に、CUDA深層学習フレームワークで加速されたPyTorchを搭載したNVIDIA GeForce GTX 1080 TiとTITAN Xp GPUを使用しました。画像変換アルゴリズムは、NVIDIAが設計したpix2pixHDアーキテクチャをベースにしています。