・人物の画像があれば、新しいニューラルネットワークでその人物のさまざまなポーズを作り出すことができます。
・複雑な課題を小さく分割し、それらを1つの生成ニューラルネットワークとして一緒に動かすことで機能します。
人間には無数の想像力があります。頭の中に誰かを思い浮かべることができれば、その人が動いている姿を必ず想像することができます。一方、機械にはこのような能力はありません。
この度、MITのエンジニアが革命を起こしました。ヨガのような活動をしている人の画像を見て、その人に新しいポーズを割り当てるAI(人工知能)を構築したのです。
このシステムは、さまざまな活動にわたってこのタスクを実行することができ、たとえば、クリケット場でバドミントンラケットを振っている人のようなおかしな画像を作成することができます。AIは写真を撮って、特定の動作の動画を生成することもできます。このシステムは、この作業に特化しているわけではないので、非常に興味深いです。
どのように進化したのか?
画像を現実のように見せるためには、背景や人物の元の姿を残し、新しい姿勢に合わせた体のパーツを組み合わせる必要があります。陰影や輪郭を完璧に保ちながら、新しい組み合わせを作るのは簡単ではありません。
ポーズが異なると、画像は多数の可動部や噛み合わせなど、複雑な変化をします。また、背景にじゃまな物がない時は、適切な物で埋める必要があります。特に、影や縞模様、視覚的なズレが姿勢に影響しない場合、作成するのが難しくなる可能性があります。
これらの問題を解決するため、彼らは数千枚の写真とそれと同じポーズの学習モデルを撮影しました。ソース画像と2次元のターゲットポーズを入力し、最終的な写真を作成しました。
ネットワーク・アーキテクチャ | 画像元: MIT CSAIL
基本的な考え方は、複雑な作業を、画像ごとに異なる一連の単純な「サブタスク」に分割し、それらを1つの生成ニューラルネットワークとして一緒に作成するということです。これまで、この種の研究は、入力フレームから動きと外観のデータを統合するネットワークしかありませんでした。
このシステムは、ソース画像を背景レイヤーと、異なる身体部位に関連する複数の前景レイヤーに分割するものです。前景レイヤーを多重に分割することで、身体のパーツを目標位置で空間移動させることができます。
次に、体のパーツ(ターゲットポーズで異なる位置にある)を微調整して融合し、新しい前景レイヤーを合成して、同時に背景を適切なコンテンツで個別に塗りつぶします。
最後に、背景と前景のレイヤーを結合して、ターゲット画像を形成します。すべてのタスクは1つのネットワークとして組みこまれ、教師ありラベルとして(1つのターゲットポーズを使用して)連続して訓練されます。
研究者は、ワークアウトやヨガ、ゴルフやテニスをする人々の250以上のYouTube動画からキャプチャした画像で、このネットワークのデモンストレーションを行いました。
画像元: arXiv:1804.07739 | MIT CSAIL
その結果、このネットワークは、与えられたポーズを正確に転送し、再構築することができることがわかりました。
また、一連のポーズと元画像を組み合わせて、一連の動作を動画にまとめることも可能です。
今後はどうなるのか?
顔や手、背景の微妙なニュアンスを再現するのに苦労することがあります。また、人がカメラに背を向けている場合、一部のアクティビティ(フィギュアスケートやダンスなど)は再現することができません。
今後、このシステムをアップデートして、動画を作成し、3次元のポーズで何ができるかを分析する予定です。
研究者は、このネットワークの次期バージョンは、いくつかの用途で現実化するだろうと言っています。例えば、選手が正しいフォームでプレーしているかを可視化したり、自動運転車がさまざまな角度から将来の行動を予測するのに役立てたりすることができるようになります。