Facebookが取り組む顔だけじゃない全身拡張現実

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、Facebook Is Working On Full Body Augmented Reality | Beyond Face Masksを
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

1,011 views

読了時間 : 約3分8秒

・Facebookは、顔だけでなく、体のさまざまな部分の動きをリアルタイムで正確に検出してトラッキングするモデルを開発しています。

・全身トラッキング、セグメンテーション技術は、Mask R-CNNフレームワークに基づいています。

・Facebook は、モバイルプロセッサに効率的に実装できる軽量版のフレームワークを開発しました。

スマホやタブレットで拡張現実アプリケーションをより適切に実行できるようにすることは、AppleやGoogleを含む多くの大手テクノロジー企業にとって最大の焦点の1つです。ほとんどの企業は拡張現実(AR)機能に簡単にアクセスできる方法を開発者が開発し、提供できるように必要なツールをリリースしています。

この流れに取り残されまいと、Facebook AIカメラチームは、人がかつてないほど自分自身を表現するのに役立つ創造的なツールの開発を目的として、拡張現実の分野に取り組んでいます。現在のリアルタイムで顔追跡ができるアプリケーションを使うと、ユーザはフィルターを適用したり、メイクを追加したり、アニ文字を作成したり、顔をアバターに置き換えることすらできます。

しかし、顔だけではなく全身のカスタムアニメキャラを作成してアバターと共有できるとしたらどうでしょうか。 Facebookが娯楽とコミュニケーションを目的として仮想現実と拡張現実の両方を研究していることは周知の事実です。今回、Facebookは一歩先を行き、体全体の追跡結果に修正を加えて置き換えることを目標にしています。

基本要件

全身を置き換えるためにまず重要なことは、身体のさまざまな部分の動きをリアルタイムで正確に検出して追跡することです。これは思うほど簡単ではありません。このようなモデルの開発には、さまざまなポーズや特徴があるため、いくつか複雑な問題があります。

たとえば、対象はショートパンツやロングコートを着ている可能性があり、人は同じシーン内の物体や他の人に邪魔されることがよくあります。これらの要因により、モバイル/タブレットカメラのみを使用する堅牢な全身トラッキング技術の開発は難易度が増します。

これまでのところ、チームは前景の人体のポーズを正確に検出し、背景から人をセグメント化(領域分割)できるシステムを構築してきました。軽量版(わずか数MB)のシステムは、まだ開発段階ですが、モバイル機器上でリアルタイムで実行されます。これにより、近い将来、ジェスチャーを使用したゲームの制御、ボディマスクの作成、人の匿名化など、多くの新しい応用が可能になるでしょう。

Mask R-CNN2Goアーキテクチャ

全身トラッキングとセグメンテーション技術は、Mask R-CNNフレームワークに基づくものです。これは、すべてのインスタンスに対して高品質のセグメンテーションマスクを同時に生成しながら、画像内のオブジェクトを検出する単純かつ柔軟なフレームワークです。

モバイル機器は、GPUサーバと比較してストレージと計算能力に制限があります。 ResNetに基づいた元のMask R-CNNモデルは非常に大きく、モバイル機器での実行に時間がかかります。したがって、研究者は、モバイルプロセッサに効率的に実装できる軽量版の開発を選択しました。

そのために、モデルのサイズを縮小し、畳み込みレイヤー(convolution layer)の数と各レイヤーの幅を調整しました。ここにほとんどの処理時間がかかります。

Mask R-CNNは、オブジェクトマスク予測ブランチをバウンディングボックス認識用の既存のブランチと統合することにより、Faster R-CNNを拡張します。他のタスクに一般化するのは簡単で、トレーニングも簡単です。 Mask R-CNNはFasterR-CNNにわずかにオーバーヘッドを追加し、5フレーム/秒で実行されます。

軽量Mask R-CNNには、5つの主要なモジュールがあります。

・トランクモデル – 画像の深層特徴表現を作成する複数の畳み込みレイヤーがあります。

・地域提案ネットワーク – 事前定義されたアスペクト比で候補オブジェクトを提案します。各オブジェクト境界ボックスから抽出された特徴は、検出ヘッドに送信されます。

・検出ヘッド – オブジェクトが人物であるかどうかを示し、指定された画像内のすべての人物の境界ボックスを生成します。

・キーポイントヘッド(KPH)とセグメンテーションヘッド(SH) – ROI-アラインレイヤーに入力を提供して特徴を抽出します。

・ KPHとSHは同様のアーキテクチャを備えており、体の事前定義されたすべてのキーのマスクを予測します。最終的な座標は、1回の最大スイープによって生成されます。

モジュラーデザイン、低電力化

深層学習アルゴリズムをリアルタイムで実行するために、コアフレームワークは最適化されています。 SNPE、Metal、NNPackなどのGPUおよびCPUライブラリを利用することで、エンジニアはモバイル機器の計算速度を向上させることができました。これらはすべて、スタンダードモデル定義を変更することなく、モジュラーデザインで行われます。

今のところ、Facebook AIカメラチームは、より効率的な設計につながり、バッテリー消費を抑えながらモバイルプロセッサにより適応可能な新しいモデルアーキテクチャに焦点を合わせています。