・深層学習に基づく新しいアルゴリズムは、最小限の学習データを用いて、動く生物の体の部位を追跡&ラベル付けしてくれます。
・このアルゴリズムは、計算上のボディモデル、時間データ、棒グラフを全く必要としません。
あらゆる生物種の脳を理解するためには、その行動を正確に数値化することが必要です。ビデオトラッキングは、さまざまな構成で動物の行動を観察・記録するにあたって、最良の選択肢の一つです。分析を大幅に簡素化しつつ、体の一部を高精度にトレースすることを可能にしてくれます。
しかし、詳細な調査のために行動の特定の側面を抽出するのは、面倒で時間のかかる工程でしょう。既存のコンピュータベースのトラッキングでは、体の一部をマーカーで強調する反射型マーキングを使用していますが、この方法では記録する前にマーカーの位置や数を決定する必要があります。
今回、ハーバード大学とチュービンゲン大学の研究者らは、動いている生物の体の一部を自動的に追跡してラベルを付ける「DeepLabCut」というAIツールを開発しました。このマーカーレス姿勢推定技術は、最小限の学習データで適切な結果が得られる深層学習法に基づいています。
具体的に何をしたのでしょうか?
研究者らは、最近開発された多人数の姿勢推定モデルである「DeeperCut」の特徴量検出器の構造を調べました。その結果、200枚ほどの学習写真があれば、このニューラルネットワークの学習は人間並みの精度を実現できることを示しました。
これは、あるタスクで学習したモデルを関連する別のタスクに適用する機械学習手法である、転移学習により可能になりました。この研究では、深層ニューラルネットワークに基づく特徴量検出器を巨大なデータセット(ImageNet)で事前に学習させることで、物体を認識させました。
そのため、このロバストな特徴量検出器は、より少ないフレーム(数百フレームほど)にラベルを付けるだけで訓練することができます。また、一度学習させれば、実験に関連する広範囲の身体部位の位置を突き止めることができます。
研究者らは、匂いを用いて誘導するナビゲーションタスクにおいて、耳、鼻、尾根を追跡することでDeepLabCutの能力を実証しました。また、3D空間内で、ミバエの複数の部位も追跡しました。
このニューラルネットワークは、CUDAディープラーニングフレームワークでアクセラレートされたTensorFlowを用いて、NVIDIA Titan XpとGeForce GTX 1080 TiのGPUで学習されています。このような強力なハードウェアを使えば、682×540サイズのフレームを30fpsで処理することができるのです。
このツールは、ビデオから抽出した姿勢の推定値に基づいて、リアルタイムにフィードバックすることができます。さらに、入力されたフレームを種ごとに合わせて切り取って処理速度を向上させたり、ネットワークアーキテクチャを適応させて処理時間を短縮させたりすることもできます。
DeepLabCutは下記の4つのステージに分かれています。
1.動画からラベル付けのために複数のフレームを抽出する
2.ラベルを使って学習データを生成する
3.必要な特徴量のセットに合わせてニューラルネットワークを学習する
4.ラベルのないデータからこれらの特徴量の位置を抽出する
どのように役立つのでしょうか?
上述の方法は、計算上のボディモデルや時間データ、スティックフィギュア、複雑な推論アルゴリズムを必要としません。コンピュータビジョンの点で質的に異なる課題を持つような複数の行動に対して、迅速に展開することができます。
研究者らは、DeepLabCutをショウジョウバエ、マウス、ウマで実証しましたが、確かにこの方法には制限がなく、他の種にも適用可能でしょう。
動物をビデオ撮影して追跡することで、動物のバイオメカニクスに関する新たな知見を得て、脳の機能を理解するのに役立てることができるのです。人間の場合だと、理学療法の技術を向上させたり、スポーツ選手が過去には不可能だった目標を達成したりするのに役立つことでしょう。