・衛星画像を用いて、米国内のすべての建物をマッピングできる深層畳み込みニューラルネットワークが構築された。
・そのために、符号付き距離ラベルとSegNet(深層学習ネットワーク)を組み合わせた。
・56キロメートル四方の面積を1分以内に処理する。
ここ数年、高解像度のリモートセンシング【ものに触れずに計測する技術】の画像は安価で入手しやすくなっています。建物の抽出を自動化するための研究もいくつか行われていますが、信頼性の高い基礎伏図【建物の基礎の配置や形状を表示した平面図】の大規模データベースを構築することは、現在に至るまで課題として残されています。
OpenStreetMap【オープンデータの地理情報を作るプロジェクト】のVGI(Volunteered Geographic Information【ボランタリー地理情報】の略)を使えば、大規模な建物地図を得ることができますが、VGIの品質が平凡なため、データを洗練するのに膨大な労力を必要とします。このように、大規模な建物地図を作成するためには、自動化された拡張性のあるフレームワークがまだ構築されていないのです。
今回、オークリッジ国立研究所の開発者が、衛星画像を用いて、米国内のすべての建物をマッピングできる深層畳み込みニューラルネットワーク(CNN)を構築しました。これは、災害が発生する前と後の緊急計画に役立つ可能性があります。
どのように構築したのか?
アメリカ大陸全域の建物の伏図を抽出するために、研究者は4つの最先端の畳み込みニューラルネットワークの徹底的な分析を行いました。
1. 完全畳み込みニューラルネットワーク
2. 分岐型畳み込みニューラルネットワーク
3. 回帰型ニューラルネットワークとしての条件付き確率場(CRC)
4. SegNet
これらの深層学習技術はすべて、NAIP(National Agriculture Imagery Program【全国農業画像プログラム】の略)の1メートル解像度の航空写真でテストされました。4つの手法を徹底的に評価した結果、研究者はSegNet CNNアーキテクチャを選択しました。彼らは、建物の抽出結果を実例レベルにまで高めるために、符号付き距離ラベルをSegNetと融合させました。
主な目標は、個々の建物(空間的範囲)を正確に抽出することでした。そのために、2つのCNNモデル(追加のスペクトルバンドで学習)を組み合わせ、初期化には学習済みのモデルのパラメータ値を利用しました。
ペンシルバニア州の建物抽出(左)。赤線(右)はフィラデルフィア市(青枠)の抽出された建物。
研究者たちは、検証プロセスを通じて得られた単一の光学畳み込みニューラルネットワークモデルを用いて、GPUクラスターで滑らかな建物地図を作成しました。そして、その結果に対して品質チェックを行い、作為の誤謬の主要な原因をいくつか発見しました。この成果は、小規模な再訓練プロセスによってさらに改良されました。
このシステムは、NVIDIA Tesla GPUとcuDNNライブラリで加速されたCaffe深層学習フレームワークで学習しています。モデルを完全に学習させるためには、12万回以上の繰り返しが必要でした。そして、合計8台のTesla GPUが推論に使用されました。
最終的な結果は、より大規模で頑丈な建物抽出のための深層学習モデルの利用を実証しています。このモデルは、56キロメートル四方の面積を1分未満で処理します。研究者によると、この研究で得られた知見は、リモートセンシング画像に基づく将来の類似プロジェクトに役立つということです。
次のステップは?
今後、研究者は、マッピングシステムをさらに強化するために、マルチGPUトレーニングのための高性能コンピューティングリソースで同じ戦略をテストする予定です。また、これにより、より高度で複雑なネットワークアーキテクチャのテストが可能になります。
現在、GPUメモリの容量とGPUノード間の遅延時間が、バッチサイズと畳み込みニューラルネットワークアーキテクチャのサイズを制限しています。より多くの GPUメモリがあれば、開発者は建物抽出のために 1 つのCNNで 3 つ以上のスペクトルバンドを使用して、モデル性能を分析できるようになります。