●新しいディープラーニングアルゴリズムにより、エディターはシーン内の1フレームをカラーリングすることで、動画全体を素早くカラーリングすることができます。
●高精度かつ効率的で、従来の方法に比べて最大50倍のスピードで処理することができます。
動画はフレーム間の冗長なデータで構成されており、モノクロのフレームを一つ一つ手作業でカラーリングするのは膨大な時間を要します。このような冗長性は、ビデオのエンコードや圧縮では広く検討されていますが、クリップのカラー化などの高度なビデオ処理ではあまり検討されていません。
連続するフレーム間の局所的な関係を処理してデータを伝播するアルゴリズム(バイラテラルCNNモデル、類似性誘導フィルタリング、オプティカルフローベースワーピングなど)は数多く存在します。
これらは、フレームやピクセル間の類似性をモデル化するために、見かけの動きやあらかじめ設計されたピクセルレベルの特徴を使用します。
しかし、これらのアルゴリズムにはいくつかの限界があり、例えば、フレーム間のハイレベルな関係を表現できず、画像の構造を正確に反映することができません。
これらの制約を克服するため、NVIDIAの開発者は、ディープラーニング手法に基づく新しいアルゴリズムを開発し、編集者がシーン内の1フレームをカラーリングすることで、クリップ全体を迅速にカラーリングすることを可能にしました。
どのような仕組みになっているのか?
連続するフレーム間の高度な類似性をあきらかにするために、開発者は、あるフレームの特徴(色など)を別のフレームに伝達するための伝搬成分からなる時間伝搬ネットワークを開発しました。これを行うために、Convolutional Neural Network(CNN)で駆動する線形変換行列を使用します。CNNは、カラー化されたフレームからどのような色を移すべきかを決め、残りのモノクロフレームを塗りつぶします。
この技術は他のものとどう違うのか?編集者が画像の一部に注釈を入れるというインタラクティブな手法で、より良いカラーリングを実現し、完成度を高めました。
時間領域における学習伝播のために、開発者は以下の2つのルールを適用しています。
1.フレーム間の伝搬は反転可能でなければならない
2.ターゲットとなる要素はプロセス全体を通して保存されなければならない
提案された技術は、画像ベースのセグメンテーション手法を必要とせず、既存の最先端手法に匹敵する結果を得ることが出来ました。
このネットワークの学習には、NVIDIA Titan XP GPUが使用されました。ハイダイナミックレンジ、カラー、マスクプロパゲーションのために、いくつかのデータセットから数百のクリップでトレーニングされました。 ネットワークは、約600,000フレームを持つ7,260のビデオシーケンスでパックされたACTデータセット上で構成されています。
提案手法のメリット
1.高い精度を実現: 本手法は、従来と比較して、より優れた映像品質を実現しています。
2.高い効率性を実現: リアルタイムで実行されるため、従来の方法と比較して最大50倍以上の高速化を実現しました。また、すべてのビデオフレームを並列処理することで、さらに効率を高めています。
現在の技術は、クリップのデータを時間的に伝播させる簡単な方法を提供しています。
今後、開発者は、トレース、セマンティック、セグメンテーションのような高レベルの視覚的手がかりを時間的伝播に組み込む方法を検討予定です。