・新しいスタイルの転送アルゴリズムは、ニューラルネットワークを使用して見事に芸術的な組み合わせを作成します。
・効率的でコンテンツの親和性を維持する線形スタイルの転送フレームワークを使用します。
・このアルゴリズムは、画像とビデオの両方をリアルタイムで変更できます。
スタイル転送モデルは、インプットとして画像を受け取り、前者の外観と合成し、後者の外観で合成します。このようなモデルは、ここ数年で構築されたものです。ただし、サイズが非常に大きく、印象的な結果を出力するには多数の計算リソースが必要です。
既存のモデルはうまく機能しますが、特徴の共分散を調べたり、合成された画像にアーティファクトを生成したりすることはできません。言い換えれば、ビデオや画像のようにリアルなスタイル設定など、より多くのアプリケーションに対応する機能が制限されています。
これらのモデルを強化するために、カリフォルニア大学とNVIDIAの研究者は、効率的かつ効果的なスタイル転送のための機械学習手法を作成しました。
使い方について
研究者は、線形スタイルの転送フレームワークの理論的分析を提示しました。彼らは変換行列を開発し、スタイル転送で広く使用されているスタイル再構築の目的にそれらを接続しました。彼らは、線形変換法の最適化がスタイル再構成の損失を減らすことができることを示しました。
これにより、2つの軽量畳み込みニューラルネットワーク(CNN)が、GPUに大きな負荷をかける計算(SVD分解など)を置き換えて、画像を変更できるようになります。このモデルは、複数レベルのスタイル変更をリアルタイムで実装できます。実際、私たちはそれを使用して画像とビデオの両方を変更することができます。
新しい変換行列の学習方法は、より効率的(毎秒140フレームを処理)、柔軟性(1つの行列にさまざまなスタイルを組み合わせる)であり、変換プロセス中にコンテンツの類似性の品質を維持します。
親和性が保持されるため、アルゴリズムは歪みのない画像スタイルの転送結果を作成できます。これは、フォトリアリスティックなスタイルの転送に特に役立ちます。両側ガイドアップサンプリング手法のような従来のフィルターを使用してこれらを処理し、優れたオブジェクト境界でフォトリアリスティックな結果をレンダリングすることができます。
モデルの効率を実証するために、彼らは4つのスタイルの転送タスクでアルゴリズムをテストしました:ビデオと画像-現実的なスタイルの転送や芸術的なスタイルの転送、ドメインの適応。
CNNは、NVIDIA TITAN Xp GPUとCUDAディープニューラルネットワークフレームワークによって高速化されたPyTorchを使用して、風景、人、動物、移動するオブジェクト(MS-COCOデータセットとWikiArt百科事典から取得)の80,000枚以上の写真でトレーニングされています。
全体として、このアルゴリズムは、さまざまなトレーニングデータを作成するための安価で効率的なソリューションを提供します。これは、い視力の問題に役立つ可能性があります。
研究者によると、彼らのモデルはユーザーがより現実的なコンテンツを作成するのに役立ち、絵を描くのが苦手な人にとっては非常に役立ちます。これは、実際のアプリケーションでより目立つ場合があります。たとえば、リアルタイムレンダリングやバーチャルリアリティヘッドセットで利用できます。