・新しいAIは、動画内の複数のシーンを最適に分割し、各シーンにメタデータのタグを付けます。
・テキスト入力で検索できるビデオコンテンツの転置インデックスを生成します。
・ユーザーや企業が新しい方法でビデオコンテンツを利用しやすくなります。
近年、ビデオコンテンツの量が大幅に増加しているため、違う種類のビデオを効率的に管理、配信、および推奨するのに役立つテクノロジーを開発する必要があります。 視聴者やデータアナリストでさえ、ビデオコンテンツや探している情報の場所を見つけるのが難しい場合があります。
そのため、複数の章からなる動画のコンテンツを取得、要約、分類する動画シーン検出ツールを用意しています。 基本的に、ビデオシーンの検出は、ビデオを論理的にシーンを一時的に分割するプロセスです。 シーンは、ストーリーを分割したショットのセットであり、各ショットはいくつかのフレームで構成されています。
現在、IBMの研究により、ビデオから特定のシーンを効率的に検出できる新しい手法が構築されました。 これは、ユーザーや組織が新しい方法でビデオコンテンツを利用するのに役立ちます。 しかし、すでに同じタスクを実行するメソッドはたくさんあります。では、これは他と何が違うのでしょうか?
シーンの検出に「正規化されたコスト」を使用する
ビデオは複数のシーンに分割され、AIは各シーンにメタデータ(発生場所、進行状況、主演者など)をタグ付けして、コンテンツに必要な情報を追加します。 これにより、ビデオコンテンツの転置インデックスがテキスト入力で作成され検索できるようになります。
研究者は、これを行うために、グループ化を最適にするプロセスとしてシーン検出タスクを形式化しました。 彼らは、ビデオ内のショットを表す特徴と、それらの間の類似性/非類似性を計算するための距離行列に従って、分割に最適なポイントを選択しました。
彼らは、短いシーンの兆候やシーンの長さが大きく変化する場合などの難しいシナリオでも最適に機能する正規化されたコスト関数を開発しました。 これで、正確で偏りのない分割になり、望ましい数学的定式化を提供できます。
さらに、ディープニューラルネットワークを使用して、シーン内のセマンティックコンポーネントを効率的に取得しました。 ネットワークは相関コンポーネントを正確に識別し、詳細な理解が必要なシーンパーティションを可能にします。
研究者はクリップをつけて、ショット境界検出を適用し、音声と視覚の両方の特徴を利用して個々のショットのベクトルを抽出しました。 これにより、ショットの各ペア間の距離を測定することができました。
理想的な距離のマトリックスと実際のマトリックス | 研究者からの提供
異なるシーンからのショットは距離値が高くなり、同じシーン内のショットは距離値が低くなるという考え方です。 場面の選択が適切だと、各ブロックがシーンを表す斜めのブロック形状のレイアウトを表す事ができます。 もちろん、実際のクリップでは、距離の列は理想的に見えませんが、ブロック構造を観察することはできます。
提案の仕方の概要
次のステップは、距離値に対するコスト関数を使用して最適化を定式化することです。 コスト関数を最小化することで、最適なシーン分割が実現できます。
利点
この手法にはいくつかの大きな利点があります。機密性の高いパラメータが含まれていないため、さまざまな種類のコンテンツに適用できるようにメソッドを微調整する必要はありません。 また、新しい方法により、シーン分割プロセスが迅速になります。
この手法は、シーケンシャルデータの最適化問題として定式化されているため、データ分析(変化点の検出)やオーディオの分割など、他でも機能します。
さらに、包括的な評価は、この手法が既存の最先端の方法よりも優れていることを明確に示しています。