・マイクロソフト社の新しい描画ボットは、テキストによる説明とキャプションを使ってどんな絵でも作成することができる。
・生成と識別の2つの機械学習モデルで構成されている。
・説明文に書かれていない細かい部分まで、AIが想像力を働かせて描くことができる。
・将来的には、脚本に基づいたアニメーションの制作に応用することができる。
ここ数年、漠然と描いた絵を洗練されたクリップアート【小サイズの画像データ】にする試みが数多く行われています。そんな中で、マイクロソフト社はより優れたものを思いつきました。
ディープラーニング(深層学習)技術に基づくこの最新のボット【一定のタスクや処理を自動化するためのアプリケーションやプログラム】は、テキストによる説明と、類似した絵の膨大なライブラリを使って、写実的な画像を作成することができるのです。
このAI(Microsoft Research Labでまだ開発中)は、メタテキストの説明文やキャプションから画像を生成する際に、個々の単語を分析するように設計されています。研究者は、この新しい技術によって、これまで最先端であった、テキストから画像への生成アプローチと比較して、3倍も優れた画質を実現できると主張しています。
では、実際にどのような技術が開発され、どのように動作しているのか、見てみましょう。
描画ボットとその人工的な想像力
「赤い翼と短いくちばしのある青い鳥を描いてください」と言われたら、おそらく大まかな輪郭から描き始めるのではないでしょうか。それから細部に移り、胴体を塗りつぶすために青色のペンを手に取るでしょう。そして、もう一度説明を読んで、赤色のペンで翼を描くでしょう。最後に、もう一度よく見て仕上げをするでしょう。この一連の作業をボットがやってくれるのです。
描画ボットは、道具やガジェットから生物まで、あらゆるものを絵にすることができます。よりリアルに見せるために、描かれていない部分まで描き込むことができ、想像力の豊かさがうかがえます。
この絵は、走り書き、しかも現実の世界に存在するかどうかもわからないものをもとにピクセル単位でゼロから作成されます。このプロセスでは、機械学習アルゴリズムが画像の欠落部分を推測し、想像するため、画像にキャプションを付けるよりも難しいタスクとなります。
画像の生成
この描画ボットは、AttnGAN(Attentional Generative Adversarial Network【注意機構敵対的生成ネットワーク】)と呼ばれ、描写を解析することで画像の複数の小領域の細かな情報を合成することができ、2つの機械学習モデルを持っています。
1.生成 – 説明文(テキスト)から画像を作成する。
2.識別 – 生成された画像の真偽を説明文から判断する。
この2つのモデルが連動して完成度を高めるのです。
このボットは、写真とキャプションが対になった何千ものデータセットで訓練され、システムが言葉と視覚表現を正確に一致させる方法を学習することができます。たとえば、キャプションに「象」という単語が含まれている場合、AttnGANは象の絵を作成することを学習し、同様に、象の写真がどのように見えるのかを学習します。
複雑な文章を理解するために、システムはテキストを個別の単語に分割し、これらの単語を写真の特定の領域にマッチングさせます。
学習段階では、システムは私たちが「常識」と呼んでいるものを学習します。そして、「人工的な常識的知識」を使って、想像で描かれた絵の細部を埋めていくのです。
AIが鳥を組み立てていく様子
上記の鳥の画像は、描画ボットで生成されたものです。鳥がいる場所については、特に細かい指定はありませんでした。それでも、空のような曖昧な背景に静止した鳥を置くのではなく、AIは鳥を枝に置くことを選択しており、人工的な想像力をはっきりと示しています。
システムはこの常識を、鳥がいるべき場所という学習データから学習しました。鳥を枝の上に置くという判断は、学習データの中のほとんどの写真が、飛んでいる鳥ではなく、枝の上にいる鳥の写真であったことの結果です。このように、与えられた指示以上のことを考える能力は、本当に凄いですね。
その他のAIによる創作物
研究者は、システムの豊かな想像力を推し進めるため、湖に浮かぶ2階建てバスの絵を描くよう指示しました。ところが、最もよく出来たものは、山々に囲まれた湖に浮かぶ2階建てバスと2つの甲板のあるボートのような、水滴のついた不鮮明な絵でした。これは、AIがバスの描写と、湖に浮かぶボートの描写の間で悩んでいたことを示しています。
結果と応用
新しいAIは、これまでの最先端技術よりもはるかに優れた性能を発揮し、難易度の高いCOCOデータセットで170.25%、CUBデータセットで14.14%もインセプションスコア【生成画像の評価値のひとつ】を向上させたことが報告されています。
このような技術は、インテリアデザイナーのスケッチアシスタントとして、あるいは音声による写真改良システムとして利用できる可能性があります。今のところ、このシステムは完璧ではないものの、将来、計算能力が上がれば、脚本に基づいたアニメーションを作成することも可能になるでしょう。
競合企業
もちろん、アートと人工知能を組み合わせた技術は、これが初めてではありません。ほとんどの場合、この2つが交わることによって魅力的な結果をもたらします。たとえば、Google AIは奇抜な機械生成の画像を描き、独自のアートショーを開催しました(2016年)。同社はまた、自動描画ボットや、描きたいものを推測してくれるニューラルネットワークも開発しています。
一方、Facebookは、車、船、動物などの基本的な画像を生成するために、ディープニューラルネットワーク【ニューラルネットワークをディープラーニングに対応させて4層以上に層を深くしたもの】を教えることに取り組んできました。また、写真から自分だけのBitmojiのようなアバターを作ることができるシステムにも取り組んでいます。さらに2017年には、NvidiaがCGで有名人を作るAIを開発しています。