・深層学習を搭載した新しいシステムでは、テキストベースの長い説明文から自動的に画像を生成することができます。
・研究者たちは、レシピを入力として受け取りゼロから写真を構築するネットワークを実現しました。
短い視覚的記述から画像を生成することは、困難ですがやりがいのある取り組みであり、コンピュータビジョンの分野には多くのアプリケーションがあります。最近の研究により、Generative Adversarial Networks (GAN)が、低解像度で変動の少ない画像から高品質でリアルな画像を効果的に合成できると証明されています。
イスラエルのテルアビブ大学の研究チームが最近発表した論文は、この分野の研究を加速させるものでした。彼らは、深層学習を用いて、テキストベースの説明文から自動的に画像を作成できる深層学モデルを構築しました。
レシピの簡単な文章から、完成した料理の画像を生成するシステムを実現したのです。このシステムでは、最高水準のStacked GANと、料理のレシピや料理の画像に対するクロスモーダルな埋め込み学習を組み合わせて使用しています。
CGAN(条件付きGAN)
基本的に、GANは互いに競合するように学習した2つのモデル(生成器と識別器)で構成されています。生成器は元のデータ分布に似た画像を合成するように設計されています。識別器の役割は元の画像と合成画像を区別することです。
この研究では、生成器と識別器の両方に特定の条件を考慮させる「CGAN」を用いています。また、セマンティック正則化と非セマンティック正則化という2種類の埋め込み技術が提案されています。これらの手法は下記の3つのステップから成ります。
1.材料と調理方法の初期埋め込み
2.レシピ全体を結合したニューラル埋め込み
3.高レベルな分類目標を用いた意味的正則化損失の統合
このCGANは、52,000件のテキストベースのレシピと、それに対応する写真で学習されています。学習には NVIDIA TITAN X GPU と CUDA Deep Neural Network ライブラリが使用されています。学習後、システムは視覚情報を含まない長い説明文から、レシピがどのような見た目となるかを予想し、その画像を構築しました。
人間から見た評価
このネットワークは、レシピを入力として受け取り、テキストベースの料理の説明を最もよく反映した画像をゼロから作成します。非常に素晴らしいことに、システムはレシピのタイトルにアクセスできないようにされています。この条件の下では、人間であってもレシピから画像を生成することは難しいでしょう。
合成画像をよりよく評価するために、30人に最も魅力的な画像を5段階で評価してもらいました。それぞれの埋め込み手法によって生成された結果の画像をランダムに選び、対応する10組ずつ提示しました。
その結果、非セマンティック正則化の場合はセマンティック正則化の場合よりも,写真のように細部まで鮮明な画像を生成できることがわかりました。本物の画像と合成画像を区別するのが非常に難しいと感じる人も実際にいました。
また、どちらの埋め込み手法も、サラダ、スープ、ご飯などの「おかゆのような」食べ物の絵を作ることには成功しましたが、チキン、ハンバーガー、飲み物などの特徴的な形をした食べ物の絵を作ることには苦戦しました