・MITの研究員は、Wikipediaのページで自動的古い情報を見つけ、置き換えるシステムを開発しました。
・ツールは、人が書いたような文法と構成を維持し、文章を書き直します。
オンライン百科事典には、頻繁にアップデートと収集を必要とする、数百もの文章が含まれています。例えばWikipediaは、300以上の異なる言語による、4,000万以上の記事から成り立っています。英語版のWikipediaのみ、600万の記事において35億もの言葉があります。
また、時間に敏感で継続してアップデートが必要な記事が、何百万もあります。一部の更新にはコンテンツの変更が含まれ、他の更新には既存の記事の拡張が必要です。
MITの研究者は、修正が既存の記事と矛盾する以前のシナリオに、焦点を合わせてきました。彼らは、Wikipediaで古くなった文章を自動で書き直したり、事実上の矛盾を自動でアップデートするテキスト生成ツールを開発しました。
このツールは、関連する記事で特定の情報を見つけ、書き換えます。人と同じような書き方や編集方法で記事を書き換えるところが、とても印象的なツールです。
このツールによって、文章や名前、場所、日付、番号のアップデートを人間の編集者が定期的に変更する際にかかる時間を、節約することができます。数百もの人がWikipediaの記事を変更する代わりにひつような人数が、ほんの数人になるのです。
どのように動作するか
ツールは、人が文法やスタイルを心配せず、アップデートされたデータで非構造化された文の入力をするためのインターフェースを提供します。これは自動的に、Wikipediaの関連ページや古い文章にピンポイントを当てます。
新しいデータでの入力は一貫し、既存の記事の残りの部分に収まる必要があります。研究者は、この制約のある生成タスクを解決するための2段階の解決策を提案しました。これには、Wikipediaページから入力して古くなった文と、更新された競合するデータで構成される、別のクレーム文が含まれます。
1.特定のクレームの、ターゲットテキスト内の矛盾する要素を検出して削除します
2.残りのテキストを展開して、指定されたクレームと一致するようにします。
最初のステップは、中和スタンスモデルを使用して達成され、2番目のステップは、コピーアテンションを備えたユニークな2エンコーダシーケンス間の方法を使用して達成されます。
事実に基づいた更新パイプライン
研究者は、“SARI”スコアでモデルを評価しました。これは、人間の編集者が文を書く方法と比較して、マシンが単語を追加、保持、削除する能力を示します。彼らは、新しいモデルが事実情報を正確にアップデートするのを発見しました。既存の生成技術よりも優れ、また、より人に似た文法やスタイルで文章を書いていたのです。
モデルのパフォーマンスは、クラウドソーシングされた人間でもテストされました。文法のマッチングでは平均スコアが3.85(5までのうち)、および実際の更新で4つの平均スコアを達成しました。
他のアプリケーション
この調査結果は、モデルを使用してデータセットを増強し、「偽のニュース」検出器をトレーニングする際のバイアスを除去できることも示しています。この研究では、研究者は拡張データセットを使用して(手動で追加情報を収集することなく)、標準の偽ニュース検出器のエラー率を13%削減することができました。
今後数年の間に研究者は、インターネットからの最新情報を識別、および使用して、更新された情報を反映しつつウィキペディアの関連ページに書き換え、文の生成ができる、完全自動化モデルの開発を試みます。