・新しい機械学習アルゴリズムは、ニュース記事を拾い集めるだけでなく、情報源に着目し、フェイクニュースや偏ったニュースを検出します。
・新着記事で試した結果、最大70%の精度でした。
・たった150のコンテンツを見るだけで、その情報源が信頼できるかどうかが判断できます。
ソーシャルメディアの普及により、インターネット上で誰もが簡単に情報を共有し、拡散することができるようになりました。その結果、人々の感情を動かし政治選挙などの大きなイベントに影響を与える、あるいはアクセスを集め広告収入を得るために作成されたフェイクニュースが蔓延するようになりました。
多くのハイテク企業が独自のフェイクニュース検出システムの構築に多額の資金を投入しています。MITとカタール計算機研究所の研究者は、フェイクニュースを検出する時、個々の主張を分析するのではなく、ニュースソースに焦点を当てるべきだと考えています。
この考えに基づいて、情報源が信頼できるかどうかを判断する機械学習ベースの手法を新たに開発しました。基本的には、ニュースメディア全体を特徴づけ、報道の事実性を予測するものです。
偏った報道をどのように判断しているのか?
このシステムは、あるサイトが以前に誤った事実を公表したことがあれば、再び同じことがおこる可能性が高いと判断します。複数の同じようなサイトを分析することで、どのサイトが最初に間違ったことをしそうかをシステムが判断することができます。
フェイクニュースを確実に識別するには、記事の構造、複雑さ、感情などの共通言語的特徴を知る必要があります。例えば、ほとんどのフェイクニュースでは、感情的、主観的、誇張的な表現が使われています。
この研究では、以下の特徴を分析しています。
1・情報源の内容
2・TwitterとWikipedia
3・URL 構造
4•アクセス数
今回は、Media Bias/Fact Checkというウェブサイトからデータを集めました。このウェブサイトは、人間のレビュアーの助けを借りて、人気のあるメディアソースや薄いコンテンツファームを含む約2000のニュースサイトの事実と偏りを調査しています。
これらのデータは、レビューサイトと同じ形式で、情報源を分類するために開発された機械学習モデルとして発表されました。その結果、新しいニュース記事に対して、記事の事実性が低いか、中程度か、高いかを判断する精度は65%、内容が右寄りか、左寄りか、中程度かを判断する精度は70%と、素晴らしい結果を得ることができました。
画像元: MIT
研究者は、このシステムがたった150のコンテンツを見るだけで、情報源のウェブサイトが信頼できるかどうかを正確に判断できるとしています。そのため、フェイクニュースがインターネット上で広く拡散する前に、フィルタリングすることができます。
今後はどうなるのか?
研究者は現在、このシステムの精度を向上させ、従来の事実分析装置と連携して動作するように研究を進めています。もしシステムが特定のトピックで「おかしい、もしくは紛らわしい」記事を発見した場合、手動でレビューするプラットフォームを素早くチェックし、妥当性かどうかを判断することができます。
また、約1000のニュースサイトに正確さと偏りのスコアを付けたオープンソースのデータセットも作成しました。さらに、人々が政治的思考から抜け出せるようなモバイルアプリを開発する計画もあります。さらに、このシステムを他の言語でも使えるようにする予定です。また、右翼・左翼の他、他にもさまざまな分野で偏りをモデル化したいと考えています。
これらのアルゴリズムは、偽サイトがどのようなもので、どのような記事を掲載する傾向があるのかを理解するのに役立つでしょう。