・マンモグラフィ画像の乳房組織を分析し、密度評価を正確に推定する新たなディープラーニングモデルを開発。
・この評価は乳がんの独立したリスクファクターである。
・このモデルは、1枚の画像を1秒以下で処理し、病院全体に容易に伝達することができる。
米国では、乳がんの死亡率は、肺がん(女性の場合)以外のどの種類のがんよりも大幅に高くなっています。breastcancer.orgによると、米国では女性の約12.4%が生涯のうちに浸潤性乳がん【乳房内の最初の発生部位から周囲の正常組織へと広がったがん】を発症すると言われています。
マンモグラフィは、低出力のX線を利用して人間の乳房を分析し、検診や診断に利用する方法です。しかし、乳房の密度の高い組織は、マンモグラム【乳房X線写真】上のがんを覆い隠すため、このプロセスを困難にすることがあります。一般的に、乳房密度の評価は、主観的な人間の評価に依存しています。その結果は、いくつかの要因のため、放射線科医によって異なります。
このたび、マサチューセッツ総合病院(MGH)とマサチューセッツ工科大学の研究者らが、マンモグラムの高濃度乳房組織を正確に分析する自動ツールを構築しました。これは、数万枚の高精細デジタル・マンモグラムで訓練されたディープラーニングモデルで、異なる種類の乳房組織を区別する方法を学習できるようにしたものです。
このツールは、新しいマンモグラフィ画像を与えられると、専門の放射線科医と同じくらい信頼できる密度測定を検出することができます。研究者によると、この種のAIで、病院内の患者での実証に成功したのはこれが初めてとのことです。この技術は全国に広く普及させることができ、乳房組織の評価に高い信頼性をもたらすと考えているそうです。
トレーニング
このツールは、学習可能な重みとバイアスを持つニューロンで構成される畳み込みニューラルネットワークをベースにしています。2009年から2011年にかけて検診を受けた39,000人の女性からランダムに撮影された58,000枚以上のマンモグラフィ画像を含む豊富なデータセットで、ネットワークのトレーニングとテストを行いました。
これらの画像のうち、約41,000枚がトレーニングに、8,600枚がテストに使用されました。
それぞれの画像は、BI-RADS(breast imaging reporting and data system)の標準的な4つのグループの密度評価に分けられます。
1.不均一高濃度(ほとんど密な状態)
2.散在密度
3.高濃度
4.脂肪性
トレーニングおよびテスト段階では、40%近くが高濃度および不均一高濃度と評価されました。トレーニング段階の間中ずっと、ネットワークには評価のためにランダムなマンモグラフィ写真が供給されます。ネットワークは徐々に、専門家の密度評価と密接に一致するようにマンモグラムをマッピングすることを学習します。
たとえば、脂肪性の乳房組織のネットワークは全体的にグレーで薄く見えるのに対し、高濃度乳房は繊維や腺結合組織からなり、しっかりとした白い斑点や太い白線のネットワークとして密に見えます。テスト段階では、ネットワークは新しいマンモグラフィ画像を見て、最も可能性の高い密度グループを推定します。
このツールは、MGHの乳房画像診断部門に導入され、分離された機械に設置されました。通常、マンモグラムは、専門の放射線科医が行う評価のために生成され、施設に送られます。必要な検査をすべて行った後、専門の放射線科医は各マンモグラムに濃度評価を付けます。
専門の放射線科医が自分の施設でスキャンを取り出すと、このディープラーニングツールが付けた評価が表示され、それをさらに拒否したり受け入れたりすることができます。
成果
このネットワークは、マンモグラムを1枚処理するのに1秒もかからず、多額の費用と膨大な人手をかけずに、市内の病院全体に伝達することが可能です。
放射線科医による評価とディープラーニング(DL)による二値検査評価
研究者提供
2018年1月から5月にかけて、ネットワークは1万枚以上のマンモグラフィ写真を観察し、乳房が高密度で不均一か、散在で脂肪性かを判断しなければならない二値検査において、専門家の間で94%の一致を達成することができました。4つのBI-RADSグループすべてについて、90%の確率で専門家の意見と一致しました。
BI-RADSの4つのグループに対する放射線科医評価とディープラーニング(DL)評価
研究者提供
一般的なテスト(トレーニングデータセットに基づく)では、ネットワークは二値検査で87%の確率で放射線科医の解釈と一致し、4つのBI-RADSグループ全体で77%の確率で一致しました。
従来の予測手法では、カッパ係数と呼ばれる指標を用いており、これは、1が推定値が毎回一致することを表し、値が小さいほど一致するケースが少ないことを表しています。従来の手法ではカッパ係数は最大0.6でしたが、新モデルでは臨床応用で0.85、一般検査で0.76に達しています。このことは、このツールが従来の手法よりも優れた推定を行うことを明確に示しています。