・研究者達は、対症療法感染症の症状が始まる前に防ぐことができる新しい機械学習モデルを開発しました
・この新しい方法は、L2正則化論理回帰法に基づいています
・このアルゴリズムによって診断がでる5日前に正確な予測ができます
アメリカでは年間29,000人が対症療法感染症、クロストリジウム・ディフィシル腸炎(CDI)といわれる病気によって亡くなっています。それは、空気中、土壌、水中、動物の糞の中に存在しています。このバクテリアは養護施設や病院のような入居者や患者さんに、従業員が接触することで広まります。
MITとミシガン大学の研究者達はどの患者や従業員がCDIを持つかを正確に予測する機械学習モデルを開発しました。これにより医師は感染を防ぐことができるようになります。
CDIは健康に関連した昆虫の1種です。様々なことを行ってきましたが、感染を減らすことはほとんどできていません。しかし、研究者達によると高リスクのある患者を今の技術を利用するよりも早く見分けることだできると言います。
新しい機械学習について
CDIの感染を減らすための既存の方法の問題は汎用的な方法であり、沢山のリスク面を考慮していないことです。病院によって検査や治療方法、記録管理システムが異なるため、モデル作成に影響が出てしまいます。既存の方法は病院特有の重要な要因を無視しているので、効果や使い勝手は制限されています。
研究者達は施設別のモデル開発に焦点をあてました。彼らはマサチューセッツ総合病院、ミシガン大学病院のEHR(電子カルテ)全体の分析を行うためにビッグデータを利用しました。
これによって、患者さんの記録サイズの違いや、複数のEHRシステム、医療機関特有の要素に効率的に対応できるようになりました。
データ抽出
彼らは、マサチューセッツ総合病院の成人収容患者65,718人とミシガン大学病院の成人収容患者191,014 人の電子カルテデータを取得しました。彼らはそこから、収容詳細、履歴、治療履歴、人口統計を含む患者情報を取得しました。
彼らは変数を2つの主要セクションに分けました。時間変化と時間不変の2つです。すべてのデータは構造化されていて、いくつかの変数はカテゴライズされている一方で他のいくつかは連続性があったりしました。薬のようにカテゴリー化されたデータは、すべて2値化された特徴量にマッピングされました。さらに、基準範囲はEHRにおいて白血球数やグルコース値などの連続的な機能として利用されました。
マサチューセッツ総合病院の患者1837人の特徴と、ミシガン大学病院の患者4836人でこういった結果となりました。 彼らはL2正則化論理回帰を適用して各モデルを学習しました。そしてついに彼らはどちらの病院でモデルの識別的動きを計算することができました。
研究者達はこれらのモデルは最終的にCDIと診断される患者を正確に予測できると発見しました。感染した患者の50%にとって、このアルゴリズムは正確に診断がでる5日前に判明させることができました。
より具体的には、このモデルは受信者動作特性曲線下の場所で0.82値(サチューセッツ総合病院)、0.75値(ミシガン大学病院)を達成しました。2つのモデルにはほんの少しの予測因子の共通点があり、主要なものを含む残りの予測因子は異なっていました。
この新しい技術はメチシリン耐性黄色ブドウ球菌のような他の病原体に対して病院別のモデルを開発するのに利用でき、他の施設固有および患者固有の要因は重要な役割を果たします。
さらに、この結果のモデルは異なる目的のための複数の構成に実装されるでしょう。良いモデルによって分析者が高リスクの患者を対象にした募集を実施するのに集中することができます。これを応用することによって、次第にコストを減らし効率的に医学の研究ができるようになるでしょう。