MerchantBank Consulting
サブページ画像

機械学習・深層学習ミーツ

‖医療‖
〖医療ギョーカイで使用されている指標等の事前整理〗
0⃣ ヘルシンキ宣言 
 現在の臨床試験は、1964年のヘルシンキ宣言を倫理的基盤としている。このヘルシンキ宣言の重要な原則として、ヒトを対象とする臨床試験を実施するためには、次の3項目が必須とされている。
①科学的・倫理的に適正な配慮を記載した試験実施計画書を作成すること、②治験審査委員会で試験計画の科学的・倫理的な適正さが承認されること、③被験者に、事前に説明文書を用いて試験計画について十分に説明し、治験への参加について自由意思による同意を文書に得ること。
 日本においては、ヘルシンキ宣言の精神に基づいた臨床試験の実施に関する基準が、1990年から施行されている。
1⃣ 二値分類タスクで用いられる評価指標 
 感度(sensitivity):疾患ありのヒトが、真に陽性である割合。一般的な分類タスクの文脈では、再現率(recall)と呼ばれる。
 特異度(specificity):疾患なしのヒトが、真に陰性である割合。
 なお、ギョーカイではaccuracyの日本語訳は、正診率かもしれないが、本稿(当サイト)では「正解率」とした。(もちろん、一般的な文脈ではaccuracyは精度と訳される。)
 precisionは、(一般的な二値分類における訳語と同じ)適合率とする。ギョーカイ的には、陽性的中率と訳されることが多い。
2⃣ データとコホート
 機械学習・深層学習の文脈で用いられる、学習データ(training data)は、医療×機械学習・深層学習の文脈では、「派生コホート(derivation cohort)」と呼ばれる(稀に開発コホートとも呼ばれる)。同様に、検証データは検証コホートと呼ばれる。
〖註〗利用できる情報量によって(論文があるか、論文にアクセスできるか等)、下記に整理した情報量も大きく変わる。

(26) 深層学習(ヒトとの比較有り)|画像識別|多施設
● 診断 
〖モデル〗トランスフォーマーなど  
‖疾患‖ がん(原発不明がん)
‖器官‖ ー
日付:24年4月17日
研究主体:天津医科大学など
出所:(https://www.nature.com/articles/d41586-024-01110-8)
論文:https://www.nature.com/articles/s41591-024-02915-w
0⃣ 患者群とデータセット
❚患者群❚ 中国の4 つの大規模医療施設に通院する、あるいは入院した76,183名の患者。4つの大規模医療施設とは、天津医科大学腫瘤医院†1(以下、天津)、鄭州大学第一附属病院†2(以下、鄭州)、蘇州大学附属第一病院†3(以下、蘇州)、煙台育璜頂医院†4(以下、煙台)である。
 期間は、以下の通り:天津=2012年9月~2020年11月(内部データ)、2023年6月~10月(外部データ)。鄭州=2011年8月~2020年12月。蘇州=2010年6月~2020年12月。煙台=2013年2月~2022年5月。
❚データセット❚ 
㈠ 概要 
 76,183名の患者から、90,572 枚の『細胞学的塗抹標本画像』を取得した(これは、病理医が、顕微鏡で観察する画像である)。そこから、主要な原因を裏付ける臨床的または病理学的証拠が欠如している、24,808枚の悪性腫瘍画像を除外した。さらに 空白画像または焦点が合っていない画像8,544枚も除外した。最終的には、43,688名の患者から 57,220 画像で選択された。データセットは、内部データセットと外部データセットに分けられた。
㈡ 内部データセット 
 57,220枚の内42,682枚は、天津(14,008)・鄭州(20,820)・蘇州(7,854)から集められ、”内部データセット”とされた。内部データは、学習データ:検証データ=70%:30%で分けられた。詳細に述べると、学習データセットは、12 腫瘍のサブタイプまたは原発部位をカバーする20,638名の患者からの 29,883枚(70.01%)の画像で構成される。29,883枚は、悪性腫瘍画像19,406 枚+良性主要画像10,477枚であった。テスト・データセットは、12,799枚(29.99%)となる。テスト・データセットの腫瘍カテゴリーは、学習データセットの腫瘍カテゴリーと、ほぼ一致していた。
㈢ 外部データセット 
 多数の医療機関から取得したデータを使って学習したモデルの、汎化性能を評価するために必要な、”外部データセット”は、天津(3,933)・煙台(10,605)から集められた。
㈣ 注記 
 なお、1 人の患者が、病気の発症のさまざまな段階で細胞学的分析のために、胸水または腹水の針生検を複数回受けている可能性がある。つまり、複数の画像が記録されている可能性がある。本研究では、臨床病理学的データと組み合わせた各画像が 1 つの症例として編集された。
❚グランドトルゥース❚ それぞれ15年以上の臨床経験を持つ、5人の上級病理医による診断。
†1 和訳名は、https://www.ncc.go.jp/jp/topics/2020/0909/index.htmlに従った。天津医科大学腫瘤医院は、中国初のがん専門病院として設立された(ibid.)。
†2 病床数が約7,000床に達する世界最大の病院らしい(2015年とやや古いが、出所https://jp.reuters.com/article/idUSKCN0PP0YZ/)。
†3 論文の原語ではSuzhou University(蘇州大学)。同大学のサイトではSoochow University(苏州大学)となっている。もともと、Soochow University(東呉大学)という名称だったらしく、それを使っている(台湾にも、東呉大学(Soochow University)があるので、対抗的意味からか?)。
†4 詳細不明。
1⃣ 本研究の主目的
 原発不明がん(CUP)†5の原発部位を推定できる学習モデルを開発することが、本研究の主目的である。原発不明がんの原発部位に適する治療を早期に開始することで、患者の治療効果(生存期間)が改善すると期待できる。本研究で開発された学習モデルは、TORCHと命名されている。
†5 CUP は、ヒトで診断されるすべてのがんの 3 ~ 5% を占めると推定されている。腺癌が最も一般的で、次に扁平上皮癌と未分化癌が続く。さまざまな併用化学療法が行われているにもかかわらず、大多数の患者の予後は非常に不良であり、生存期間中央値10か月を達成した患者はわずか 20%である。CUP は多くの場合、早期の播種や複数臓器の関与を特徴とする。
2⃣ データのセットアップ → 特徴量抽出 
 悪性腫瘍の原発部位が異なることに起因する細胞形状のばらつき及び、細胞学的・組織学的画像の背景割合が比較的高いことを鑑みると、細胞学的塗抹標本画像から直接、深層学習モデルを開発することは不可能である。そのため、塗抹標本画像から、特徴量抽出を行う。具体的には、モメンタム・コントラストを用いた対照学習モデルMoCoを使用した†6
 温度計数などとも呼ばれるハイパーパラメータ τ は0.07、初期学習率は0.015、重み減衰は1× 10−4に設定された。バッチサイズは128で、エポック数は200。学習率はコサイン減衰によってスケジュールされた。具体的には、i 番目のエポックでの学習率は、初期学習率× 0.5 × (1.0 + cos(π × i/n))と設定された。ここで、n はエポック数(つまり200)である。損失関数は、InfoNCE損失。また、パラメータ更新に用いる、いわゆるモメンタム係数mは0.999†7に設定された。
 対照学習で通常用いられるデータ拡張(data augumentation)には、ランダムなサイズ変更とクロップ、カラージッター、グレースケール、ガウスぼかし、反転、その後のチャンネルR,G,Bの正規化が含まれた。
 MoCoを用いて抽出された特徴量は、臨床変数=「性別、年齢、標本採取場所」と組み合わされて、深層学習用のデータセットとされた。標本採取場所=胸部(胸膜、胸水)or腹部(腹膜、腹水)である。臨床変数が足された理由は、病理医が、画像データのみで診断しないからである。
†6 おそらくMoCo ver.2。ver.3まであるらしい。
†7 これは、標準的に使用される値のようである。
3⃣ 学習モデルのセットアップ 
 4つのアーキテクチャ×3種類のデータセット=12のモデルを作り、学習を行った。12のモデルから得られた予測確率を平均することで、モデル・アンサンブルを実行した。4つのアーキテクチャは、以下の通りである。❶AbMIL:注意機構ベースのマルチ・インスタンス学習、❷AbMIL–MB:複数の注意ブランチを備えたAbMIL、❸TransMIL:トランスフォーマー・ベースのマルチ・インスタンス学習、❹CM-TransMIL:クロス・モダリティ注意機構を備えたTransMIL。
  3種類のデータセットとは、以下の通りである。①細胞学的画像における特徴量+臨床変数、②組織学的画像における特徴量+臨床変数、③細胞学的及び組織学的画像における特徴量+臨床変数。
 オプティマイザはAdam。学習率は2 × 10−4(固定)、1 × 10−5の重み減衰。バッチ サイズは1で、エポック数100。エポック数60 以降では、検証損失が最も低いモデルが最適なモデルとして選択される。
4 ヒトとの比較結果 
㈠ 前説 
 比較対象となったヒトは、若手臨床病理学者2名と上級臨床病理学者2名。ヒトによる評価結果は、4名の評価指標の単純平均値及び、上級臨床病理学者2名の単純平均値†8である。悪性症例333 例と良性症例 162 例を含む 495 枚の細胞画像を手作業で読影してもらい、TORCH による予測と比較した。悪性症例の対象として選択された器官は、消化器†9、女性生殖器†10、呼吸器†11、血管及びリンパ管であった。上記4つの器官が選択された理由は、胸膜または腹膜に転移する最も一般的な悪性腫瘍の原発部位が、それらの器官であるから。指標は、正解率、感度、特異度、適合率(陽性適中率)及び陰性適中率。なお各指標は、4つの対象器官及び良性症例の数値を単純平均した値である。
㈡ 結果 
 正解率はTORCH0.896:ヒト0.813〚0.853〛。感度はTORCH0.880:ヒト0.486〚0.581〛。特異度はTORCH0.894:ヒト0.878〚0.903〛。適合率はTORCH0.634:ヒト0.486〚0.594〛。陰性適中率はTORCH0.969:ヒト0.877〚0.905〛。なお〚〛内の数字は、上級臨床病理学者2名の単純平均値である。特異度のみ、上級臨床病理学者が、TORCHに勝っている。
 なお、4 人の病理医の評価者間一致率は 24.6%(495 枚中122枚、フライスのκ†12は0.365)であった。
†8 この値は、論文中には一部が表示されているのみである。従って、エクセルで提供されているSupplementary Dataシート内のデータを使って、弊社が計算した。
†9 食道、胃、十二指腸、腸、虫垂、結腸、直腸、肝臓、胆嚢、膵臓。
†10 卵巣、卵管、子宮体部、子宮頸部、膣及び乳房。
†11 腎臓、尿管、膀胱、尿道、前立腺、精巣、精嚢。
†12 3人以上の評価者の評価が一致している度合いを測定する係数(らしい)。
5⃣ アブレーション分析
 細胞診塗抹画像に加えて臨床変数(つまり、年齢、性別、標本採取場所)を入力として組み込む利点を評価するために、臨床変数を除外してアブレーション実験を実施した。その結果、標本採取場所が最も大きな影響を及ぼし、次いで性別と年齢であった。
6⃣ 解釈可能性 
  単離された腫瘍細胞の主要領域の捕捉に関する、アテンション・ヒートマップの精度が、5 人の病理学者によって評価された。その結果、TORCHによる予測に寄与する、組織形態学的特徴は、以下のようなものであった。⓵腺細管などの組織構造、⓶乳頭状、花輪状、緻密な細胞塊、⓷より豊富な細胞質、⓸明らかな核異常、⓹粗く深く染色されたクロマチンを備えたより大きなサイズの細胞。
7⃣ 生存分析
 CUP患者391名のうち、TORCH予測に従って治療を受けた患者は、そうでない患者よりも有意に長い全生存期間を示した(27ヶ月対17ヶ月、p = 0.006)。
8⃣ 本研究の制限 
㈠ TORCHは細胞学的画像に基づいて開発された。その結果、TORCHは、悪性腫瘍の原発部位を正確には特定できず、器官レベルで特定できるのみである。
㈡ 現時点では、中皮腫や、泌尿器・神経・骨軟部組織の悪性疾患などを識別することができない。
㈢  4つの施設の患者は中国の北部、中部、東部地域の出身である。本研究に登録された症例の数はかなり多く、さまざまな大規模医療施設に由来しているが、他国や他民族からの症例は考慮されていない。 モデルの精度と汎化性能は、患者の人種の違いや臨床医の偏見によって、影響を受ける可能性がある。
㈣ モデル・アーキテクチャが最適ではない可能性がある。
9⃣ コメント
㈠ TORCHの性能結果自体は、あまり意味がないと思われたので、割愛した。
㈡ TORCHの支援を受けた病理医のパフォーマンス向上も、割愛した。
㈢ 比較対象とされた病理医の数(4名)が、あまりに少ないだろう。
㈣ アンサンブルが効いているのか? 

(25) ・(ヒトとの比較あり)|画像識別 
● 診断 
〖モデル〗 ー 
‖疾患‖ 網膜疾患 
‖器官‖ 眼 
日付:24年3月25日
研究主体:広島大学
出所:https://www.hiroshima-u.ac.jp/news/82228
論文:https://bjo.bmj.com/content/bjophthalmol/early/2024/03/14/bjo-2023-324923.full.pdf?with-ds=yes
0⃣ 患者群とデータセット
❚患者群❚ 兵庫県姫路市のツカザキ病院で治療を受けた患者。 
❚データセット❚ 英Stability AIの画像生成AI「Stable Diffusion 1.0」†1を再学習†2して、600枚の合成網膜画像を生成した。600枚の合成画像は、5つの網膜疾患「網膜剥離(RD)、緑内障(Gla)、加齢黄斑変性(AMD)、網膜静脈閉塞症(RVO)、糖尿病網膜症(DR)」及び正常眼底(以下、6状態と呼ぶ)の各状態に付き、100枚で構成される(つまり、(5+1)×100=600枚である)。
†1 潜在拡散モデルに基づく、事前学習済みの画像生成AI。入力されたテキストを基に、画像を生成する。
†2 再学習には、グーグルが開発したDreamBoothを使った。「参照画像には現れない、さまざまなシーン、ポーズ、ビュー、照明条件で被写体を合成することを可能にします」が、宣伝文句。画像の意味論的バリエーションを生成可能とする。
1⃣ 本研究の主目的 
 機械学習・深層学習ベースの画像診断モデルの学習には、大量の学習データが必要となる。医療分野において、そのようなデータを準備することは(個人情報保護の観点を除いたとしても、)難しい。そのため、診断モデル学習用画像データを、画像生成AIを使って生成するという着想が自然に生まれる。しかし、教育用画像データが足りないという状況は、ヒトにとっても同じである。そこで、発想をやや変えて、モデル学習用ではなく、ヒトを教育するために、画像生成AIを使おうというのが、本研究のアイデアである。その根底には、ヒトの方が(現時点の)診断モデルよりも、優秀なはずという仮説がある。
2⃣ 本研究でやっていること 
 4 年間の大学教育課程のさまざまな段階にある 161 人の視能訓練士(Certified Orthoptist:CO)†3研修生を対象に、画像生成AIが生成した画像による教習を実施した。この教習の評価(画像診断の正解率の評価)は、実際の患者画像(以下、実画像)を用いて、画角ごとに1回ずつ計2回行われた。実際の画像は、6状態×20枚=120枚である。実画像は、兵庫県姫路市のツカザキ病院における臨床診療中に取得された。
 画角は2種類用意した:超広角画像(UWF画像)と標準画角画像(SF画像)である。UWF画像は、眼底の8割を撮影範囲とする画角220度の画像であり、教習に用いられた画像は、この画角であった。一方のSF画像は、一般的な健康診断で用いられる眼底中心部を精査する画角50度の画像であり、 教習には用いられていない画角である。つまりSF画像は、ヒトの汎化性能を評価†4するために用いられた。
 上記教習の有効性を評価するため、8 人の経験豊富な専門家にも、同じ評価を実施した。8人中、5人は10年以上の実務経験がある認定視能訓練士。3人は、日本眼科学会認定の眼科専門医資格を保有しており、網膜硝子体手術において10年以上の経験を有する専門医である。
†3 小児の弱視や斜視の視能矯正や視機能の検査を行う、国家資格を持つ専門技術職。
†4 汎化性能の評価というより、ゼロショット予測(診断)の評価と表現した方が正確か?
3⃣ データのセットアップ 
 Stable Diffusionは、ニコンOptos 200Tx超広角(UWF)カメラで撮影された6,285 枚のUWF網膜画像で再学習された。6,285 枚の内訳は、468 枚のRD、1,316 枚のGla、215 枚のAMD、393 枚のRVO、1,666 枚のDRおよび 2,227 枚の正常眼底(画像)である。
 AIによる生成画像は、すべて2 名以上の眼科医が合意した診断に基づいて選択された。6状態ごと個別に、画像生成モデルを再学習した。6状態の各状態において、適切な画像100枚が、眼科医に選択されるまで画像を生成し続けた。眼科医は、さらに、「他の疾患を示唆する追加の所見がなく」、「対象となる病理に特有の特徴の明確さに基づいて、教育に適した」画像を選択した†5
†5 生成画像のクラスごとの選択率は、次の通りであった:RD9.1%、Gla10.0%、AMD6.7%、RVO20.0%、DR1.3%、正常眼底0.3%。
4⃣ UWF画像を使った評価結果 
 認定視能訓練士の正解率(平均値)は、学習前の43.6%(±18.8%)から学習後74.1%(±9.3%)に、向上した(p<0.0001)。8 人の専門家の正解率(平均値)は、91.1%(±4.2%)だった。英エディンバラ大学の最新AI モデル†6(便宜上、以下、エディンバラ・モデルと呼称)は、73.3%の正解率を達成した。
†6 詳細は明示されていない。
5⃣ SF画像を使った評価結果 
 認定視能訓練士の正解率(平均値)は、学習前の42.7%(±18.5%)から学習後68.7%(±11.5%)に向上した(p<0.0001)。8 人の専門家の正解率(平均値)は、92.8%(±6.8%)であった。エディンバラ・モデルは、40%であった。
 なお6状態について、実画像と生成SD画像との間の平均類似性スコア†7は次の通り: RD=0.45 (±0.09)、RVO=0.45(±0.07)、Gla=0.48(±0.07)、DR=0.45(±0.09)、AMD=0.49(±0.07)、正常眼底=0.47(±0.08)。
†7 0 から 1 の範囲。1 は同じ画像を意味する。
5⃣ 評価結果のまとめ 
① 認定視能訓練士の正解率(平均値)は、UWF画像でもSD画像でも、学習後に大きく改善された(つまり、本研究のアプローチは有効に機能した)。
② UWF画像を使った結果は、ヒト≃エディンバラ・モデルであった。
③ SD画像を使った結果は、ヒト>エディンバラ・モデルであり、人間の汎化性能が高いことが示されたsup>†8。
†8 前述の通り、学習モデル(エディンバラ・モデル)にとっては、ゼロショット予測に相当するので、厳しい結果となったのであろう。
6⃣ 本研究の制限 
① 画像が少ない。
② この研究の学習者は、医療従事者に限定されている。このアプローチが医学的背景のない学習者にうまく機能するかどうかを判断するには、さらなる調査が必要である。
③ この研究は学習者の診断能力の持続性を調査していない。学習能力を維持および向上させるために必要な追加学習の頻度と種類を決定するには、今後の研究が必要である。
7⃣ 研究者自身による評価 
 AIによる学習モデルは、ヒトを補完する可能性がある。これは、「人間にとっては困難でも、 AI モデルによって正確にスコア付けされるケースが実際に存在し、またその逆も存在する」からである。

(24) 深層学習(ヒトとの比較有り)|画像識別 
● 診断
〖モデル〗 DeepLabv3+ 
‖疾患‖ 溶骨型骨転移 
‖器官‖ 骨
日付:24年3月15日
研究主体:東京医科歯科大学
出所:https://www.tmd.ac.jp/press-release/20240315-1/
論文:https://journals.lww.com/spinejournal/fulltext/2024/03150/a_new_deep_learning_algorithm_for_detecting_spinal.5.aspx
0⃣ 患者群とデータセット
❚患者群❚ 2016~2022 年の間に、東京医科歯科大学病院に通院あるいは入院した悪性腫瘍患者447名。患者に対して、悪性腫瘍の診断または追跡のために、非造影コンピュータ断層撮影(CT)スキャン及び静脈内造影 CT スキャンの両方が行われた。骨転移のない悪性腫瘍患者からの CT スキャンも、骨転移陰性対照として収集された(対照群192名)。悪性腫瘍を有する陰性対照症例は、年齢、性別、原発巣の分布に一致するように選択された。原発巣は、肺・腎臓・大腸の順で多かった(対照群は、大腸・腎臓・肺の順番)。
❚データセット❚ 元となるCTスキャンデータは、255名(男性176名、女性79名)に対するCTスキャン283件(非造影219、造影64)・陽性体軸断面(axial slice)†15,991件と、192名(男性118名、女性74名)に対するCT スキャン192件(非造影87、造影105)・陰性体軸断面88,799 件。そこに、胸腰椎に少なくとも 1 つの溶骨性骨転移†2,†3を含む陽性 CT スキャン 263 件と、骨転移のない陰性 CT スキャン 172 件が含まれていた。なお、同じ患者からの CT スキャンは、同じデータセットに割り当てられた。
 データセットにおける骨転移・陽性スキャンの包含基準は次のとおりである:①胸腰椎に少なくとも1つの骨転移が存在する。②1~5 mm厚の断面画像が利用可能。③直径5mm以上の骨転移が存在する(5 mm 未満の骨転移は、診断を確定することが困難であるため含まれていない)。
❚グランドトルゥース❚ データセット全体について、MD.ai†4を使用した手動のセマンティック・セグメンテーション†5により、グランドトゥルース・ラベルが確立された。手動によるアノテーション(注釈)は、少なくとも 1 人の学会認定の骨軟組織腫瘍専門医の同意を得て、学会認定の一般整形外科医によって実行された。手動セマンティック・セグメンテーションの後、溶骨性画像部分のみを抽出するために、注釈付きデータは、注釈付き部分のノイズ・クラスタリングを使用した空間クラスタリングによって変更された。各クラスターの平均 CT値†6が200 未満の場合、その部分は溶骨性骨転移とみなされ、残りのクラスターは非骨転移とみなされた。空間クラスタリングの後、学会認定の一般整形外科医がすべての断面を再レビューして注釈を付け、すべての注釈付きラベルが、溶骨性骨転移のグラウンドトゥルース・ラベルであることを確認した。
†1 頭から足にかけて、を体軸方向と呼ぶ。体軸方向に直交する面が、体軸断面である。つまり、体を横方向にスライスした断面が、体軸断面である。
†2 転移部で骨が溶けてしまうタイプの骨転移。骨転移は、がん細胞の骨への転移であり、転移性骨腫瘍とも呼ばれる。実際の骨転移は、溶骨型転移と造骨型転移(骨を造るタイプの骨転移)が混在している混合型転移が多いとされる。ちなみに、腎がんの骨転移は、溶骨型とされている。出所:https://survivorship.jp/bone-metastasis/mechanism/01/index.html 
†3 胸腰椎は、骨転移が最も起こりやすい部位の 1 つとされる。 
†4 MD.aiは、米スタンフォード大学の研究者が提供する注釈ソフトウェアツールで、画像研究プロジェクトの学習データセットの編集(キュレーション)と作成を支援する。出所:https://aimi.stanford.edu/shared-datasets/software-tools/mdai
†5 画像のピクセル一つ一つに対してラベル付けをして、画像を分割・認識すること。
†6 CT値は、水を0、空気を-1000とし、X線吸収率を数値化したもの。正常な臓器は、大凡決まったCT値を呈する(出所:https://camic.jp/column/01_202108/)。皮質骨は1000~1800、海綿骨は200~500である(出所:https://www5.dent.niigata-u.ac.jp/~nisiyama/studyskills/kadai.txt)。皮質骨は、骨の外側の硬い部分。海綿骨は骨の内側部分。つまり、海綿骨より軟らかいのであれば、溶骨性骨転移と判断していることになる。
1⃣ 本研究の主目的
 深層学習ベースの自動検出モデルを開発し、骨転移の診断精度を向上させることが、本研究の主目的である。入力データは、従来のコンピュータ断層撮影(CT)画像†7である。対象は、胸腰椎(胸腰部)の溶骨性骨転移である。
 溶骨性骨転移は、病的骨折や脊髄損傷といった、骨関連の有害事象発生リスクを増加させる。そのため、検出率を向上させることができれば、がん末期における患者のQOL(生活の質)低下を防ぐことができる。
†7 骨転移の画像診断にはCT以外にも、磁気共鳴画像法、陽電子放射断層撮影等、複数の画像診断法があり、それぞれに異なる利点がある。CT は空間分解能が優れているため、がん診断に最も頻繁に使用される。
2⃣ データのセットアップ 
 学習データと検証データは、9:1の割合で分割された。学習データセットと検証データ セットには、それぞれ410回と41回のCTスキャンで86,276(陽性: 5,519、陰性: 80,757)と5,211 (陽性: 308、陰性: 4,903) の体軸断面が含まれた。テスト・データ セットには、患者40名からのCT スキャン40件・体軸断面3,303(陽性: 164、陰性: 3,139)が含まれていた。テスト・ データ セットは、学習データ セットと検証データ セットから個別に収集された。
3⃣ 学習モデルのセットアップ 
 本研究では、DeepLabv3+という深層学習モデル(畳み込みニューラルネットワーク)を採用している。エポック数は最大200,000に設定され、オプティマイザはAdamが採用された。DeepLabv3+は、特殊な畳み込み層を適用することで、より広範囲の画像特徴を抽出でき、高精度でオブジェクトを検出できる、とされている。
4⃣ 検証のセットアップ 
 テスト・データセットを使った学習モデルによる診断結果と、同じデータセットを使った「ヒト」による診断結果が比較された。比較は、❶CTスキャン断面あたり、及び❷病変あたり、で行われた。比較指標は、感度、適合率、F1スコア、特異度である。「ヒト」は、 3人の学会認定整形外科医(経験はそれぞれ、25、24、22年)、3人の学会認定放射線科医(同14、10、10年)、整形外科の研修医3人(同3年)、及び放射線科の研修医3人(同3 年)の、計12人で構成される。
5⃣ 比較結果 
 学習モデルの結果は、❶感度0.78、適合率0.68、F1 スコア0.72、特異度0.98 、❷感度0.75、適合率0.36、F1 スコア0.48であった。ヒト12名の結果†8は、❶感度0.72、適合率0.97、F1 スコア0.82、特異度0.99 、❷感度0.61、適合率0.88、F1 スコア0.72であった。
 大きな傾向は、ヒトを専門家と研修医に分けても、整形外科医と放射線科医に分けても同じである。ここで言う大きな傾向とは、感度と特異度は、学習モデルとヒトが比肩している一方で、適合率とF1スコアは、学習モデルが著しく低いという意味である。この理由を、以下のように説明している(と思われる):学習モデルは、脊椎椎体内の比較的大きな溶骨性病変の検出は十分であった。一方で、「椎弓、横突起、棘突起」など脊柱後方の病変の検出は、比較的困難であった。また、シュモール結節†9、椎間板変性症、椎体後面の水平裂隙(Hahn裂隙)は、いくつかの偽陽性を引き起こした。
†8 ヒト間の感度、適合率、F1 スコア、特異度の統計的有意差を評価するために、t 検定または Wilcoxon符号付き順位検定を使用して、統計分析を実行している。またp値は、0.05未満で統計的に有意であるとみなした。
†9 椎間板ヘルニアの一種。
6⃣ 本研究の制限 
① データセットは、1 つの医療機関からの画像のみで構成されている。AI モデルの汎化性は、複数医療機関の外部データセットを使用して評価する必要がある。
② 溶骨性骨転移のみを検出できる。つまり、造骨型骨転移の検出はできない。
③ 5 mm 未満の病変はデータセットに含まれていない。
④ グラウンドトゥルースのラベルは、2 人以上の専門家によって慎重に設定されたが、選択された病変内の転移細胞の存在は、組織学的分析では確認されなかった。
7⃣ 研究者自身による評価 
 開発した学習モデルは、従前の学習モデル†10と同程度の性能である。また、専門家と同等の「感度」を実現した。性能を向上させる必要性はあるものの、開発モデルは、現在の臨床実践に適用できる可能性がある。
👉 主目的は診断精度の向上であることを鑑みると、モデルを新たに開発した意味は、どこにあるのだろうか?
†10 サポートベクターマシン、ランダムフォレスト(RF)、畳み込みニューラルネットワーク(CNN)、CNNとRFを組み合わせたモデル、が従前に適用されているらしい。

(23) ・|特徴量抽出|多施設
● 予測 
〖モデル〗 ー 
‖疾患‖ がん
‖器官‖ 肺
日付:24年3月14日
研究主体:和歌山県立医科大学、近畿大学
出所:https://www.wakayama-med.ac.jp/intro/press/2024/2024-0314.html
論文:ー
0⃣ 患者群とデータセット
❚患者群❚ 全国16の医療機関におけるステージ4の肺がん患者6,751例(≃6,751名)。
❚データセット❚ 電子カルテに記録されている患者の(臨床)情報。期間は、2016年から2020年まで。
1⃣ 本研究の主目的
 ステージ4の肺がん患者の予後予測を可能とする機械学習モデルを構築することが、本研究の主目的である。
2⃣ 結果 
 診断日から180日、360日、540日、720日、900日、1,080日の生存が可能かという予測において、どの期間においても約80%という高い精度で予測可能であることが示された。

(22) 深層学習(ヒトとの比較なし)|画像識別 
● 診断 
〖モデル〗 ー 
‖疾患‖ がん(頸がん)
‖器官‖ 子宮
日付:24年3月11日
研究主体:熊本大学
出所:https://www.kumamoto-u.ac.jp/daigakujouhou/kouhou/pressrelease/2023-file/release240311.pdf
https://cervical-cancer-demo.ai-cytology.com/
論文:なし
0⃣ 患者群とデータセット
❚患者群❚ ー
❚データセット❚ 患部(子宮頸部)から採取された細胞に対して、焦点距離を変えながら撮影した多重焦点画像。
1⃣ 本研究の主目的
 がん(子宮頸がん)の細胞診断を自動化するために、診断精度が高い機械学習(深層学習)モデルを構築することが、主目的である。なお、子宮頸がんは、4つに識別して、診断する。
† ㊀陰性、㊁軽度扁平上皮内病変、㊂高度扁平上皮内病変、㊃扁平上皮がん 
2⃣ 本研究の特徴
 米国では、子宮頸部細胞診断システムが製品化されている。ただし、それらのシステムでは、特定の焦点から観察した2次元画像を使用している。そのような画像では、正常細胞と形態が大きく異なる進行がん細胞は高精度で検出できる一方、細胞の形態が正常とあまり変わらない「初期がん細胞や、前がん細胞」の検出は精度が低い。多重焦点画像を使用することで、「初期がん細胞や、前がん細胞」検出の精度を高めた。

(21) 深層学習|画像識別
● 推論 
〖モデル〗 ー
‖疾患‖神経膠腫 
‖器官‖脳 
日付:24年2月28日
研究主体:国立がん研究センター、富士フィルム 
出所:https://www.ncc.go.jp/jp/information/pr_release/2024/0228/index.html
論文:なし
0⃣ 患者群とデータセット
❚患者群❚ ー
❚データセット❚ MRI画像
1⃣ 本研究の主目的
 MRI画像から神経膠腫の疑いのある領域を精密に抽出することが、主目的。

(20) 深層学習|画像識別
● 診断
〖モデル〗 畳み込みニューラルネットワーク 
‖疾患‖ー(溺死)
‖器官‖ー 
日付:24年2月28日
研究主体:東北大学
出所:https://www.tohoku.ac.jp/japanese/newimg/pressimg/tohokuuniv-press20240228_02web_ai.pdf
論文:https://www.springermedicine.com/computed-tomography/computed-tomography/inconsistency-between-human-observation-and-deep-learning-models/26718978
0⃣ 患者群とデータセット
❚患者群❚ 2012年6月から2021年1月までに、東北大学の研究機関で解剖前スクリーニングと解剖が行われた遺体は、2610体。死後2日以内で、薬物スクリーニングと珪藻検査†1を受けた症例は359体。ヘリカル スキャンがなかったり、胸腔に損傷があった46 例を除外し、溺死 153例†2と非溺死160例†3を含む 313 例の研究サンプルを取得した。
†1 溺死の法医学的診断方法は、溺死を示唆する解剖所見に加え、臓器からプランクトン(珪藻)を検出するプランクトン検査に基づいてなされている。河川水や湖水、海水等にはプランクトンが含まれていることから、それらの水を吸引して溺死した場合には、多臓器からプランクトンを検出できる(肺胞の血管から、水とともにプランクトンが血中に入る。このため、肺だけでなく脾臓・肝臓・腎臓等の臓器からも、プランクトンは検出される)。
出所https://www.jstage.jst.go.jp/article/driftological/19/0/19_1/_pdf/-char/ja
†2 溺死は、死後CT(PMCT)、警察の現場調査、司法解剖を含む総合的な評価に基づいて診断された。
†3 心血管疾患54、溺死以外の窒息19、感染症16、中毒14、外傷14、アルコール性および糖尿病性ケトアシドーシス13、 その他30。合計160例。
❚データセット❚ 死後CT(PMCT)検査画像データ。
❚グランドトルゥース❚ 溺死診断に対するグランドトルゥースは、†2の通り(総合的評価)。
 学習モデルの「顕著性マップ」†4に対する、グランドトルゥースは、ヒトによる観察結果(手動アノテーション・マップ)。4 人のアノテーター†5がアノテーション ツール Labelme†6(v5.1.1)を使用して、25 件の溺死テスト ケースから同じ間隔で選択された 150 枚の画像にアノテーションを付けた。最終的に、600 のアノテーション・マップを取得した。
†4 顕著性マップ(saliency map)は、「画像領域に対して、ヒトがどの部分に注目したか(興味をもったか)を表したマップ」と定義される。
出所https://www.ite.or.jp/contents/keywords/FILE-20120103132039.pdf
†5 1 年以上の臨床経験を持つ放射線技師。
†6 マサチューセッツ工科大学(MIT)によって開発された画像アノテーションツール。Pythonで開発されたオープンソース・ソフトウェア。
1⃣ 本研究の主目的
 PMCT を使用した溺死診断のための深層学習モデルが注目する領域(予測の基礎を形成する)が、人間の観察と一致しているかどうかを検証することが、本研究の主目的である。
2⃣ データのセットアップ
 313個の PMCT データは、およそ85%対15%の比率で、学習データセット(263個)とテスト・データセット(50個)にランダムに分割された。溺死例における学習データセットは、128個。テスト・データセットは25個。非溺死例における学習データセットは、135個。テスト・データセットは25個。Dunn検定の結果、学習データセットとテスト・データセットとの間で、年齢に統計的有意差はなかった(p値5%で判定)。
3⃣ 学習モデルのセットアップ 
 モデルアーキテクチャは、畳み込みニューラルネットワーク(CNN)。具体的には、AlexNet、VGG16、および Inception-ResNet-V2(InResV2)が取り上げられた。損失関数は、二値交差エントロピーで、オプティマイザーは Adam。学習率の初期値は 1×10-5、学習率の減衰率は 1×10-6。10 エポックで、検証損失が、それ以上減少しなくなった場合は、早期停止(early stopping)する。
4⃣ 顕著性マップ 
 本研究では、顕著性マップは 2種類作られている。❶Score-CAMとよばれる手法に基づいて作成された、顕著性マップ。❷「大津の二値化法」†7を適用して作成された、顕著性マップ。
†7 分布(あるいは領域)を、一つのしきい値で分割する際に、当該しきい値を、分布(あるいは領域)の情報を使って、自動推定する手法。
5⃣ 評価指標 
 学習モデルの性能評価における 評価指標は、正解率、感度、特異度、AUC-ROC、である。
 顕著性マップと手動アノテーション・マップとの比較における評価指標は、重なり交差(Intersection over Union;IoU)、顕著性カバー(SC)、グランドトルゥース・カバー(GC)である。
 IoUは、画像の重なりを定量化する指標である。本研究では、顕著性マップ(S)とグランドトルゥース(G)の重なりが対象となるが、実際はジャッカード係数と捉えた方が良い。ジャッカード係数は集合の類似度を測る指標で、2つの集合に含まれている要素の中で、共通している要素の割合を表す。本研究の文脈で言えば、SとGの類似度を計測する。
 SCは、SとGの共通要素がSをどの程度カバーしているかを測定し、正解率に近い。GCは、SとGの共通要素がGをどの程度カバーしているかを測定すし、感度に近い。
6⃣ 深層学習モデルの性能評価 
 以下において、①=正解率、②=感度、③=特異度、④=AUC-ROC、である。
㈠ AlexNet・・・①88.9%、②87.5%、③90.2%、④0.94
㈡ VGG16・・・ ①92.1%、②95.7%、③88.5%、④0.97
㈢ InResV2・・・①92.1%†8、②91.3%、③92.9%、④0.98
†8 ㈡と㈢で同じだが誤植ではない(原論文ママ)。
7⃣ 顕著性マップと手動アノテーション・マップとの比較 
 以下において、⓵=IoU、⓶=SC、⓷=GC、である。
❶ ㈠⓵0.48、⓶0.66、⓷0.67。㈡⓵0.34、⓶0.37、⓷0.90。㈢⓵0.14、⓶0.14†9、⓷1.00
❷ ㈠⓵0.19、⓶0.80、⓷0.20。㈡⓵0.29、⓶0.62、⓷0.36。㈢⓵0.17、⓶0.19、⓷0.63
†9 ⓵と⓶で同じだが誤植ではない(原論文ママ)。
8⃣ 結論 
 6⃣に示すように、深層学習モデルの画像識別性能は高いにもかかわらず、ヒトが注目している箇所とモデルが注目している箇所が”大きく”異なるため、気を付けようという結論(ただし、若干のトリックあり👉9⃣ii)を参照)。
 具体的には、以下のような違いが上げられている:㊀ほとんどのヒトは、胸水のある領域に注意を払ったが、学習モデルはこの特徴を効果的に捉えていなかった。㊁モデルの予測は、主に乾燥した気道と気道様空洞の特定に基づいており、液体で満たされた気道と胸水の存在は無視されていた。これは、学習モデルが、乾燥した気道を特徴の豊富な物体とみなした可能性がある。その根拠は、「乾燥した気道には、コンピュータービジョンでより簡単に検出できる、明確なエッジがあるから」である。乾燥した気道とは対照的に、液体で満たされた気道と胸水は、血管や組織に似ているため、区別するのが困難である。
 つまり、深層学習モデルは、自身が得意な箇所に過剰に注目して、苦手な箇所は無視した、ということになる。それだと、高性能は出せない気がするが、なぜか性能は高い。その理由を(おそらく誰もが)知りたい。
9⃣ 本研究の制限 
i) 本研究では、以下のような超高級品質のデータを使っているので、実用的ではない?
⇒アノテーションの監修者として経験豊富な放射線技師(PMCT撮影歴14年)を招き、いくつかのルールを設けた。アノテーションの際には、剖検レポートと放射線診断レポートの両方を参照した。アノテーション・プロセスは、LIDCーIDRI†10と呼ばれるベンチマーク・データセットの 2 段階アノテーション・プロセスを参照した。
ii) 顕著性マップとアノテーション・マップの面積は、大きく異なる。 ❶Score-CAMとよばれる手法に基づいて作成された、顕著性マップの面積は、アノテーション・マップの面積の 2.92 ~ 3.97 倍だった。❷「大津の二値化法」を適用して作成された顕著性マップの面積は、アノテーション・マップの面積の 0.60 ~ 0.82 倍であった。従って(本来、0~1の範囲で表される)、IoU、SC、GCの値が取る範囲は0~1ではない。👉従って、7⃣で示された小さ過ぎる数値は、そこまで小さくはない。
†10 The Lung Image Database Consortium (LIDC)、Image Database Resource Initiative (IDRI)。

(19) 機械学習(ヒトとの比較あり)|特徴量抽出
● 予測
〖モデル〗XGBoost  
‖疾患‖がん(緩和ケア)
‖器官‖ー 
研究主体:名古屋大学
出所:https://www.med.nagoya-u.ac.jp/medical_J/research/pdf/Jou_240214.pdf
論文:https://www.jpsmjournal.com/action/showPdf?pii=S0885-3924%2824%2900011-3
0⃣ 患者群とデータセット
❚患者群❚ 単一の医療機関(※1)における、除外基準(※2)に該当しない患者(※3)561名。がんは、新規罹患と再発を区別していない。すべてのがん患者は、外来化学療法を開始する前に自己申告による、苦痛のスクリーニング†1,†2を完了する必要がある。患者の平均年齢は65.7歳で、女性がサンプルの39.0%を占めた。 最も一般的な原発がん部位は、消化器官であった。以降は、肝胆道がん、膵臓がん、肺がんの順。
※1 日本の都市部にある、三次救急医療機関&大学病院&がん診療連携拠点病院。名古屋大学医学部附属病院、ということで良いのだろうか?
※2 ㊀血液がんの診断、㊁ネオアジュバント化学療法†3/アジュバント化学療法†4または化学放射線療法の実施、㊂臨床試験への参加、㊃緩和ケア介入の既往、㊃苦痛のスクリーニング前の3 か月以内に入院していない。
※3 ㊀18歳以上、㊁転移性がんまたはステージIVと診断された、㊂2018年4月1日~2023年3月31日までに化学療法を受けた、㊃外来化学療法の前に、苦痛のスクリーニングを完了した、患者。
❚データセット❚ 苦痛スクリーニング日以前の患者の最新情報を、データソース(※)から抽出した。 情報は、血液検査、処方箋、化学療法、処置、バイタルサイン(すべての患者の5番目のバイタルサインとして痛みのNRSが定期的に測定される)、医療利用、および看護入院評価を含む電子医療記録から取得された。
※ データソース:病院ベースのがん登録、健康保険請求データ、看護入院記録、病院のデータウェアハウス。
❚グランドトルゥース❚ 苦痛のスクリーニング・スコアを含む遡及的なカルテレビュー並びに、緩和ケア及び腫瘍看護専門家による判断、の組み合わせに基づいた専門的緩和ケア†5(SPC)ニーズ。専門家の評価は、SPC チームのメンバーである腫瘍看護専門認定看護師が率いる3 名の認定看護師チームと、化学療法看護を専門とする 2 名の認定看護師からなるチームによって実施された。
 なお、研究者と専門家による判断の一致率は97.1% で、カッパ係数†6は 0.91であった。
†1 診断や治療方針の変更の時に、身体的苦痛や精神心理的苦痛、社会的苦痛など、患者とその家族にとって重要な問題でありながらも取り上げられにくい問題について、医療従事者が診療の場面で定期的に確認し、話し合う機会を確保すること。出所https://www.mhlw.go.jp/content/10901000/000851355.pdf
†2 苦痛のスクリーニングは、㊀つらさの寒暖計(DT)、㊁支障の寒暖計(IT)、㊂疼痛数値評価スケール(NRS)及び、㊃疼痛以外のNRS、で構成される。DT及びITについては、以下を参照☛https://gansupport.jp/article/measure/measure10/13940.html
†3 外科手術の前に、がんを小さくすることで機能温存したり、より外科療法の効果を高めて再発のリスクを低減するなどの目的で用いられる化学療法。出所https://www.jfcr.or.jp/chemotherapy/department/fundamental/target.html
†4 外科手術や放射線療法後に残存している可能性がある目視や画像診断装置で検出しきれないがんを根絶して再発を防ぐための補助[的な化学]療法。ibid
†5 基本的緩和ケアでは緩和することが困難である複雑な症状や状態に対応するものを専門的緩和ケアと言い、緩和ケアを専門とするチームで実践される。出所https://www.hpcj.org/what/kijyun.html
†6 二人の観察者間の診断の一致度を評価する指標。0~1の値をとり、値が大きいほど一致度が高い。一般に、0.6以上であれば、一致度は十分であると判断される。出所https://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub12.html
 なお、順序尺度(軽症、中等症、重症)の診断一致度を調べる場合には、カッパ係数ではなく、重み付けカッパ係数を用いる方がより適切とされている。
1⃣ 本研究の主目的
 ①電子医療記録のデータを使用して、化学療法を受けている進行がん患者におけるSPCの必要性を予測する機械学習モデルを開発・評価、②予測モデルをスクリーニング・ツールの代わりに使用できるかどうかを調査、することが本研究の主目的である。
 つまり、機械学習モデルは、患者の医療情報(❚データセット❚を参照)を入力として、SPCニーズを(スコアとして)出力する。
2⃣ データのセットアップ 
 データセットは、学習データ80%、テストデータ20%に分割された。 ハイパーパラメータ調整のため、5分割交差検証が採用された。欠損データに関しては、XGBoostによる欠損データの処理を採用した。
3⃣ 機械学習モデル 
 機械学習モデルは5種類作成された(モデル・アーキテクチャは全て、XGBoost):❶全盛りモデル=126 の入力特徴量を含むモデル。❷NotSCRモデル=126の入力特徴量から 苦痛のスクリーニング4項目(†2を参照)を除外したモデル。❸NotSCR+Pain モデル=㊁に疼痛NRSを足し戻したモデル。❹SCRモデル=苦痛のスクリーニング4項目のみを、入力特徴量として使用するモデル。❺単純モデル= 5 つの入力特徴量(※)を含むXGBoostモデル。
※ 疼痛NRS、カルシウム(高カルシウム血症の診断指標としてのCa)、転倒歴、年齢、性別。
4⃣ 結果と結論 
 ❶全盛りモデルの結果は、正解率77%(原論文ママ)、適合率 47.9%、感度 95.8%、特異度 71.9%、F スコア 63.9%、ROC-AUC0.89。ちなみに、「苦痛のスクリーニングのみによるヒトの判断」では、感度87% で、特異度66%。「DT+ITのみによるヒトの判断」では、感度 81%、特異度72%。
 この結果をもって、本研究の研究者自身は、「化学療法を受けている進行がん患者に対するSPCの必要性を予測するための、機械学習モデルの開発に成功した」と結論付けている。「感度 95.8%という驚くべき数値は、賞賛に値する」との記述がある。
 なお、❺単純モデルの結果は、正解率76.1%、適合率46.2%、感度75%(原論文ママ)、特異度76.4%、F1スコア57.1%、ROC-AUC0.82である。
5⃣ 特徴量の重要度 
 ❶モデルにおける特徴量の重要度は、疼痛NRSが、ダントツで高い(重要度0.34)。以降は、支障の寒暖計(同0.082)、転倒歴(同0.080)、HbA1c(同0.070)、つらさの寒暖計(同0.063)、年齢(同0.060)と続く。疼痛NRSが支配的過ぎて、信頼度が揺らぐようにも思える。
 ❶と❺を比較すると、感度以外はそれほど遜色ないが、感度だけ、かなり低い。❺は特徴量5つであるが、疼痛NRSを含んでいる。
6⃣ 本研究の制限 
① アジュバント化学療法を受けている患者(比較的多数の乳癌および婦人科癌患者が含まれるグループ)を除外することにより、本研究では男性参加者の割合が高くなる結果となった。
② 日本の単一医療機関からのデータに対する依存に加え、外部検証がないことにより、特に人種的および民族的多様性が限られている。このため、研究の一般化が制約される可能性がある。
③ テキスト情報や患者が報告した症状データの欠如により、社会的および精神的なニーズを予測する能力が制限された。
④ 病院のがん登録および、診断治療組み合わせ(DPC)システムのエントリは、明確に定義されており、認定された医療記録管理者によって入力される。ただし、電子医療記録の情報、特に看護評価から得られる情報には主観が含まれる可能性があり、これが予測データの不一致につながる可能性がある。
⑤ 新型コロナウイルス感染症のパンデミックの心理的影響が、観察された SPC のニーズに影響を与えた可能性がある。

(18) 機械学習|特徴量抽出
● 予測
〖モデル〗 ラッソ回帰モデル
‖疾患‖がん(頸がん)
‖器官‖子宮
日付:24年2月13日
研究主体:広島大学
出所:https://www.hiroshima-u.ac.jp/news/81620
論文:https://www.sciencedirect.com/science/article/abs/pii/S1746809423011953
0⃣ 患者群とデータセット
❚患者群❚ 放射線治療を行った局所進行子宮頸がん患者 
❚データセット❚ Cancer Imaging Archive†1 のデータを使用して生成されたT1およびT2 強調磁気共鳴(MRI)画像。
👉がんの文脈で言えば、T1強調MRI画像(T1WI)で、「組織の(通常とは異なる)大きさや、組織構造の変化、あるいは出血部位」を確認する。T2強調MRI画像(T2WI)で、「病変(腫瘍、浮腫、炎症など)」を確認する。
†1 The Cancer Imaging Archive(TCIA)は、がんの医療画像の大規模な公開アーカイブを匿名化してホストするサービス。TCIA は、がん画像診断技術プログラム(CIP)によって資金提供されており、フレデリック国立がん研究所によって管理されている。CIPは、米国立がん研究所(NCI)のがん治療診断部門の4つのプログラムのうちの 1 つである。TCIAは、「患者の転帰、治療の詳細、ゲノミクス、専門家による分析など」画像に関連する裏付けデータを提供することに重点が置かれている。
 TCIAは当初、ワシントン大学によって設立・運用されていたが、後に(2010年12月)、フレドリック国立研究所を通じて運用管理する契約を、ワシントン大学と締結した。TCIAの中核チームが、ワシントン大学からアーカンソー医科大学に(2015年10月)移転したため、アーカンソー医科大学との契約に切り替わっている。出所https://www.cancerimagingarchive.net/
1⃣ 本研究の主目的
 放射線治療を行った局所進行子宮頸がんの再発を予測できる、敵対的生成ネットワークベースの画像生成モデル(ISモデル)を開発することが、本研究の主目的である。
2⃣ データ及び学習モデルのセットアップ
 5分割交差検証を採用。特徴量抽出はLASSO 回帰分析を通して実行された。実際のT1WI(以下、実T1WI)から7つ、生成T1WIから6 つ、実T2WIから5つ、生成T2WIから7 つ特徴量が抽出された。
 学習モデルは、ラッソ回帰モデル。モデルの入力は、MRI 画像からのレディオミクス特徴。出力は、放射線治療後の再発有無(を識別する数値)である。
3⃣ 実際のMRI画像と生成MRI画像との比較結果 
 評価指標は、正解率、感度、特異度、及びAUC-ROC。評価指標の数値は、5分割交差検証の平均値。
㈠ 正解率 
 実T1WI→78.9%、生成T1WI→74.3%、実T2WI→81.9%、生成T2WI→81.6%
 実T1WI+実T2WI→90.3%、生成T1WI+実T2WI→90.6%。実T1WI+生成T2WI→83.8% 
㈡ 感度 
 実T1WI→81.2%、生成T1WI→84.7%、実T2WI→84.9%、生成T2WI→82.8%
 実T1WI+実T2WI→89.9%、生成T1WI+実T2WI→90.4%。実T1WI+生成T2WI→83.7% 
㈢ 特異度 
 実T1WI→75.1%、生成T1WI→61.0%、実T2WI→75.3%、生成T2WI→80.8%
 実T1WI+実T2WI→90.2%、生成T1WI+実T2WI→92.8%。実T1WI+生成T2WI→88.1% 
㈣ AUC-ROC 
 実T1WI→0.87、生成T1WI→0.85†2、実T2WI→0.85、生成T2WI→0.86
 実T1WI+実T2WI→0.93、生成T1WI+実T2WI→0.91。実T1WI+生成T2WI→0.85 
†2 数値は同じであるが、誤植ではない(原論文ママ)。
4⃣ 考察 
 実MRI画像と生成MRI画像の組み合わせ(生成T1WI+実T2WI)は、実T1WI+実T2WIよりも、正解率・感度・特異度の全てで、数値が高い(高性能)。

(17) 機械学習(ヒトとの比較なし)|特徴量抽出|多施設
● 予測
〖モデル〗 XGBoost 
‖疾患‖精神病
‖器官‖脳(大脳)
日付:24年2月9日
研究主体:東京大学
出所:https://www.u-tokyo.ac.jp/focus/ja/press/z0109_00110.html
論文:https://www.nature.com/articles/s41380-024-02426-7
0⃣ 患者群とデータセット
❚患者群❚ 世界各地の21サイト†0からのデータで構成されるENIGMA†1 CHRワーキング・グループ†2で集積された2,194名。CHR(Clinical High Risk)とは、臨床的高リスクの意味であり、今の文脈では、精神病臨床的高リスク(CHR-P)を意味する。微弱な陽性症状†3(APSS)、短期間の間歇的な精神病状態(BIPS)・短期間の限定的な精神病状態†3(BLPS)、および/または遺伝的なリスクと機能低下†3(GRDS)の基準を満たしている場合に、CHR-Pと見做される。
 判断には、「発症リスクのある精神状態の包括的評価†4(Comprehensive Assessment of ARMS:CAARMS)」及び、「精神病前駆状態に対する構造化面接†5(Structured Interview for Prodromal Syndromes:SIPS」が用いられた。
 2,194名の内、健常者(HC群)は1,029名で、CHR(正確にはCHR-P)群は1,165名である。1,165名の内、MRI計測後の追跡調査で精神病発症を確認したのは144名で、これをCHR-P+群とする。追跡調査で精神病を発症しなかったのは、793名で、これをCHR-P-群とする。追跡不能だったのは、288名で、これをCHR-UNK群とする。
†0 国で言うと、日本以外は、米英独蘭スペイン、シンガポール、韓国など。機関で言えば、(ほぼ)大学。日本は、東京大学、東邦大学、富山大学がメンバー。
†1 ENIGMA(Enhancing Neuroimaging Genetics Through Meta-analysis)は、国際MRI共同研究コンソーシアムである。ヒトゲノムの一般的な変異が、ニューロ・イメージングから得られる脳の測定値と、どのように関連しているかを理解することを目的として、2009年12月に結成された☛https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8675422/
†2 Bipolar、Schizophrenia、Addiction、Suicidal Thoughts & Behaviorsなど31のワーキング・グループが確認できる☛https://enigma.ini.usc.edu/
†3 和訳は、https://journal.jspn.or.jp/jspn/openpdf/1110030293.pdfを参照した。
†4 豪メルボルン大学医学部精神科のYungやMcGorryらによって開発された評価法。
†5 米イェール大学医学部精神科McGlashanらによって開発された評価法。
❚データセット❚ 構造的MRI画像†1から、FreeSurfer†2を使用して、「大脳皮質厚、大脳皮質表面積、大脳皮質下容積、頭蓋内容積」を算出した。ENIGMA コンソーシアムの品質評価パイプラインを実装し、データの除外や補完が行われた。
†1 MRIの構造的画像としては、T1強調像(T1WI)が用いられる。T1WIは、組織間の縦緩和時間の差を利用してコントラストをつけた画像である。大脳組織の中で縦緩和時間が最も短い「白質は、高信号で白く」、縦緩和時間が比較的長い「灰白質は、低信号で灰色」に、縦緩和時間が最も長い脳脊髄液は、ほぼ無信号で黒く写る。
†2 米ハーバード大学で開発された、MRI画像の解析・分析用ソフトウェア。
1⃣ 本研究の主目的
 構造的MRI画像から、精神病の発症を予測できる機械学習モデルの構築が、本研究の主目的である。 正確には、CHR-P+群とHC群を二値分類できるモデルの構築を目指す。
 機械学習モデルは、予測確率を出力する。出力値は小さいほど、CHR-PS+群として分類される可能性が高くなる。カットオフは 0.5に設定された。
2⃣ データのセットアップ 
 多サイトのデータを用いる場合、サイト間の違い-具体的には、撮像装置の違いや撮像プロトコルの違いーを、調整(調和)する必要がある。本研究では、ComBat法を使用して、脳画像ハーモナイゼーションが行われた。
 データは、4 つのセット(❶学習データセット、❷テスト・データセット、❸独立確認データセット、❹独立グループ・データセット)に分割された。多サイトのデータを扱うため、やや煩雑な2段階アプローチを採用している。❶と❷は、富山大学のデータを除く20サイトのHC群及びCHR-P+群から構成される。なお、❶=90%×(❶+❷)で、❷=10%×(❶+❷)である。❸は、富山大学のHC群とCHR群から構成される。❷と❸が、外部検証データセットとして使用された。❹は、全てのサイトのCHR-P-群及びCHR-UNK群で構成される。
† ComBat(Combined association test)法は、統計モデルの中にバイアス項を取り込んで、その程度を推定した後に、バイアス除去を行う調和手法☛https://www.jstage.jst.go.jp/article/jjmrm/42/1/42_2021-1740/_pdf 
3⃣ 年齢及び性別の考慮 
 思春期は、精神病発症のリスクが高い期間である。それと同時に、同期間は、健常者(HC群)であっても、脳構造特徴に大きな変化がある期間でもある。そのため、ある精神疾患とHC群を比較したときに、得られた結果が「正常な思春期発達による変化」か、精神疾患による影響かは判別できない。
 そこで、本研究では、「正常な思春期発達による変化」を抽出することによって、上記課題を解決した。具体的には、まずHC群データのみに一般化加法モデル(GAM)を適用し、各脳構造特徴における年齢と性別の非線形効果(男女別の健常思春期脳発達曲線)を明らかにした。その上で、CHR群データにもこの思春期脳発達曲線を適用し、「正常な思春期発達による変化」を抽出した。
4⃣ 機械学習モデルのセットアップ 
 機械学習モデルは、勾配ブースティング回帰木(XGBoost)である。ハイパーパラメータの最適化は、scikit-learnモジュール(バージョン 1.0.2)に実装された GridSearchCVを使用して行われた。
 10分割交差検証グリッド検索が実施された。HC群の数は、CHR-PS+群より大きいので、各フォールドで、ダウン・サンプリングが行われた。ダウン・サンプリングのバイアスを軽減するために、ダウン・サンプリングとグリッド検索が1000回繰り返された。次に、学習データセットに最適なハイパーパラメーターを備えたモデルの交差検証スコアを評価した(交差検証スコアは、1000 回繰り返しの平均値)。
 学習データ内のラベルをシャッフルして、並べ替えに基づくp値が計算された(並べ替え検定)。
 4 つの異なる特徴量、(i) 大脳皮質厚のみ、(ii) 大脳皮質表面積(SA)のみ、(iii) 大脳皮質下容積のみ、および (iv) すべての特徴量、から構築された分類器が比較された。その結果、SAに対する年齢、性別、および年齢×性別相互作用の非線形効果がHC群で見つかった。結論として、SA 特徴のみを使用した機械学習モデルが最終的に採用された。
5⃣ CHR-P+群とHC群の分類予測結果 
 ❶学習・データセットを用いた場合の正解率は、85%、❷テスト・データセットを用いた場合の正解率は、68%。 ❸独立確認データセットを用いた場合の正解率は73%であった。❹を用いた場合の正解率は、CHR-P-群がHS群と判別される正解率が73%、CHR-UNK群がHS群と判別される正解率が80%であった。
† 出所論文には、そうある。出所サイトでは、❷の正解率が85%となっている。
6⃣ 意思決定曲線分析 
 ネット・ベネフィット†1を計算して、「この機械学習モデルが実際の臨床現場で使用された」と想定したときに、どれくらい役立つかを検証した。
   ネット・ベネフィット=感度 × 有病率 – (1 – 特異度) × (1 – 有病率) × v/(1-v)†2
 ネット・ベネフィットは、しきい値vを1つだけ設定した上で、「治療を行うか否か」という二元的意思決定状況における評価指標である。医学的に言うと、ネット・ベネフィットには、臨床的有用性と有病率とが反映されている。有病率は、病気であると予測される確率と定義される。
 出所サイトによれば、vが5~40%であれば、機械学習モデルによる分類(診断)を行ったほうがよいということが明らかになった。
†1 出所サイトには、純利益とあるが、それでは会計臭が強すぎる。
†2 出所論文では、v/(1-v)が50%と決め打ちで表記されてるが、それはv=1/3の場合に該当する。
7⃣ 機械学習モデルの信頼性 
 本研究の機械学習モデルでは、右上前頭回、右上側頭皮質、および両側島皮質のSAが、分類に強く寄与していた。これは、先行研究と一致しているため、機械学習モデルは信頼できると考えられる。
8⃣ 本研究の制限 
㈠  多サイトのデータを用いているため、その影響を調和させる必要がある。調和させるために、ComBat法をHC群とCHR群の両方に適用した。これは潜在的には、リークにつながる可能性がある。
㈡ 長期的な MRI データが利用できなかったため、予測確率に対する精神病と年齢の相互作用の影響をテストできなかった。
㈢  大麻やアルコールの薬物使用は、若年成人期のうつ病発症リスクの増加と関連していると報告されているが、本研究では利用できなかった。
㈣ 機械学習モデルは、CHR-PS+群とCHR-PS-群を区別するように学習しなかった。CHR-PS+群とCHR-PS-群との間の MRI測定基準の差は、小さいことが示唆されている。そのことを鑑みると、CHR-PS+群のサンプル サイズでは不十分である可能性がある。このため、CHR-PS+群とCHR-PS-群を区別させなかった。
† 機械学習・深層学習の文脈では、一般に、使うことのできない情報をモデルの学習に使ってしまうことを、リークと呼ぶ。「使うことのできない」とは、学習には使えるが(検証、テストにも使えるが)、推論時には使えないという意味である。
9⃣ サマリー 
 CHR-P+群とHC群を二値分類できる、信頼性のある機械学習モデルが構築できた。加えて、この機械学習モデルは、臨床現場でも有用である。

(16) 機械学習(ヒトとの比較無し)|特徴量抽出 
● 診断 
〖モデル〗ロジスティック回帰  
‖疾患‖肺高血圧症
‖器官‖肺
日付:24年1月31日
研究主体:琉球大学、帝京大学
出所:https://www.u-ryukyu.ac.jp/news/52397/
論文:https://heart.bmj.com/content/early/2024/01/18/heartjnl-2023-323320
0⃣ 患者群とデータセット
❚患者群❚ 右心カテーテル治療(RHC)を受けた885名の患者。
❚データセット❚ 臨床指標と心エコー図検査指標で構成。
1⃣ 本研究の主目的
 心エコー検査の結果を使った機械学習モデルが、肺高血圧症(PH)を3つに分類できるかを調査することが、本研究の主目的である。さらに、機械学習モデルを「ガイドラインに基づく心エコー検査評価」と比較する。
2⃣ PHの分類 
 PHが疑われる患者を、RHCから得られた値に基づいて、PHではない(非PH)、前毛細血管性PH†1、および後毛細血管性PH†2の3グループに分類する。
†1 安静下で計測した平均肺動脈圧(mPAP)が20mmHg超、肺動脈楔入圧(PAWP)が15mmHg以下、肺血管抵抗(PVR)が3ウッド単位以上、臨床群が「肺動脈性肺高血圧症(PAH)、肺疾患and/or低酸素症に由来するPH、肺動脈閉塞に由来するPH、特発性あるいは多発性PH」であるPH。前毛細血管性とは、(肺)高血圧の原因が肺毛細血管より前に存在することを指している。
†2 PAWPが15mmHg超、PVRが3ウッド単位未満、臨床群が「左心不全に由来するPH、特発性あるいは多発性PH」であるPH。
3⃣ 機械学習モデルのセットアップ
 データセット(n=885)は、学習データ(720)と検証データ(165)に分割した。
 予測モデルは(結果として)、エラスティック・ネット正則化を用いたロジスティック回帰モデルである。
4⃣ 結果 
 機械学習モデルのAUC-ROCは、0.789(非PH)、0.766(前毛細血管性PH)、0.742(後毛細血管性PH)であった。
 学習データを使ったケースで、マクロ平均正解率は、機械学習モデル59.4%に対して「ガイドラインに基づく心エコー検査評価」は51.6%であった。検証データでは、59.4%対 57.8%であった(機械学習モデルの数値は、学習データも検証データも同じ(正確に言うと「原論文ママ」))。
† 出所サイトには「分類精度」という日本語があてられている。当サイトでは平仄を合わせるために、正解率とした。なおマクロ平均を、本ケースで述べると「非PH、前毛細血管性PH、後毛細血管性PH」における各正解率の単純平均を意味する。

(15) 深層学習(ヒトとの比較無し)|多値分類|多施設
● 診断
〖モデル〗 畳み込みニューラルネットワーク 
‖疾患‖認知症(アルツハイマー病、レビー小体型認知症、特発性正常圧水頭症)
‖器官‖脳
日付:24年1月15日
研究主体:大阪大学
出所:https://resou.osaka-u.ac.jp/ja/research/2024/20240111_4
論文:https://www.sciencedirect.com/science/article/pii/S0893608023007037?via%3Dihub
0⃣ 患者群とデータセット
❚患者群❚ 大阪大学医学部附属病院(O病院)、高知大学医学部附属病院(K病院)、および日本生命病院(N病院)における「軽度認知障害(MCI)、認知症」の被験者570 名。全ての患者は、人口統計学的特徴を収集し、認知機能、神経精神症状、および脳構造を評価するための(MRIまたはCTを使用した)ベースライン評価を受けた。さらに、臨床検査(血球数や血液化学測定等)や甲状腺ホルモン、ビタミンB1、ビタミンB12、葉酸レベルの評価も実施された。
 なお、健常者69名は、大阪大学に通う一般の人々から募集された。
❚データセット❚ 安静時(眼を閉じた時の)脳波で構成されるデータセット。期間は、2009 年4月から2022 年9月まで。データセットは、軽度認知障害(MCI)グループと認知症グループで構成される。分別には、臨床的認知症尺度(CDR)と精神状態短時間検査(MMSE)を適用した。
 学習には、O病院のデータのみが使われた。K病院とN病院のデータはテストにのみ使用。各病院で使われた脳波測定器は、全て日本光電の製品であるが、型番は異なる。
❚グランドトルゥース❚ 専門医グループによるMRI、PET、認知機能テストなどの包括的な診断。
1⃣ 本研究の主目的
 まず、認知症サブタイプ間の微妙な違いを識別できる、利用が容易・低廉かつ非侵襲的スクリーニングツールが必要、という認識がある。それを踏まえて、「安静時脳波のみから、健常と認知症の識別、及び認知症サブタイプ間の識別を可能とする」学習モデルの構築が、本研究の主目的である。
 さらに、認知症のサブタイプを識別可能な脳波パターンが、先行する「軽度認知障害(MCI)」段階に存在するという仮説も検証している。
† 本研究では、アルツハイマー病(AD)、レビー小体型認知症(DLB)、特発性正常圧水頭症(iNPH)を指している。
2⃣ 深層学習セットアップ 
 データセット(O病院)は、60%、20%、20% の割合で分割された。それぞれが学習、検証、およびテスト用に割り当てられた。5-分割交差検証が採用され、5つのサブ・データセットが作成された。学習は、このサブセットを使って5回実施され、その平均(アンサンブル平均)を学習モデルの出力とする。なお、各疾患カテゴリーに対して、同数の被験者が、学習セットに含まれることを保証するために、アンダーサンプリングを実施している。
 活性化関数はMishを採用。(学習安定化・高速化策として)バッチ正則化を、過学習対策としてドロップアウト(ドロップアウト率85%)を採用。エポック数は最大50(過学習対策として、早期打ち切りearly stoppingが適用されている)。
 多値分類タスクなので、マルチタスク損失アプローチ(損失関数を、各タスクの損失関数の線形和で表す)を採用するが、損失関数の重みを最適化して見つけるという通常の手法は採らない。タスク依存不確実性(homoscedastic不確実性)を仮定して、ベイズ推定の枠組みで最尤推定により、損失関数の重みを決定している。
3⃣ 検証結果1ー健常者と患者の分類
 分類タスクの評価指標には、bACCとAUCを採用している。bACCとは、balanced正解率の略であり、bACC=(感度+特異度)/2である。bACCとAUCは、scikit-learn パッケージを使用して計算された。
㈠ O病院の検証結果:
 健常者とAD+DLB+iNPH → bACC=0.927、AUC=0.987
 健常者とAD        → bACC=0.934、AUC=0.986
 健常者とDLB       → bACC=0.951、AUC=0.993
 健常者とiNPH       → bACC=0.890、AUC=0.982
㈡ K病院の検証結果:
 健常者とAD+DLB+iNPH → bACC=0.805、AUC=0.895
 健常者とAD        → bACC=0.778、AUC=0.904
 健常者とDLB       → bACC=0.833、AUC=0.967
 健常者とiNPH       → bACC=0.833†1、AUC=0.978
㈢ N病院の検証結果:
a. 論文中で示されているデータ
 健常者とAD+DLB+iNPH → bACC=0.920、AUC=N/A
 健常者とAD        → bACC=0.950、AUC=N/A
 健常者とDLB       → bACC=1.000、AUC=N/A
 健常者とiNPH       → bACC=1.000†2、AUC=0.982
b. Supplementary informationのTable S7のデータ(データは、アンサンブル平均値)
 健常者とAD+DLB+iNPH → bACC=0.914、AUC=N/A
 健常者とAD        → bACC=0.882、AUC=N/A
 健常者とDLB       → bACC=0.857、AUC=N/A
 健常者とiNPH       → bACC=1.000、AUC=N/A
†1及び†2 HV-DLBとHV-iNPHで同じ数値であるが、原論文ママ。
4⃣ 検証結果2ー患者のマルチ分類
 認知症をAD、DLB、iNPHの3つに分類するタスク㈠~㈢及び、認知症とMCIを分類するタスク㈣を評価した(㈣は、認知症グループのデータで学習して、MCIを予測分類した)。
㈠ O病院:bACC=0.572、AUC=0.745
㈡ K病院:bACC=0.619、AUC=0.782
㈢ N病院:bACC=0.508、AUC=0.710 ・・・論文中
(S7)N病院:bACC=0.466、AUC=0.680 ・・・Table S7
㈣ O病院:bACC=0.715、AUC=0.847
5⃣ 分類結果に対する年齢、性別、MMSE スコアの影響
 健常者のうち、健常者として正しく分類された対象者の年齢は、健常者として誤って分類された対象者より若かった。しかし、認知症患者の場合、正しく予測された患者の年齢は、誤って予測された患者の年齢と有意な差はなかった。このような差異は、性別、MMSE スコアでも散見された。この理由については、「これらの変数を含めると、おそらくサンプル サイズが限られているため、過学習が発生する可能性がある」と推測されている。
6⃣ 特徴量重要度
 シャープレイ値で特徴量重要度を計測している。具体的には、周波数帯域と電極の位置について、シャープレイ値を計算している。シャープレイ値を計算するために、CNNモデルをXGBoost 回帰モデルとして近似し、SHAPパッケージを用いてシャープレイ値が計算された。その結果、 6 つの周波数帯域ー低α波、高α波、β波(速波fast wave)、γ波、δ波及びθ波(この2つは、徐波slow waveと呼ばれる)の中で、β波(13~32Hz)が最も重要であると特定された。電極位置については、O1–A1が重要であると特定された。OはOccipital(後頭部)を、Aは耳朶を表す。O1は後頭部の左側、A1は左耳朶を意味する。
7⃣ 本研究の制限 
 3⃣及び4⃣には示していないが、認知症の種類に対する分類精度は低い。AD-DLBのbACCは、0.7程度。AD-iNPH(0.6程度)やDLB-iNPH(0.5程度)はもっと低い。
 (本研究の)学習モデルは、認知機能にとって重要な「神経微小状態シーケンスのダイナミクス」を見逃している(ただし、注意機構を導入すると改善される可能性がある、としている)。

(14) 機械学習(ヒトとの比較無し)|特徴量抽出|多施設
● 予測 
〖モデル〗 k平均法 
‖疾患‖大動脈弁狭窄症
‖器官‖心臓(大動脈弁)
日付:24年1月5日
研究主体:琉球大学、帝京大学
出所:https://www.u-ryukyu.ac.jp/news/51477/
論文:https://academic.oup.com/ehjopen/article/4/1/oead136/7481830?login=false
0⃣ 患者群とデータセット
❚患者群❚ 17の病院において、重度の症候性大動脈弁狭窄症(AS)に対して、経カテーテル大動脈弁置換術(TAVR)受け、術前の心エコー検査による評価及び、TAVR後の追跡調査を受けた患者1,742名。ここから、心エコー検査パラメータの完全なベースラインデータ並びにTAVR 後のフォローアップ情報が不足している患者、またはデータ品質が悪い患者(377名)が対象から除外された。最終的に、1,365名の患者が抽出された。
† 聖マリアンナ医科大学病院、国立循環器病研究センター、獨協医科大学病院、筑波大学附属病院、大阪大学医学部附属病院、 心臓病センター榊原病院心臓外科研究所、岩手医科大学附属病院、大分大学医学部附属病院、神戸市立医療センター中央市民病院、北海道大学病院、日本海総合病院、旭川医科大学病院、自治医科大学附属病院、広島市立広島市民病院、徳島大学病院、島根大学医学部附属病院、伊勢赤十字病院。
❚データセット❚ 臨床データと人口統計データは、手動抽出により患者の電子医療記録から収集された。追跡調査は、カルテ・レビューを通じて実施され、最後の追跡調査または死亡の日付が記録された。データ収集期間は、2015年1月から2019年3月(ただし最終調査日は、2019年12月31日)。心不全、不整脈、冠状動脈疾患、脳卒中、人工弁関連の問題、デバイス移植などの心血管イベントによる死亡率および入院は、患者の医療記録または利用可能な電子データベースから取得された。
1⃣ 本研究の主目的
 TAVR前のAS患者をクラスター化することで、TAVRの予後に関する洞察を得られるかを検証することを主目的としている。
2⃣ データのセットアップ 
 本研究で使用された変数は、TAVR前の心エコー検査と臨床的特徴から取得された。ピアソンの相関係数が、変数ペアごとに計算された。変数ペアに強い相関関係が見られる場合は、臨床的重要性がより高い変数が保持され、他方は破棄された。こうして、初期変数31個が20個に削減された。全ての変数は、平均0、標準偏差1になるように正規化された。
 データセットは、学習データ80%、検証データ20%に分割された。
† 大動脈弁口面積係数(AVAi)、左室駆出率(LVEF)、1回拍出指数(SVi)、心臓形状、左室拡張機能障害の病態、および三尖弁逆流速度など。
3⃣ クラスター数の決定(推論) 
 最適なクラスター数は、エルボー法†1とシルエット分析†2を使用して、3つが最適であると決定された。
†1 クラスター数を変えて、クラスターの残差平方和(RSS、誤差平方和SSEとも言う)を計算することで、適切なクラスタ数を推論する手法。具体的には、クラスター数とRSSとの関係(曲線)を図示し、エルボー(肘)のように変曲する点を見つけることで、最適なクラスター数を推論する。なお、エルボー法は使うべきではないという論文が存在する(Erich Schubert、Stop using the elbow criterion for k-means and how to choose the number of clusters instead、https://arxiv.org/pdf/2212.12189.pdf)。
†2 シルエット係数なるものを計算し、クラスター数とシルエット係数との関係を図示し、”きれいな(歪んでいない)”図が描けていたら、該当するクラスター数が適当である、と推論する。シルエット係数sは、❶クラスタの凝集度と、❷クラスタの乖離度から計算される:s=(❷ー❶)/最大値(❶、❷)。 凝集度とは、「クラスタ内のサンプル点と、その他の点との平均距離」で定義される。乖離度とは、「クラスタ内のサンプル点と最も近い、別クラスタに属する点と、当該サンプル点との平均距離」で定義される。
4⃣ 機械学習モデル(クラスター分析)の結果 
 3 つのクラスターは、次のように特徴付けることができた。
㈠ クラスター 1・・・従来型の重度 AS。高齢、高い大動脈弁勾配、および左室肥大と関連していた。TAVR/外科的 AVR がなければ有害な転帰を引き起こす可能性があり、綿密に計画された外科手術によって転帰を改善できるクラスター。
㈡ クラスター 2・・・心機能が維持された重度 AS。維持された左室駆出分画(LVEF)、より大きな 大動脈弁口面積(AVA)、および高血圧と関連していた。TAVRによって良好な転帰が期待できるクラスター。
㈢ クラスター 3 ・・・心機能不全AS。詳しく言えば、頻脈と低流量/低勾配AS。虚弱または他の心臓機能障害などの、併存疾患の存在を示すクラスター。予後が、最も悪い━つまり、TAVRを受ける患者の予後評価において、併存疾患と弁外心臓機能不全を考慮することの重要性が示された。綿密なフォローアップや薬物療法の最適化など、追加の術後管理が必要になると考えられる。
5⃣ 本研究の制限 
① 性別や心房細動などのカテゴリ変数が、除外されている。
② 追跡期間が、比較的短かった。
③ 詳細な術後の心エコー検査データが除外されているので、術後の予後に影響を与える要因を評価する能力が制限されている。

(13) 機械学習(ヒトとの比較あり)|画像識別|多施設 
● 推論
〖モデル〗 LightGBM 
‖疾患‖心不全
‖器官‖心臓
日付:24年1月4日
研究主体:北海道大学
出所:https://www.huhp.hokudai.ac.jp/wp-content/uploads/2024/01/20240104_press.pdf
論文:https://academic.oup.com/ehjdh/advance-article/doi/10.1093/ehjdh/ztad082/7485720
0⃣ 患者群とデータセット
❚患者群❚ 心不全臨床ガイドラインの診断基準に基づいて、症候性慢性心不全と診断された75歳以上の患者†1
❚データセット❚ 学習データセットは、北海道大学病院へ通院または入院し(期間は2020年1月~2023年10月)、心不全(HF)と診断された194名の患者の歩行様式を撮影した動画+患者背景+臨床検査データ
 検証データセットは、道内の6病院†2へ通院または入院し(期間は同じ=2020年1月~2023年10月)、HFと診断された223名の患者の歩行様式を撮影した動画+患者背景+臨床検査データ
❚グランドトルゥース❚ 10 名の日本循環器学会認定の循環器専門医による臨床フレイル尺度(CFS)†3。フレイルは、(加齢による)身体的脆弱性あるいは虚弱性と訳される。
❚ベースライン❚ 機械学習モデルと比較するベースラインとなるヒトは、日本循環器学会 (JCS)認定を持たない大学院生で、訓練を受けていない独立した心臓専門医3 名を選んだ。
†1 正確には、CFS算出には適当でないと判断された患者は、患者群から除外されている。
†2 北海道病院、北見赤十字病院、小樽協会病院、砂川市立病院、(国立病院機構)函館病院、市立釧路総合病院
†3 CFSは、以下のように構成される:1(非常に健康)、2(良好)、3(良好に管理)、4(虚弱)、5(軽度の虚弱)、6(中等度の虚弱)、7(重度の虚弱)。
1⃣ 本研究の主目的
 フレイルを評価する客観的ツールの開発が、本研究の主目的である(これは、フレイル評価の自動化につながる)。フレイルが、HFによる死亡に関連する独立した因子であることを検証することは、副次的な目的である。
 フレイルはHF患者の予後不良因子であり、フレイルは15 か月死亡率と有意に関連している。このため、HF患者のフレイルを評価することには価値があるが、フレイルをどのように測定すべきかについてはコンセンサスがない。そのため、フレイルを評価する客観的ツールの開発を目指した。具体的には、CFSに対する、機械学習ベースの自動評価システムを開発し、その実現可能性を探った。
† 本研究では、全ての患者のCFSは、3~6と評価された。
2⃣ データ生成 
 歩行解析システム使って撮影した画像から体の構造を抽出するために、深層学習ベースの人体キーポイント検出アルゴリズムOpenPose®を使用。OpenPose®からの出力データは、フレームごとの推定結果であるため、前後のフレーム関係は考慮されない。したがって、左足と右足の推定にはいくつかの誤検出が存在する。対策として、まず、異常検出アルゴリズムを使用して誤推定を検出した。次に、前後の値からスプライン補間を使用して、データを修正した。
 具体的には、前回の位置からプラス方向に 50 ピクセル以上、マイナス方向に35 ピクセル以上の関節位置変化を含むフレームを異常フレームと定義。異常フレームでは、両側足の位置データ(股関節、膝、足首、親指、小指、かかとの位置)を削除し、前後の値からスプライン補間を行った。
 特徴量抽出には、プリファード・ネットワークスのOptuna®を使用した。特徴量の数は、臨床情報5個(年齢、性別、身長、体重、杖の使用)を含む128個。ここからシャープレイ値に従って、45個が抽出選択された。
3⃣ データのセットアップ 
 学習データセット(北海道大学のデータ)は、学習データ80%、テストデータ20%に分割された。 5分割交差検証とハイパーパラメーターの最適化が 50 回繰り返され、最適な特徴量が探索された。最終的に選択された特徴量を使ってLightGBMモデルが学習され、検証データセット(道内6病院のデータ)で検証された。検証データセットは、学習データ90%、テストデータ10%に分割され、10分割交差検証が実施された。
4⃣ 学習モデル 
 (デフォルトの「決定木」ではなく)extremelyランダム決定木(randomized trees)に基づくLightGBMが使用された。
5⃣ フレイルの予測結果
 ここでは、まず、機械学習モデルが出力するCFSをグランドトルゥースと比較する。次に、グランドトルゥースを基準として、ベースラインと比較する。評価指標は、コーエンの重み付きカッパ(Cohen’s weighted Kappa;CWK)と級内相関係数(intraclass correlation coefficients;ICC)である。
 機械学習モデルが出力するCWKは、学習データセットで0.866、検証データセットで0.812であった。CWK0.81以上で、「ほとんど一致」と見做される。従って、本論文において構築された機械学習モデルは、「訓練を受けた心臓専門医と同程度の信頼性がある」と評価されている。つまり、患者の歩行様式を撮影した画像を基に機械学習が予測したCFSは、専門医によるCFSと同程度の信頼性がある、と評価された。なお、ICCは、学習データセットで0.866(誤植ではない、原論文ママ)、検証データセットで0.813であった。
 次に、ヒトと機械学習モデルの比較を行った。まずCWKのベースライン結果であるが、これは以下の通りであった:学習データセットで0.867、0.784、0.740。検証データセットで、0.777、0.677、0.675。CWKでは、機械学習モデルよりも一部で高い値(太字で表示)が出ているが、(本論文において)ヒトより機械学習モデルが優れていると評価されている(全体的に言えば、妥当な結論であろう)。
 次に、ICCのベースライン結果であるが、これは、学習データセットで0.868、0.784(誤植ではない、原論文ママ)、0.740(誤植ではない、原論文ママ)であった。検証データセットでは、0.774、0.671、0.669であった。ICCでも一部で高い値(太字で表示)が出ているが、こちらも(本論文において、)ヒトより機械学習モデルが優れていると評価されている(全体的に言えば、妥当な結論であろう)。
† 順序尺度(軽症、中等症、重症)の診断一致度を調べる場合には、カッパ係数ではなく、重み付けカッパ係数を用いる方がより適切とされている。
6⃣ 死亡因子としてのCFSの独立性
  全死因死亡に対する予測CFSの影響を評価するために、4つの多変数コックス比例ハザードモデルが構築された。
モデル1・・・年齢と性別で調整。モデル2・・・メタアナリシス・グローバル・グループ・イン・クロニック(MAGGIC)リスク・スコア†1に合わせて調整。モデル3・・・MAGGICリスクスコアと N 末端プロ脳性ナトリウム利尿ペプチド(NT-pro BNP)†2濃度について調整。モデル4・・・MAGGIC リスク スコア、NT-pro BNP、および血清アルブミンについて調整。無調整のモデル0と併せて、ハザード比を計算したところ、結果は次の通りであった(p値はいずれも0.05未満)。1.57(モデル0)、1.64(モデル1)、1.60(モデル2)、1.65(モデル3)、1.60(モデル4)。ハザード比が1より大きいので、(予測)CFSは、独立した因子であることが示された、と結論している。つまり、患者の歩行様式を撮影した画像から機械学習が予測するCFSによって、HFの予後が予測できる、と結論している。
†1 慢性安定期心不全患者の長期予後を予測するために用いられるスコア。
†2 NT-pro BNPの血中濃度は、臨床において心不全のマーカーとして用いられている。脳卒中発症の予測因子となる可能性も示唆されている(出所:https://www.daiwa-grp.jp/dsh/results/39/pdf/02.pdf)。N末端プロB型ナトリウム利尿ペプチドとも呼ばれる。
7⃣ 機械学習モデル出力の性能が高い理由
 「修正デルファイ法を使用して、学習データを可能な限り改善したこと」を上げている。👉下記8⃣❶を参照。
8⃣⃣ 本研究の制限 
❶  グランドトルゥースであるCFS は、修正デルファイ法を使用して訓練を受けた 10 人の心臓専門医によって測定された。デルファイ法は多数決に基づいて意見を集約するため、評価者の傾向や価値観によって結果が影響を受ける可能性がある。
❷ CFS5または、CFS6と評価された患者の数が比較的少なかった。したがって、機械学習モデルの性能は制限される可能性がある。さらに、学習データセットと検証データセットとの間では、患者の特徴にいくつかの違いがあった。
❸ 生存分析の追跡期間中央値は391日と比較的短い。このため、長期予後との関連を調査することができなかった。
9⃣ 追記
 順天堂大学の研究で、以下がしめされた:①身体的・社会的・認知的フレイルを多く合併すればするほど、死亡率が有意に高くなること、②死因(の増加)は、非心血管死(の増加)であった。
† Koichi Ohashi et al.、Impact of Multidomain Frailty on the Mode of Death in Older Patients With Heart Failure: A Cohort Study、https://pubmed.ncbi.nlm.nih.gov/38529634/

(12) 深層学習|画像識別 
● 診断 
〖モデル〗 ResNet18 
‖疾患‖結核 
‖器官‖肺 
日付:24年1月3日
研究主体:米ワシントン大学
論文:https://www.science.org/doi/10.1126/sciadv.adi0282 
0⃣ 患者群とデータセット
❚患者群❚ ケニア・ナイロビにおける結核の成人外来患者。結核(tuberculosis;TB)は、GeneXpert†1(MTB/RIF†2またはUltra)において陽性であった、自然発生の喀痰サンプルに基づいて診断され、抗酸菌(AFB)培養によって確定診断された。結核患者は103名†0。結核患者の年齢中央値は 36 歳。その他の呼吸器疾患の対照者†3は46名。対照群の年齢中央値は 40 歳 。結核患者と非結核患者の性別分布は、同一に保たれた。
†0 abstractでは146名となっているが、誤植ではないか?
†1 米ベックマンコールター社製の自動遺伝子解析装置。
†2 GeneXpertの専用試薬。リアルタイムPCR法により、結核菌群(とリファンピシン耐性遺伝子)を、およそ2時間で検出する。
†3 全員がGeneXpert陰性。胸部X線検査が結核と一致せず、臨床医が、結核以外の症状(例えば、細菌性肺炎、ウイルス性上気道感染症、喘息)を診断した。
❚データセット❚ 
 専用の比較的静かな部屋で、被験者149名から、音声データを取得した。音声データとは、咳嗽の音声データであり、咳嗽は、受動的咳嗽と強制的咳嗽からなる。受動的咳嗽は、(結核のため)自然に発せられる咳である。強制的咳嗽とは、無理やり発せられた咳である。強制的咳嗽は、結核患者42名+非結核患者8名から収集した(10回咳をするよう促された)。
   音声データは、同時に使用される 3つのデバイス†4を使って録音された。録音は、 連続2時間行われた。受動的咳嗽の数は、 43,200個であった。そこから、背景雑音と音声歪みが最小限の咳を選択し、33,641個となった。 強制的咳嗽の数は、クレンジング後、1,225個であった。
†4 スマートフォン(Google Pixel2)、バウンダリー・マイク(低廉・低質)、およびコンデンサー・マイク(高価・高質) 
❚グランドトルゥース❚ 原因菌(起因菌)の遺伝子解析及び喀痰培養の結果 
1⃣ 本研究の主目的
 結核は、遺伝子解析あるいは喀痰培養によって確定診断されるが、そのような検査が利用できる地域は少ない。そのため、世界保健機関(WHO)は、症状のスクリーニング(発熱、咳、寝汗、または体重減少の有無を評価する)を推奨しているが、その予測精度は低い。
 このような背景の下、「咳の音声周波数とその時間領域の特徴」から、結核患者と非結核患者を識別できる二値分類器を開発することが、本研究の主目的となる。
 副次的な目的としては、多値分類がある。結核患者を、症状が軽い患者と、症状が重い患者に区別できるか(つまり3値分類)を検証した(結果は、割愛)。
† "識別できる"を定量的に言うと、感度90%超、特異度70%超である。
2⃣ 比較モデルと比較指標 
 本研究で開発された「結核を分類する深層学習モデル(畳み込みニューラルネットワーク;CNN)」は、TBscreenと名付けられた。採用されたCNNは、具体的にはResNet18である。TBscreenは、スカログラム†1を画像として、ResNet18に入力し、画像識別を行い、結核と非結核の二値分類を行う。
 TBscreenは、2つのモデルと比較された。一つは、メル・スペクトログラム†2を入力としたResNet18(以下、紛らわしいのでResNetメルとする)。もう一つは、一般的な音声分類モデルVGGish†3を使ったモデル(以下、VGGishと表記する)である。
 比較指標は、AUC-ROC、感度、特異度である。
 なお、全てのモデル(TBscreen、ResNetメル、VGGish)は、ワシントン大学Hyakスパコン・システムの一部である、複数のGPU(Nvidia RTX 2080 Ti、Quadro RTX 6000)を使用して PyTorch で学習された。
†1 ウェーブレット変換された信号を、横軸に時間、縦軸に周波数をとって表示した図を、スカログラム、と言う。
†2 メル・スペクトログラムは、音声信号の周波数特性をより人間の聴覚に近い形で表現するため、音声処理や音声解析において広く使用されている。
†3 画像タスクに用いられるCNNモデルであるVGG(Visual Geometry Group)-16をベースとして、音声識別に適用した学習済モデルがVGGishである。「横軸が時間、縦軸が周波数」である音声スペクトログラムを入力として、音声識別を行う。
3⃣ データのセットアップ 
 咳音声データには、(ワシントン大学の)人間のアノテーターが、Audacity†1を使用して注釈を付けた。 ファン、ドア、会話などの背景雑音を伴う咳、またはくしゃみや鼻/喉の掃除などのその他の呼吸音は除外された。さらに、波形歪みのある咳音声ファイルは、振幅ベースのしきい値処理を使用してデータセットから削除された。各咳の音は 1 秒の固定長になるように処理され、1 秒を超える録音は複数の音声ファイルに分割された。長さが 1 秒未満のデータは、パディングを行って(0 を挿入して)長さを1 秒にした。0.1 秒未満のデータは破棄された。
 データセットは、学習データ60%、検査データ20%、テストデータ20%に分割した。検査データは、ハイパーパラメータの調整に用いた。汎化性能を評価するために、5分割交差検証が採用された。音声データに、Morlet†2ウェーブレット変換を適用し、スカログラムを生成した。
 データセットは、3種類(T1、T2、T3)作られた。T1は、結核患者45名、非結核患者45名で構成されるデータセットである。被験者全体(149名)では結核患者が多いので、両者を均等にしたデータセットとしてT1を作った。T2はフルセット(結核患者103名、非結核患者46名)のデータセットである。T3は、強制的咳嗽のみで構成されたデータセット(結核患者29名、非結核患者8名)。受動的咳嗽について学習されたモデルが、強制的咳嗽を識別できるかを検証するために用いた(T3による結果は、割愛)。
†1 デジタル・オーディオ編集ソフトウェア。フリーソフトウェア。
†2 Morlet マザー ウェーブレットの形状がオーディオ波形の形状に似ているため、選択された。
4⃣ ニューラルネットワークのセットアップ 
㈠ アーキテクチャ・・・入力→特徴層→適応的平均プーリング層→分類層→出力。
 特徴層=畳み込み層。分類層=ドロップアウト層→ReLU活性化層→ドロップアウト層→シグモイド層。
㈡ オプティマイザー・・・Adam 
㈢ 学習率・・・TBscreen及びResNetメルは、特徴層で2×10-5、分類層で1×10-6。VGGishと多値分類器は、特徴層で1×10-5、分類層で1×10-4
㈣ 学習率スケジューリング・・・20エポックごとに、学習率を1/10減少させる。
㈤ 早期停止(early stopping)・・・最低20エポックは学習が行われ、その後早期停止を判断する。学習損失が10 連続エポックで改善されない場合、あるいは検証損失が10 連続エポックで増加した場合、学習は停止される。
㈥ バッチサイズ・・・32 
㈦ 損失関数・・・二値分類器では、二値交差エントロピー損失†1を採用。多値分類では、交差エントロピー損失†2を採用。
†1 正確には、PyTorchのBCELoss()ではなく、BCEWithLogitsLoss()を使用。後者は、数値的に安定である、という理解で十分であろう。
†2 PyTorchのCrossEntropyLoss()を使用。
5⃣ 結果及び比較結果
 まずベストな条件†1で、TBscreenの結果を示す。感度90%、特異度70%に近い水準まで到達しているとの自己評価が下されている。
          AUC-ROC0.86、感度0.81、特異度0.73 
 次に、平仄を併せた条件†2で、比較モデルと比較した結果を示す。
㈠ TBscreen・・・ AUC-ROC0.79、感度0.70、特異度0.71 
㈡ ResNetメル・・・AUC-ROC0.67、感度0.66、特異度0.58 
㈢ VGGish・・・  AUC-ROC0.66、感度0.62、特異度0.61 
 当然ながら、TBscreenが最も良い性能を示している。
†1 データセットはT2。条件「スマートフォンで録音。周波数は10Hz~4kHz、サンプリングレートは44.1kHz」は、ヒューリスティックスの結果である。
†2 全てのデバイスで録音。データセットはT1。TBscreenは、周波数は10Hz~4kHz、サンプリングレートは44.1kHz。ResNetメルは、サンプリングレートは44.1kHz。VGGishは、サンプリングレートは16kHz。論文で示されている比較可能な条件は、これしかない。
6⃣ 本研究の制限
❶ とにかく、被験者が少な過ぎる。
❷ 静かな環境下で録音した咳音声データを使っている(cf.下記7⃣④)。
7⃣ コメント
⓪(まとめ) 教科書的に言えば、データが少ない場合、機械学習>深層学習であり、今回のケースでは機械学習モデルが選択されてもおかしくなかった。また、説明可能性の問題もあり、医療分野では(少し前まで)機械学習モデルが選択される傾向があった。今回、結核(を含む肺疾患の)診断において「周波数領域の情報+時間領域の情報」がキモであるというドメイン知識を活用している。そのドメイン知識をもとに、音声データを、周波数領域と時間領域の2軸で表現するデータに変換し、音声データを画像データとして取り扱っている。この時点で、機械学習という選択肢はないし、RNN(LSTM)という選択肢もないだろう。もっとも、音声データを画像データとして使うというアプローチ自体は、本研究のオリジナルではない。ウェーブレット変換を適用したスカログラムを使用した、という点がオリジナルとなる。
① 咳音声データを使って結核診断を試行した先行研究と、本研究との大きな違いは、データの質であることは間違いない。先行研究では、データセット内に性別の不均衡が存在したり、顕著な周囲騒音が存在していた。さらに本研究では、非結核関連対照から結核を除外するための厳密な評価、結核治療開始前に取得された咳の記録、厳格な記録条件と標準化された記録の長さ(2時間)、およびジェンダーバランスのとれたデータセットが使用されている。
② TBscreenとResNetメルと比較は、(厳密ではないだろうが)アブレーション分析になっていて、メル・スペクトログラムの代わりに、スカログラムを使うことの優位性が示されている(と自己分析されている)。スカログラムが優位である(正確には、メル・スペクトログラムが劣位である)理由として、以下をあげている:メル・スペクトログラム作成に用いられるフィルターは、人間の耳の周波数感度を模倣している(加えて、スペクトログラムの次元を削減する)。臨床医が咳の音を聞いて結核の診断を下すことは困難である。つまり、人間の耳の周波数感度を模倣するアプローチは、筋が悪い。
③ 高性能のコンデンサー マイクよりも、スマートフォンを使って録音した咳音声データの方が、良い結果を出した。この理由は、「コンデンサーマイクの感度が高すぎるため、周囲の音をより多く取り込み、音声の歪みにより学習データセットが小さくなってしまった」とされている。
④ 身体音響に基づく非侵襲的モニタリング法をレビューした論文によれば(言わずもがなではあるが)、医療診断に音響信号を使用する際の課題は、㊀「様々なノイズ・セットが存在すること」と㊁「音響信号の時間的およびスペクトルの内容が、取得位置に大きく依存すること」である。身体音響ベースなので、㊁はセンサーを身体に貼付するケースで、本研究とはマッチしないが、㊀は本質的に当てはまる。アフリカなどの生活環境の中で、スマホを使って録音した咳音声データで、どの程度の性能が発揮されるのかが重要である(と、本研究内でも認識されている)。
† Jadyn Cook et al.、Body Acoustics for the Non-Invasive Diagnosis of Medical Conditions、https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9032059/

(11) 深層学習(ヒトとの比較無し)|画像識別|多施設 
● 予測
〖モデル〗 ニューラルネットワーク 
‖疾患‖がん(局所進行扁平上皮がん)
‖器官‖食道
日付:23年11月30日
研究主体:広島大学
出所:https://www.hiroshima-u.ac.jp/news/80439
論文:https://link.springer.com/article/10.1007/s00330-023-10020-8
0⃣ 患者群とデータセット
❚患者群❚ 進行食道癌患者。
❚データセット❚ 食道癌患者のCT画像、PET画像、(放射線治療の)線量分布から、それぞれ11,063個の画像特徴を抽出して、データセットを構築した。
1⃣ 本研究の主目的
 手術前に腫瘍の消失を予測できる学習モデルを構築することが、本研究の主目的である。局所進行食道がんでは、化学放射線療法により、手術を行う時点で腫瘍が消失しているケースが、約40%も存在する。手術前に腫瘍の消失を予測できれば、臓器(食道)の切除が不要になる。
2⃣ 学習モデル 
 ❶決定木、❷サポートベクターマシン、❸k近傍法、❹ニューラルネットワーク(NN)に対して、「①正解率、②感度、③特異度、④AUC」で評価した。
3⃣ 成果
 ハイブリッドのモデルのみを掲載した。ハイブリッドモデルとは、一定割合で複数病院のデータを混合したモデルを指している。具体的には、神戸大学との共同研究により、複数病院のデータを混合した。
 下記、㈠~㈢の各カテゴリーにおける最良値は太字で示した。全カテゴリーにおける最良値には、さらに下線を引いた。
㈠ CT画像
❶ ①70.1%、②63.3%、③76.9%、④0.67
❷ ①77.0%、②75.0%、③78.9%、④0.77
❸ ①84.4%、②68.8%、③100%、④0.76
❹ ①69.8%、②70.0%、③69.6%、④0.68
㈡ PET画像 ・・・同じ数値が散見されるが、原論文ママ。
❶ ①68.6%、②58.3%、③78.9%、④0.73
❷ ①71.9%、②57.1%、③86.7%、④0.76
❸ ①68.6%、②58.3%、③78.9%、④ 0.70
❹ ①86.0%②94.4%、③80.0%、④0.83
㈢ 線量分布
❶ ①55.7%、②52.4%、③59.1%、④0.56
❷ ①74.4%、②71.4%、③77.3%、④0.74
❸ ①69.7%、②66.7%、③72.7%、④0.70
❹ ①61.5%、②73.0%、③54.2%、④0.80
4⃣ 結論 
 PET画像を使ったNNの結果が、(CT画像×k近傍法の特異度を除いて)ほぼ最良である。このため、学習モデルはNNを採用する。そして、手術前の画像データで、腫瘍の消失を予測する学習モデルを構築できた、とする。

(10) 深層学習(ヒトとの比較無し)|画像識別
● 予測
〖モデル〗 浅層ニューラルネットワーク 
‖疾患‖がん(悪性黒色腫を伴う転移性脳腫瘍)
‖器官‖脳
日付:23年11月30日
研究主体:広島大学及び米ミネソタ大学
出所:https://www.hiroshima-u.ac.jp/news/80359
論文:https://www.sciencedirect.com/science/article/abs/pii/S0009926023003719
0⃣ 患者群とデータセット
❚患者群❚ 2013年から2016年に米ミネソタ大学医療センターで、ガンマナイフ手術を受けた、悪性黒色腫を伴う転移性脳腫瘍(MBM)患者30人(腫瘍220個)。BRAF変異の遺伝子検査は、頭蓋外黒色腫の生検または切除で得られた組織に対して行われた。220の腫瘍のデータは2つのグループに分類された。1つはBRAF変異が同定された群、もう1つはBRAF変異が同定されなかった群である。
❚データセット❚ ガドリニウム†1造影T1強調†2MRI画像から、1,962のラジオミクス特徴量†3を抽出した。この場合のMRI画像は、ガンマナイフ手術を行う前に撮像された、治療計画画像データである。
 なお、オーバーサンプリング手法として、SMOTE(Synthetic Minority Over-sampling TEchnique)を採用している。
†1 ガドリニウムは弱い磁性をもつ原子で、その周囲にある陽子の緩和を促進して、T1値を短縮する働きがある。結果として、T1強調画像における信号強度が上昇する(出所:https://camic.jp/column/15_202209/)
†2 T1は、一般に縦緩和(横緩和は、T2)と呼ばれる。エネルギーを失う緩和を意味している。T1強調は、「解剖学的構造が捉えやすく、形態異常を発見しやすい」とされる(出所:https://www.jstage.jst.go.jp/article/jrn/14/0/14_140224/_pdf/-char/ja)。
†3 病変の生物学的情報と医用画像から抽出した多数の定量的な「特徴量」を関連付けて網羅的に解析することをラジオミクスと呼び、先に言及した特徴量をラジオミクス特徴量と呼ぶ(出所:http://jsrtkinki.jp/wp/wp-content/uploads/501e0868e9de7df218732c0d2ae5edd1.pdf)。
1⃣ 本研究の主目的
 遺伝子変異(BRAF変異)を有する患者は、治療予後が優れている。ただし、遺伝子検査は費用(自由診療にて50万円以上)及び時間(4~6週間程度)を要するため、患者負担が大きい。このため、MRI画像からBRAF変異を予測可能な(つまり、治療予後を予測可能な)、学習モデルを開発することが主目的となる。
¬ AからCまであるRAFタンパク質の内、B・RAFタンパク質を作る遺伝子がBRAF遺伝子である。RAF遺伝子に異変が生じ、不必要なときにRAFタンパク質が作られると、がんが発生しやすくなると考えられている(出所:https://gan-genome.jp/treat/braf.html)。
2⃣ 特徴量削減
 ラジオミクス特徴量はラッソ回帰モデルを用いて、16個まで削減された。
3⃣ 成果及び結論 
 SMOTEを使用しない場合の予測性能は、正解率77.14%、感度81.85%、特異度82.44%、AUC0.79。SMOTEを使用した場合、正解率83.1%、感度78.82%、特異度87.07%、AUCは0.82となった。
 結論として、MRI画像から治療予後を予測可能な学習モデルが構築できた、とする。

(9) 深層学習(ヒトとの比較無し)|分類|多施設
● 推論 
〖モデル〗 ニューラルネットワーク 
‖疾患‖がん(膵管腺がん)
‖器官‖膵臓 
日付:23年11月25日
研究主体:MIT
論文:https://www.thelancet.com/journals/ebiom/article/PIIS2352-3964(23)00454-1/fulltext
Supplemental Material :https://www.thelancet.com/cms/10.1016/j.ebiom.2023.104888/attachment/fe40c68b-9238-47cc-ba76-433e71f5bcf8/mmc1.pdf
0⃣ 患者群とデータセット
❚患者群❚ まず、40 歳以上で、下記※のICD-10/ICD-9コードのいずれかを持つ患者132,789名を抽出。病歴が不十分な患者(94,994名)等を除外し、35,387名のPDAC グループを取得した。
 対照群は、まず、下記※のコードを持たない 40 歳以上の患者51,139,587名を抽出。そこから、6,499,996名の患者を均一にサンプリングした。次に、不十分な病歴を持つ患者(4,972,828名)等を除外し、1,500,081名の対照群を取得した。
(※) C25.0、C25.1、C25.2、C25.3、C25.7、C25.8、C25.9及び157。 ICD-10では「C25」が、膵の悪性新生物<腫瘍>。ICD-9では、157が膵臓に該当する。例えば、C25.0は「膵頸部」、C25.3は「膵管」で、C25.9は「膵、部位不明」。C25.5及びC25.6は存在せず、C25.4は内分泌膵。
† ICD(International statistical Classification of Diseases and related health problems)は、WHO(世界保健機関)が勧告した国際疾病分類(疾病及び関連保健問題の国際統計分類)。1990年にICD9からICD10に改定、2018年にICD11に改定された。
❚データセット❚ TriNetXの電子医療記録(EHR)データベースを使用した。TriNetX は、EHR データの収集と配信を専門とするグローバルな研究ネットワークである。より具体的には、米国における55の医療機関(HCO)から匿名化されたEHR データを使用した。平均して、各HCOは約 13 年分の履歴データを提供する。データセットは、「基本的特徴、診断特徴、投薬特徴、検査特徴」で構成される。特徴量は87個。
† EHR(Electronic Health Record)は、医療機関や地域を跨いで共有される点で、EMR(Electronic Medical Record≒電子カルテ)と異なる。
1⃣ 本研究の主目的
 一般住民向けに、膵管腺がん(PDAC)を発症するリスクが高い人を特定する学習モデルを開発することが、本研究の主目的となる。具体的には、EHRのデータから、将来(6~18ヶ月後)の高リスク患者を特定する機械学習・深層学習モデルを開発する。
¬ 現在のガイドラインは、PDACに対する家族歴または遺伝的素因を持つ患者が対象。
2⃣ 従来ガイドラインと学習モデルの概要
 従来のガイドラインでは、標準化罹患比(SIR)†1=5が、患者の10%に対応している(感度で換算すると10%ということになる)。従来のガイドラインにおけるSIR は、SEER†2データベースから取得した、米国一般人口の人口統計的に一致する、PDAC罹患率に基づいていて算出する。学習モデルでは、モデル出力を使ってSIRを算出する。
†1 SIR(Standard Incidence Ratio)は、ある集団の罹患率が、基準となる集団と比べてどのくらい高いかを示す比と理解することができる(出所:https://ganjoho.jp/reg_stat/statistics/qa_words/word/hyouzyunkarikanhi.html)。
†2 SEER(Surveillance Epidemiology and End Results)は、米国における癌の「罹患率、生存率や死亡率」等、癌に関する統計データを収集しているサイト。データは、1973年から収集されている。30種類以上の癌の情報を集めており、アメリカの人口の約26パーセントをカバーしている(出所:https://integbio.jp/dbcatalog/record/nbdc00321)。
3⃣ 学習モデルのセットアップ
 ニューラル ネットワーク(PrismNN)とロジスティック回帰(PrismLR)という2 つのモデルを学習した。データは分割され、その内、学習用として75%が、「検証」用に10%、テスト用に15%が、割り当てられた。ここで言う「検証」用データは、モデル性能の検証用ではなく、ハイパーパラメーター選択の為に用いられる。
 データセットは9個作成して、学習は9回実行した。AUCは、9回の平均値を使う。
4⃣ ニューラルネットワークのセットアップ 
 pytorch 1.12.1 で学習した。入力層(64ニューロン)+隠れ層(20ニューロン)+出力層(1ニューロン)で構成。活性化関数は、tanh関数。オプティマイザーはAdamW(重み減衰は10-2)。エポック数16で、 各エポックには 1000 のミニバッチがあった。学習率スケジューリングは、コサイン・アニーリングを使用して、学習率を 2 × 10-3から 5 × 10-5までスケジュールした。
 重度の過学習が観察されたので、BinMask法によって計算されたスパース重みを使用した。L0正則化係数として、2 × 10-5、3 × 10-5、および 4 × 10-5が使用された(どれが選択されたかは明示されていないと思われる)。
 データ拡張も使用された。データ拡張には、数値をランダムに混合すること、EHR エントリをランダムにマスクすること、人口統計情報(性別と生年月日)をランダムに削除することが含まれる。
 ロジスティク回帰モデルは最終的に選ばれていないので、同モデルのセットアップは割愛。
5⃣ 結果
⓪ 指標・・・感度、特異度、陽性適中率、AUC。
❶ 概要・・・平均AUC0.826(NN、以下同じ)∥0.800(ロジスティク回帰、以下同じ)。👉NNが、ロジスティク回帰を上回っている。
❷ 場所別平均AUC・・・中西部0.735∥0.748。、北東部0.723∥0.748、南部0.747∥0.751、西部0.754∥0.730。☞NNは、必ずしもロジスティク回帰を上回っていない。
❸ 人種別平均AUC・・・AIAN†30.822∥0.787、アジア人0.835∥0.809、黒人0.821∥0.803、NHPI†40.893∥0.877、白人0.768∥0.793。👉NNが、ロジスティク回帰を、ほぼ上回っている。
❹ 年齢別平均AUC・・・40~49歳0.847∥0.822、50~60歳0.796∥0.767。50歳以上0.797∥0.766、70歳以上0.775∥0.741。👉NNが、ロジスティク回帰を上回っている。
†3  American Indian or Alaska Native
†4 Native Hawaiian or Other Pacific Islander
【補足:予測因子】
 「年齢、性別、糖尿病、膵炎、膵嚢胞、腹痛」+「高血圧、高コレステロール血症、腎機能、PDAC診断に先立つ臨床来院の頻度」
6⃣ 結論 
 まずは、NNの結果がロジスティク回帰モデルの結果より優れているとして、学習モデル(のアーキテクチャ)は、NN(PrismNN)が選択された。PrismNNは、SIR=5.10に対して、6~18 か月前に、感度35.9%を示した(特異度は、95.3%)。従来のガイドラインでは、SIR=5に対して感度10%である。従って、深層学習モデルが優れているとする。
7⃣ 本研究の制限 
㈠ モデルの開発と検証は後ろ向き研究である。早期疾患の臨床検出の有効性を評価するには、前向き研究が必要(過去の症例による検証が後ろ向き研究、新しい症例に基づく検証が前向き研究)である。
㈡ 特定の人種グループは、社会経済的地位により医療制度へのアクセスが制限されているため、データ内で偏った表現が行われる可能性がある。
㈢ TriNetXには、多様な米国のHCOが組み込まれているが、今後の研究では、より地理的に多様なデータに基づいて評価する必要がある。
㈣ 学習モデルの推論プロセスを解釈したり、モデルから臨床知識を抽出したりすることは、本研究の射程外。今後、モデルの解釈可能性を向上させ、意思決定プロセスの信頼性と透明性を高める必要がある。

(8) 機械学習(ヒトとの比較無し)|画像識別
● 予測
〖モデル〗 ロジスティク回帰モデル 
‖疾患‖強度近視
‖器官‖眼
日付:23年11月9日
研究主体:東京医科歯科大学
出所:https://www.tmd.ac.jp/press-release/20231109-1/
論文:https://jamanetwork.com/journals/jamaophthalmology/article-abstract/2810735
0⃣ 患者群とデータセット
❚患者群❚ 強度近視患者967名(1,616眼)。期間は2011年10月から2021年5月まで。平均年齢は58.5歳で、女性は678名(割合70.1%)であった。
❚データセット❚ 一般情報、基本的な眼科情報、眼底写真と光干渉断層計に基づく「近視性黄斑症のカテゴリー」を含む34の特徴量から構成される。近視性黄斑症は、病変なし(カテゴリー0)、豹紋状眼底(カテゴリー1)、びまん性萎縮病変(カテゴリー2)、限局性萎縮病変(カテゴリー3)、黄斑萎縮(カテゴリー4)に分類される。
1⃣ 本研究の主目的
 5年後に視力障害(≒失明)が発生するか否かを予測する機械学習モデルを構築すること。
2⃣ 成果 
 5年後の視力障害を予測する機械学習モデルとして、ロジスティク回帰モデルが最良であった。定量的には、正解率86.8%、感度60.0%、特異度89.6%、AUC0.87であった。
 なお、3年後の最高矯正視力(BCVA)を予測する能力はサポートベクターマシンが、5年後はランダムフォレストが最良であった(ただし、決定係数による評価)。

(7) ・(ヒトとの比較無し)|画像識別
● 診断
〖モデル〗不明  
‖疾患‖がん
‖器官‖膵臓
日付:23年11月1日
研究主体:神戸大学及び富士フィルム
出所:https://www.kobe-u.ac.jp/ja/news/article/2023_11_01_01/
0⃣ 患者群とデータセット
❚データセット❚ 約1,000症例の非造影CT画像
1⃣ 本研究の主目的
 CT画像から膵臓がんの早期発見を支援するAI技術を開発する。
2⃣ 成果
 膵臓がんの直接所見である「腫瘤」、間接所見である「膵萎縮・膵管拡張」を検出する技術の開発に成功した。

(6) 深層学習(ヒトとの比較無し)|特徴量抽出|多施設
● 診断
〖モデル〗 畳み込みニューラルネットワーク(CNN) 
‖疾患‖心房中隔欠損症
‖‖心臓
日付:23年9月7日
研究主体:慶應義塾大学
出所:https://www.keio.ac.jp/ja/press-releases/2023/9/7/28-151502/
論文:https://www.thelancet.com/action/showPdf?pii=S2589-5370%2823%2900318-8
0⃣ 患者群とデータセット
❚患者群❚ 3病院において、12誘導心電図(ECG)検査と、経胸壁心エコー検査の両方を受けた18歳以上の患者。3病院とは、慶応大学病院(KUH)、米ハーバード大学ブリガム・アンド・ウィメンズ病院(BWH)、獨協医科大学埼玉医療センター(SMC)。
 例としてKUHのECGデータは、経胸壁心エコー検査を受けた患者33,431人から収集した。この内、857人が心房中隔欠損症(ASD)と診断され、最終的に692 人がASD グループとして定義された。その内訳は、「(857人→ASD閉鎖666人→)閉鎖術前にECG検査を受けた532人」+「ASD閉鎖を行わなかった患者160人」=692人。非 ASD グループは、30,234 人で構成。
❚データセット❚ モデルを学習するためのデータは、KUHとBWHのデータで構成した。5:2:3で分割し、それぞれ、学習データ・検証データ・テストデータに割り当てた。ただし、この検証データは、 ハイパーパラメーターの調整とモデルの選択に使用された。モデルを検証するためのデータは、SMCのデータで構成した。KUHのデータ収集期間は、2011年7月から2020年12月まで。BWHのデータ収集期間は 2015年1月から2020年12月まで。SMCのデータ収集期間は、2010 年 1 月から 2021 年 12 月。
 データは、ASDに関する「肺体血流量比(Qp/Qs)、平均肺動脈圧(PAP)、ASD直径、その他血行力学的パラメーター等」を含んでいる。
❚グランドトルゥース❚ ASDは、心エコー検査で確定する。
1⃣ 本研究の主目的
 ECG検査の結果によって、ASDを臨床診断できる深層学習モデルを開発することが主目的である。これは、1分程度で済むECGと異なり、心エコー検査は時間と労力が必要なためである。
 なお、本研究の成果をまとめた論文は、医学雑誌界の頂点に君臨する2大雑誌の一つ英ランセットに掲載されている。
2⃣ 深層学習のセットアップ
 深層学習を実行したソフトウェア基盤は、 TensorFlow2.4.1である。オプティマイザーは、AdamとRMSpropを(KUHとBWHのデータで構成する検証データを使って)比較検討し、後者を選択した。初期学習率は、1.0×10-4。コスト関数は、二値交差エントロピーを使用した。
 エポック数は150。ただし、エポック毎にKUHとBWHのデータを交互に利用した(ただし、モデルで学習される重みは移転して、継続的に使用する)。これを1サイクルと呼ぶ。サイクル毎に、モデルの性能を(KUHとBWHのデータで構成する検証データを使って)評価し、最も優秀なモデルを最終モデルとして選択した。
3⃣ 統計分析のセットアップ
 すべての統計分析は、scikit-learn0.23.2および SciPy1.5.2パッケージを使用した。
 モデルの性能は、正解率、感度、特異度、陽性適中率および F1 スコア、AUROCとPR(陽性適中率ー感度)曲線で評価した。
4⃣ AUROCによるモデルの性能評価
❶ 病院別・・・KUHのデータで0.90、BWHで0.88、SMCで0.85。
❷ 人種別・・・白人0.86、黒人0.91、アジア人0.87、その他0.96。
❸ 平均PAP別・・・20 mmHg以上の場合0.94、20mmHg未満の場合0.88。
❹ Qp/Qs別・・・ 2.5以上の場合は0.99、1.5以上2.5未満の場合0.90、1.5未満の場合0.76。
❺ ASDサイズ別・・・25mm以上の場合は0.95、10mm以上25mm未満の場合は0.91、10mm未満の場合は0.65。
❻ BMI別・・・25以上の場合0.90、18.5以上25未満の場合0.90、18.5未満の場合0.94
6⃣ 様々な病態識別値における感度/特異度の一貫性
 5%~20%の範囲にわたる5%刻みの病態識別値(カットオフ値)に対して、各3病院の感度及び特異度を算出した。その結果、病院毎で大きな違いはなかった(同様の感度と特異度を持つ)、と結論している。
7⃣ 深層学習モデルの説明可能性 
 勾配加重クラス活性化マッピング(Grad-CAM)分析により、当該モデルが主に、「四肢誘導のP 波とQRS波に焦点を当てている」ことがわかった。
8⃣ 本研究の制限 
㈠ データセットは、経胸壁心エコー検査を受けた患者で構成されている。このため、結果は、選択バイアスの影響を受けた可能性がある。
㈡ 経胸壁心エコー検査によって検出された ASD を使用して学習されたため、小さな ASD が見逃され、非 ASD グループに誤分類された可能性がある。
㈢ モデルがデータセット内の年齢と性別の違いを学習した可能性がある。
㈣ モデル性能に対する、投薬や併存疾患の潜在的な影響を評価できなかった。
㈤ モデル性能は、ASD(特に小規模な ASD)の検出に関する、評価者間のばらつきの影響を受けた可能性がある。
9⃣ まとめ
 12 誘導 ECG データを使用した深層学習モデルが、ASD を優れて検出できることを示した。  

(5) 深層学習(ヒトとの比較無し)|画像識別
● 診断
〖モデル〗 畳み込みニューラルネットワーク(CNN) 
‖疾患‖悪性リンパ腫 
‖器官‖ー 
日付:23年8月29日
研究主体:東京医科歯科大学 
出所:https://www.tmd.ac.jp/press-release/20230829-1/
論文:https://link.springer.com/article/10.1007/s00330-023-09937-x
0⃣ 患者群とデータセット
❚データセット❚ (悪性リンパ腫が疑われる患者か?) データは、サルコイドーシス56例、悪性リンパ腫62例の18F-FDG PET/CT†1のMIP画像†2
†1 がん細胞は、正常細胞よりも、分裂が盛んに行われるため、ブドウ糖をより多く必要とする(ただし、全てのがんに当てはまるわけではない。通常細胞と同程度のブドウ糖しか要しないがん細胞も存在する)。そのため、ブドウ糖に似た性質を持っている18F-FDG(18F-フルオロ・デ・オキシ・グルコース)を使ったPET/CTでは、がんの広がり具合が分かる、とされる。
†2 MIPで作成した画像。MIP(Maximum Intensity Projection:最大値投影法)は、一本の光線が通る断層像群中の画素の中で、最も高い画素値を、投影面上の画素値とする方法。平均画素値を使えば、平均値投影法となる。
1⃣ 本研究の主目的 
 深層学習モデルを使って、画像データから、悪性リンパ腫とサルコイドーシスとを識別(臨床診断)する。
¬ 身体のさまざまな部位に肉芽腫ができる病気。悪性の病気ではない。
2⃣ 深層学習のセットアップ 
 5-倍交互交差検証を行った。
3⃣ 結果 
 指標及び結果は、❶平均正解率89.0%、❷感度89.8%、❸特異度90.7%、❹AUC0.963、である。

(4) 機械学習(ヒトとの比較あり)|推論|多施設 
● 予測
〖モデル〗決定木 
‖疾患‖がん(緩和ケア)
‖器官‖ー 
日付:23年8月29日
研究主体:京都大学
出所:https://www.kyoto-u.ac.jp/sites/default/files/2023-08/2308_SciRpts_Shimada_relj-29752a3a60a79ef0570f4c6803f3eaea.pdf
論文:https://www.nature.com/articles/s41598-023-39119-0
0⃣ 患者群とデータセット
❚患者群❚ 福井県にある福井大学病院、福井県立病院、杉田玄白記念小浜市立病院に緩和ケアチームによって治療された、がん患者213名。データ収集期間は、2015年8 月~2016年8 月の1年間。
❚データセット❚ データセットは、緩和ケアチーム活動の標準フォーマット1.0(SF-PCTA1.0)に従っている。なお、欠損値がないデータが、意図的に収集された。
 グランドトルゥースは、緩和ケアの専門家の意見・判断である。
1⃣ 本研究の主目的 
 目に見えない症状の評価が、本研究の主目的である。つまり、がん患者の苦痛の内、痛みや呼吸困難などの自覚症状を評価する方法を開発することを目的とする。(全身状態の悪化により)会話困難となった場合、客観的に自覚症状を評価することは、難しい。
† 誰でも観察で評価できる他覚症状(目に見える症状)に対して、主観的要素の多い症状を「目に見えない症状」と定義した。具体的には、痛み、呼吸困難、疲労・倦怠感、眠気、不安、せん妄・意識障害、スピリチュアル・ペイン、インフォームド・コンセントの不足。[為念・・・他覚症状は、摂食量低下、悪心、腹部膨満、便秘、浮腫、不眠など]
2⃣ 機械学習のセットアップ 
  目に見える症状と患者背景を入力として、 目に見えない症状を予測(推論)する機械学習モデルを作成した。機械学習モデルは決定木で、決定木の作成(ツール)には、RapidMinerを使用した。
 データセットの作成は、以下の通り:213名の患者(T群)を、互いに重ならないように10分割する。分割したデータ(T/10)×9で、学習データ(A群)を作る。つまりA=T×9/10。Bはテストデータ(B群)であり、B=T×1/10。データセットA×9/10+B×1/10は、10セット作成する。つまり、10-分割交差検証を実行した。
3⃣ 目に見えない症状の予測結果 
 正解率=88.0%(最良値、以下同じ)▪55/0%(最悪値、以下同じ)、感度=84.9%▪3.3%、特異度=96.7%▪24.1%であった。
 学習モデルに対する一般的な感覚では、「最良値と最悪値との差が大きい」し、「最悪値の値が悪すぎる」。それだけ、チャレンジングな課題と言えるのだろう。
4⃣ ヒトとの比較
 身体的症状「眠気、倦怠感、痛み、呼吸困難」、精神的症状「せん妄、インフォームド・コンセントの不足」に対して、感度と陰性適中率は、モデルよりも医療専門家が優れていた。一方で、不安やスピリチュアル・ペインに関しては、モデルの方が優れていた。これは、不安やスピリチュアル・ペインが、医師・医療専門家の射程外であったことを反映しているのだろう。いずれにしても、そういった未踏領域では、機械学習モデルが有効で、ヒトと補完関係を築けるかもしれない。
5⃣ 本研究の限界
❶ 患者は成人のみであり、本研究の結果は、小児では有効でない可能性がある。
❷ 外来患者の割合が少なかった(入院患者と外来患者では、異なる可能性があるため)。
❸ 将来予測は、射程外。

(3) 深層学習(ヒトとの比較あり)|画像識別
● 診断
〖モデル〗MobileNet-V2 
‖疾患‖腫瘍(鼻副鼻腔乳頭腫)
‖器官‖鼻
日付:23年8月3日
研究主体:東京慈恵会医科大学
出所:https://www.jikei.ac.jp/news/pdf/press_release_20230803.pdf
論文:https://www.nature.com/articles/s41598-023-38913-0
0⃣ 患者群とデータセット
❚患者群❚ 2018年から2021年までに、慈恵医大附属病院で内視鏡下副鼻腔手術を受けた患者53名。内21名は病理検査により、鼻副鼻腔乳頭腫と診断された。32名は、慢性副鼻腔炎患者。
❚データセット❚ 経鼻内視鏡により撮像された副鼻腔の画像14万3,167枚。これを600万枚に増加させた。
1⃣ 本研究の主目的
 深層学習モデルを使って、画像データから、鼻副鼻腔乳頭腫と(慢性)副鼻腔炎とを識別(臨床診断)する。
2⃣ ニューラルネットワークのセットアップ
 エポック数50。エポックあたり12万枚の画像を使用する(12万枚はランダムに選択)。データセットは25個作られ、学習データとテストデータが7:1で分割された。
3⃣ 連続性分析と5秒間スコア分析
 ㊀連続性分析は、「連続する画像における陽性画像の数に基づいて、 鼻副鼻腔乳頭腫の陽性陰性判断を行う」分析手法。㊁5秒間スコア分析は、「5 秒間の連続画像から得られるスコアの最大合計に基づいて、陽性か陰性かを判断する」分析手法。
4⃣ 画像ベースの予測結果 
❶ 単一データセットでの予測:感度79.46%、特異度53.56% 
❷ アンサンブル平均した予測:感度76.45%、特異度55.78% 
† 25個のデータセットを使って得られた結果の平均 
5⃣ 患者ベースの予測結果 
❶×㊀ :感度77.90%、特異度86.00% 
❶×㊁ :感度80.95%、特異度87.25% 
❷×㊀ :感度77.52%、特異度86.88% 
❷×㊁ :感度80.95%、特異度87.63% 
 ❶<❷、㊀<㊁であることが見て取れる(❶×㊁と❷×㊁の感度が同じ値であるが、ママ)。
為念:❶×㊀は、「単一データセットを使った連続性分析で、陽性陰性判断を行った」ことを意味する。
6⃣ 医師診断との比較 
 正解率としてbalanced正解率を使用している。つまり、(感度+特異度)/2を使用している。最も性能が高かった❷×㊁のbalanced正解率は、(80.95%+87.63%)/2=84.29%となる。この値が、「6年以上経験のある医師」の正解率77.6%を上回っていたので、ヒトより診断精度が高いと結論している。最も性能が低い❶×㊀でも、balanced正解率は81.95%で、77.6%より高い。またベテラン医師の正解率80.7%と比較しても、いずれも高い。
 ちなみに正解率で示すと、❷×㊁は84.98%、❶×㊀は82.79%となる。大勢に影響はない。
7⃣ モデルの優位点と劣後点 
 劣後点:㈠医師にとっては明らかな所見でも、正確な所見が得られないケースがあった。㈡モデルは、画像内遠方にある病変の検出に弱い傾向がある。
 優位点:🈩AIが正しく診断した一方で、医師の正解率が低いケースがあった→モデルが、医師とは異なる領域を認識するためと考えられる。優位点であるとともに、深層学習モデルのブラックボックス問題。
8⃣ その他
 本研究の問題点として、データ量(患者数)が少ない。また、医師との比較は同一条件ではない。医師は、学習データとテストデータを分けていない(モデルにとっては、ある意味ゼロショットが発生)し、診断に他の情報も利用している。

(2) 機械学習(ヒトとの比較なし)|二値分類
● 予測
〖モデル〗SVM(👉線形カーネル)
‖疾患‖がん(淡明細胞型腎がん)
‖器官‖腎臓
日付:23年7月13日
研究主体:東京医科大学
出所:https://www.tokyo-med.ac.jp/news/20230713pressrelease.pdf
論文:https://www.nature.com/articles/s41598-023-38097-7
0⃣ 患者群とデータセット
❚患者群❚ 1990年から2008年の間に東京医科大学病院で、根治的腎切除術または腎部分切除術を受けた非転移性 淡明細胞型腎がん患者349人から、2013年12月時点での再発状況と追跡期間に基づいて、131人の患者を選択した。内訳は、以下の通り:5年以内に再発40名(A群)、5年以降10年以内に再発22名(B群)、5~10年間再発無し37名(C群)、10年以上再発無し32名(D群)。
❚データセット❚ データセットは、がん細胞画像から抽出した、細胞核の形態的特徴90個で構成される。特徴(量)は、核の長径、短径、周囲径、核の凝集度など。5年以内再発予測の学習データは「患者131人から100人を抽出」。テストデータは、「患者131人から31人を抽出」。10年後再発予測の学習データは、「A群+B群+D群の患者94人から72人を抽出」。テストデータは「患者94人から22人を抽出」。
1⃣ 本研究の主目的
 機械学習モデルを使って、がん細胞の細胞核の形態的特徴から、再発を予測する。
2⃣ 5年以内の再発予測
 ROI[関心領域]分類の正解率92.7%(学習データ)、86.4%(テストデータ)。ROI分類のグランドトルゥースは、 2 人の上級病理学者による病理学的評価。
 再発ベースの正解率は100%。10人の再発及び21人の再発なし、を正しく予測した。
3⃣ 10年後の再発予測 
 ROI分類精度96.7%(学習データ)、74.1%(テストデータ)。グランドトルゥースは、5年以内の再発予測と同じ。
 再発ベースの正解率は100%。14人の再発及び8人の再発なし、を正しく予測した。
4⃣ モデルの限界 
 C群4人及びD群2人に誤った予測があった。腫瘍関連因子のみを使用した再発予測には限界があり、宿主関連要因を含める必要がある。

(1) 深層学習(ヒトとの比較あり)|画像識別
● 診断
〖モデル〗 畳み込みニューラルネットワーク 
‖疾患‖がん(早期がん)
‖器官‖胃
日付:23年6月6日
研究主体:理化学研究所
出所:https://www.riken.jp/press/2023/20230606_1/index.html
論文:https://link.springer.com/article/10.1007/s00535-023-02001-x
0⃣ 患者群とデータセット
❚データセット❚ 学習データは、以下の通り:国立がん研究センター東病院で約1年間に収集された連続68症例から無作為に抽出されたがん画像150枚、と正常画像(病変がない画像)150枚で構成。画像は、胃内視鏡で撮影された。画像は、(データ拡張などにより)約113万枚に増加させた。
 検証用データは、以下の通り:別の約1年間に収集された連続137症例から抽出した、がん画像462枚、正常画像396枚で構成。
1⃣ 本研究の主目的 
 深層学習モデルを使って、内視鏡画像から、早期胃がんと胃炎とを識別(臨床診断)する。加えて、病変境界を識別する。
2⃣ 臨床診断結果
 陽性適中率81.3%、陰性適中率80.4%であった。具体的には、検証用データで、がん画像387枚(83.8%)、正常画像307枚(77.5%)で、早期胃がんの有無を正しく判定した。
 症例ベースでは、130例(94.9%)で、正しく診断した。
3⃣ ヒトとの比較 
 モデルが予め、がんを正しく診断した画像387枚から38枚を無作為に抽出して、グランドトルゥースとした。この画像データを基に、6名の消化器内視鏡専門医と深層学習モデル(CNN)とで、比較検証した。指標は、❶mIoU、❷感度、❸特異度、❹正解率、❺陽性適中率、❻陰性的中率である。結果は、以下の通り。
 ❶68.7%(CNN、以下同じ)▪68.3%(専門医、以下同じ)、❷69.9%▪49.8%、❸94.0%▪98.9%、❹91.7%▪93.3%、❺62.9%▪89.0%、❻93.3%▪93.8%
 CNN>ヒトが、❷。CNN<ヒトが、❸❹❺。CNN≃ヒトが、❶❻。
† IoUは、正解領域と予測領域の重なり具合を示す指標。重なりが大きいほど、大きな値となる。mIoU(mean IoU)は、領域の重なり(つまり、IoU)のクラスに渡る平均値。

  

TOP