08·01
6 min
train / validation / test分割
— データ分割の基本3点
なぜ 3 分割が必要か。各役割の混同が招くリーケージ事故。
// evaluation / split
READ →
「AUC が高い ≠ 臨床で使える」。本部では、データ分割から外部検証、Calibration、Decision Curve Analysis、継続学習まで、医療 AI 研究で必要な評価の体系を 11 本で整理。査読で指摘される評価の穴をなくします。
なぜ 3 分割が必要か。各役割の混同が招くリーケージ事故。
施設別・患者別 CV、Nested CV のハイパラ探索との組み合わせ。
0.632+ ブートストラップなど、少数例での評価安定化テクニック。
識別能が高くても臨床に使えない構造。Calibration / DCA への橋渡し。
有病率に依存する PPV / NPV の挙動と、混同行列の読み方。
クラス不均衡で AUC が誤誘導する場面と、PR-AUC の使いどころ。
確率を確率として使うための評価。Platt / Isotonic 校正の併用。
閾値依存の Net Benefit 曲線。「閾値を選ばずに比較できる」発想。
新モデルが既存モデルより優れているかを定量化する指標群。
Geographic / Temporal / Domain validation。論文で求められる検証の質。
ドメインシフトへの対応、定期再学習、shadow deployment の考え方。