// PART 08 / 16

EVAL L1 L2

モデルを正しく評価する

「AUC が高い ≠ 臨床で使える」。本部では、データ分割から外部検証、Calibration、Decision Curve Analysis、継続学習まで、医療 AI 研究で必要な評価の体系を 11 本で整理。査読で指摘される評価の穴をなくします。

ARTICLES: 11本
EST_TIME: 80min
LEVEL: L1/L2
UPDATED: 2026.05.04

記事一覧

// 11 ARTICLES · ALL

08·01 6 min

EVAL L1

train / validation / test分割
— データ分割の基本3点

なぜ 3 分割が必要か。各役割の混同が招くリーケージ事故。

// evaluation / split READ →

08·02 8 min

EVAL L2

交差検証(stratified / group / nested)
— 偏りを避ける分割戦略

施設別・患者別 CV、Nested CV のハイパラ探索との組み合わせ。

// evaluation / cv READ →

08·03 7 min

EVAL L2

bootstrap validation
— 再標本化で信頼区間

0.632+ ブートストラップなど、少数例での評価安定化テクニック。

// evaluation / bootstrap READ →

08·04 8 min

EVAL L2

AUCとその限界
— 識別能と臨床的有用性のずれ

識別能が高くても臨床に使えない構造。Calibration / DCA への橋渡し。

// evaluation / auc READ →

08·05 6 min

EVAL L1

感度・特異度・PPV・NPV
— 2×2表で読む指標

有病率に依存する PPV / NPV の挙動と、混同行列の読み方。

// evaluation / sens-spec READ →

08·06 7 min

EVAL L2

Precision / Recall / F1 / PR-AUC
— 不均衡時の評価軸

クラス不均衡で AUC が誤誘導する場面と、PR-AUC の使いどころ。

// evaluation / pr READ →

08·07 8 min

EVAL L2

Calibration plot と Brier score
— 予測確率の信頼性

確率を確率として使うための評価。Platt / Isotonic 校正の併用。

// evaluation / calibration READ →

08·08 8 min

EVAL L2

Decision Curve Analysis(DCA)
— 臨床的有用性を測る

閾値依存の Net Benefit 曲線。「閾値を選ばずに比較できる」発想。

// evaluation / dca READ →

08·09 7 min

EVAL L2

NRI / IDI / Reclassification
— モデル比較の補助指標

新モデルが既存モデルより優れているかを定量化する指標群。

// evaluation / nri-idi READ →

08·10 8 min

EVAL L2

外部検証の設計
— 一般化可能性を担保する

Geographic / Temporal / Domain validation。論文で求められる検証の質。

// evaluation / external READ →

08·11 8 min

EVAL L2

モデル更新と継続学習
— 運用後の性能維持

ドメインシフトへの対応、定期再学習、shadow deployment の考え方。

// evaluation / update READ →

モデルを正しく評価する

記事一覧

train / validation / test分割— データ分割の基本3点

交差検証(stratified / group / nested)— 偏りを避ける分割戦略

bootstrap validation— 再標本化で信頼区間

AUCとその限界— 識別能と臨床的有用性のずれ

感度・特異度・PPV・NPV— 2×2表で読む指標

Precision / Recall / F1 / PR-AUC— 不均衡時の評価軸

Calibration plot と Brier score— 予測確率の信頼性

Decision Curve Analysis(DCA)— 臨床的有用性を測る

NRI / IDI / Reclassification— モデル比較の補助指標

外部検証の設計— 一般化可能性を担保する

モデル更新と継続学習— 運用後の性能維持

train / validation / test分割
— データ分割の基本3点

交差検証(stratified / group / nested)
— 偏りを避ける分割戦略

bootstrap validation
— 再標本化で信頼区間

AUCとその限界
— 識別能と臨床的有用性のずれ

感度・特異度・PPV・NPV
— 2×2表で読む指標

Precision / Recall / F1 / PR-AUC
— 不均衡時の評価軸

Calibration plot と Brier score
— 予測確率の信頼性

Decision Curve Analysis(DCA)
— 臨床的有用性を測る

NRI / IDI / Reclassification
— モデル比較の補助指標

外部検証の設計
— 一般化可能性を担保する

モデル更新と継続学習
— 運用後の性能維持