過学習と正則化
— 訓練データに合わせすぎないための医療AI研究入門
Bias-Variance、正則化、CV での検出。最も基本的だが見逃しやすい。
医療AI研究では、モデルの精度が高く見えても、その結果がそのまま信頼できるとは限りません。過学習、データリーケージ、小規模データ、不均衡データ、欠測、施設差、ショートカット学習などによって、研究結果が過大に評価されることがあり、意外な落とし穴になります。
第9部「医療AI研究の落とし穴と対策」では、リハビリテーション・医療AI研究で見落とされやすい問題を、11 の記事で整理します。過学習と正則化、データリーケージ、小規模データと EPV、不均衡データ、多重比較、欠測バイアス、施設差・ドメインシフト、ショートカット学習、因果と予測の混同、公平性・サブグループ性能、そして医療AI論文で査読者に指摘されやすい点を扱います。
FIM 予後予測、歩行予測など、リハビリテーション領域の具体例を通して、どこで結果が歪みやすいのか、どのように検出し、Methods や Discussion でどう説明すべきかを解説します。
「精度は高いのに論文としての説得力が弱い」「他施設で予測精度が落ちる」「SHAP の結果を因果のように解釈してよいのか迷う」といった悩みに対して、研究計画・解析・論文化の各段階で確認すべきポイントを説明します。
Bias-Variance、正則化、CV での検出。最も基本的だが見逃しやすい。
前処理、特徴量、分割の各段階で起きる漏れの典型例を全部出します。
EPV・Riley 2020・bootstrap optimism correction・研究計画段階のサンプルサイズ設計。
accuracy の罠・SMOTE のリーケージ・class_weight・閾値調整・PR-AUC・Decision Curve。
Garden of forking paths・FWER/FDR・nested CV・hold-out 規律・事前登録・AutoML 開示。
complete case の選択バイアス・多重代入・欠測インジケータ・Pipeline 設計・感度分析。
covariate/label/concept/measurement/workflow/temporal shift・外部検証・較正ドリフト・モデル更新階段。
Clever Hans・Hidden stratification・陰性対照モデル・施設識別子テスト・XAI の限界。
DAG(交絡・媒介・collider)・target trial framework・治療変数の扱い・記載テンプレート。
equal opportunity / equalized odds / calibration parity・incompatibility theorem・4 段階対策階段。
TRIPOD+AI / PROBAST+AI / CLAIM / DECIDE-AI 対応の Methods / Results / Discussion テンプレートと 16 項目チェック。