過学習と正則化
— 訓練データに合わせすぎないための医療AI研究入門
Bias-Variance、正則化、CV での検出。最も基本的だが見逃しやすい。
医療AI研究では、モデルの精度が高く見えても、その結果がそのまま信頼できるとは限りません。過学習、データリーケージ、小規模データ、不均衡データ、欠測、施設差、ショートカット学習などによって、研究結果が過大に評価されることがあり、意外な落とし穴になります。
第9部「医療AI研究の落とし穴と対策」では、リハビリテーション・医療AI研究で見落とされやすい問題を、11 の記事で整理します。過学習と正則化、データリーケージ、小規模データと EPV、不均衡データ、多重比較、欠測バイアス、施設差・ドメインシフト、ショートカット学習、因果と予測の混同、公平性・サブグループ性能、そして医療AI論文で査読者に指摘されやすい点を扱います。
FIM 予後予測、歩行予測など、リハビリテーション領域の具体例を通して、どこで結果が歪みやすいのか、どのように検出し、Methods や Discussion でどう説明すべきかを解説します。
「精度は高いのに論文としての説得力が弱い」「他施設で予測精度が落ちる」「SHAP の結果を因果のように解釈してよいのか迷う」といった悩みに対して、研究計画・解析・論文化の各段階で確認すべきポイントを説明します。
Bias-Variance、正則化、CV での検出。最も基本的だが見逃しやすい。
前処理、特徴量、分割の各段階で起きる漏れの典型例を全部出します。
EPV、Pmsampsize、TRIPOD+AI のサンプル数推奨。研究計画段階で押さえる。
SMOTE の落とし穴と、cost-sensitive learning や閾値調整の代替案。
Garden of forking paths、p-hacking、AutoML の盲信を避ける視点。
欠測そのものが結果を含むケース。MAR / MNAR の見極めと感度分析。
撮影機種、患者背景、コーディング差。施設横断検証の必要性。
本物の所見ではなく、画像の周辺情報で正解を当ててしまう問題。
予測寄与度を因果効果と取り違える典型誤解。介入する vs 予測する。
Performance gap の指標化と、医療 AI における公平性議論の現在地。
リジェクト理由 Top10 を、医療AI論文の実例ベースで具体化。