// PART 14 · DEMO 01
DEMO REHAB L1

過学習を、グラフで体験する

— Interactive Overfitting Demo

15 min hands-on · L1 · 2026.05.04 update · by Editor

機械学習モデルを複雑にすればするほど、訓練データを正確に予測できるようになります。しかし、未知のデータに対する予測性能はむしろ悪化することが多々あります。これが 過学習(overfitting)です。教科書で何度説明されても直感が湧きにくいこの過学習を、多項式回帰の次数などを実際にスライダーで動かしながら体感するのが本デモの目的です。訓練データ(青)とテストデータ(緑)の違いを体験してください。

// HOW TO USE

まず、右の操作パネルから、多項式の次数を 1〜3 に下げて観察してください。次に、少しずつ次数を上げて、最終の15に上げてみてください。訓練 MSE は改善傾向である一方で、テスト MSE は一旦改善するものの、その後上昇することがわかります。つまり、U字型を描くのが見えるはずです。これが過学習です。

// MULTI-DEGREE POLYNOMIAL FIT

次数を上げると、青い訓練データへの当てはまりが強くなる。

訓練データ テストデータ 学習モデル 真の関係

// TIP  訓練 MSE が小さくなっても、テスト MSE が悪化していたら過学習。

01

過学習とは?

モデルが訓練データの細かなノイズまで覚えてしまい(丸暗記してしまい)、新しいデータへの性能が落ちる状態です。医療AIでは内部検証では高性能でも、別施設の外部検証では崩壊する原因の1つです。

02

なぜ危険か?

予後予測モデルで過学習が起こると「この病院の過去データには合うが、その病院での未来や別の病院の予測には使えない」モデルになってしまいます。AUC だけ高く見えても、外的妥当性が低い可能性が残るので危険です。

03

対策

  • train / val / test に分ける
  • 交差検証 + bootstrap で内部検証
  • 特徴量を増やしすぎない
  • 正則化(Lasso / Ridge / Elastic Net)
  • 可能なら外部検証で評価する

// RELATED関連記事で深く学ぶ