機械学習を用いて研究を始めるとき、最初に決めることが「どのような因子を使って、何を予測するか」です。つまり、予測に使う因子( 説明変数)と予測したい因子(目的変数)を確定し、研究の問いそのものを言語化する工程でもあります。説明変数と目的変数の定義が曖昧なまま学習を行うと、「結局何を予測したのか」が説明できなくなります[1]。
本稿は 第2部 医療AI・機械学習のための臨床データ前処理 第1記事。第1部で扱った「タスク類型」(回帰・分類・クラスタリング・生成)が決まったあと、その問いを具体的な変数に落とし込む段階です。次記事「欠損値処理」以降は、この説明変数と目的変数を前提に進みます。
// 01 · LEARN OUTCOMESこの記事でわかること
読了後、あなたは次の4つを臨床者の語彙で説明できるようになります。
- 説明変数と目的変数を、リハ研究の症例で具体的に書き分けられる
- 変数の型(連続値・2値・順序・多値・ベクトル)を、タスクと整合する形で選べる
- 研究計画書の Methods 冒頭に「予測対象は◯◯、予測材料は△△」と1段落で書ける
- 「予測時点で既知でない変数」を含めない、というリーケージ防止の基本を判別できる
// 02 · CONCLUSIONまず結論
// 03 · FIGURE直感的な図解
X と y の関係を、リハビリ研究の典型例で可視化します。「予測時点(=入棟時)」を軸に、その前後で変数を仕分けるのが正しい設計です。
続いて、タスク類型ごとに y がどのような型を取るかを整理します。同じ「退院時の予後予測」でも、機械学習のアルゴリズムが変わります。
// 04 · CLINICAL医療・リハビリでの具体例
同じ「脳卒中後リハビリ患者の予後予測」というテーマでも、研究の問い方によってXとyが変わります。3つの代表的な定式化を見ていきます。
y = 退院時歩行自立可否(0: 歩行不可 1: 歩行可)
X = 入棟時 FIM(運動・認知)、年齢など
評価指標: AUC・感度・特異度など
y = 退院時FIM運動項目合計点 (13–91 の連続値)
X = 入棟時 FIM、年齢など
評価指標: R²・など// 補足 / 「同じテーマ、違うy」の意味
両方とも「退院時の予後予測」がテーマですが、yが変わると適切な予測モデルも変わります。「可否」なら2値分類、「数値」なら回帰を用います。Methods冒頭で「誰が、いつ、何を判断するためのモデルか」を明記すると、どのようなyを選択するかが重要となります[2]。
// 07 · MYTHSよくある誤解
- 説明変数は多ければ多いほど精度が上がる
- 誤り。EPV(Events Per Variable)を超える説明変数を学習に用いる、過学習が急速に進み、予測精度が低下する。「予測時点で既知 × 臨床的に意味がある」変数だけを残し、残りは削るか派生変数として畳み込む方が、臨床では良い予測モデルが得られることが多い。
- 退院時のデータも入っているから、予測モデルに使ってもよい
- 致命的な誤り。退院時データを学習に用いると、予測モデルはその退院時データからy を予測することになる。
// 08 · WRITING論文での書き方
Methods に記述すべき項目
- 目的変数 (y) の正確な定義(評価尺度・カットオフ・測定時点)
- 説明変数 (X) の一覧と各々の測定時点・取得方法
- 「予測時点」の明示(入棟時/転棟時/外来初診時 など)
査読者が指摘する点
- 「目的変数の定義(カットオフ、測定時点)が曖昧」
- 「説明変数に退院後の情報(在院日数など)が含まれていないか」
// 09 · CHECKLISTチェックリスト
X と y の設計を点検する6項目。
- 01y の定義(評価尺度・カットオフ・測定時点)が研究計画書に書かれている
- 02y の型とタスク類型が整合している
- 03X を情報(取得時点・取得方法)を整理した
- 04「予測時点」を明示し、X が全てその時点で既知であることを確認した
// 10 · QUIZミニクイズ
-
Q1入棟時に「3ヶ月後の自宅退院可否」を予測するモデルを作る。X として最も不適切な変数は?
- 入棟時 FIM 運動項目
- 年齢・性別・主病名
- 入棟2週後の理学療法評価
- 発症からの日数
SHOW ANSWER
C. 入棟2週後の評価は予測時点(t=0)より後の情報で、入棟時に予測する設定では既知ではない。これを X に含めるとリーケージとなり、外部検証で性能が大きく崩れる。 -
Q2「FIM運動項目の合計(13–91)を予測する」研究で、最も適切なタスク類型は?
- 2値分類
- 回帰
- クラスタリング
- 生成
SHOW ANSWER
B. 13〜91の連続値を予測するので回帰タスク。MSE/MAEで評価する。「FIM ≥ 60」のような2値化は情報量を捨てることになり、必要な場合のみ採用する。 -
Q3FIM 利得(退院時FIM − 入棟時FIM)を y にする場合、X に必ず含めるべき変数は?
- 退院時 FIM
- 入棟時 FIM
- 在院日数
- 病棟の名前
SHOW ANSWER
B. 利得は入棟時値に依存する(基底効果)。入棟時 FIM が低いほど伸びしろが大きい場合があるので、補正のために X に含める。Aは退院時情報なのでリーケージ。
// REF参考文献
- Steyerberg EW. Clinical Prediction Models: A Practical Approach to Development, Validation, and Updating. 2nd ed. Springer, 2019. — link
- Moons KGM, Altman DG, Reitsma JB, et al. Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis (TRIPOD): Explanation and Elaboration. Ann Intern Med 2015;162(1):W1-W73.