// PART 02 · ARTICLE 01 / 07
DATA-PREP REHAB L1

説明変数と目的変数

— モデル設計の最初の一歩

5 min read · L1 · 2026.05.04 update · by Editor

機械学習を用いて研究を始めるとき、最初に決めることが「どのような因子を使って、何を予測するか」です。つまり、予測に使う因子( 説明変数)と予測したい因子(目的変数)を確定し、研究の問いそのものを言語化する工程でもあります。説明変数と目的変数の定義が曖昧なまま学習を行うと、「結局何を予測したのか」が説明できなくなります[1]

// CONTEXT

本稿は 第2部 医療AI・機械学習のための臨床データ前処理 第1記事。第1部で扱った「タスク類型」(回帰・分類・クラスタリング・生成)が決まったあと、その問いを具体的な変数に落とし込む段階です。次記事「欠損値処理」以降は、この説明変数と目的変数を前提に進みます。

// 01 · LEARN OUTCOMESこの記事でわかること

読了後、あなたは次の4つを臨床者の語彙で説明できるようになります。

  • 説明変数と目的変数を、リハ研究の症例で具体的に書き分けられる
  • 変数の型(連続値・2値・順序・多値・ベクトル)を、タスクと整合する形で選べる
  • 研究計画書の Methods 冒頭に「予測対象は◯◯、予測材料は△△」と1段落で書ける
  • 「予測時点で既知でない変数」を含めない、というリーケージ防止の基本を判別できる

// 02 · CONCLUSIONまず結論

// 03 · FIGURE直感的な図解

X と y の関係を、リハビリ研究の典型例で可視化します。「予測時点(=入棟時)」を軸に、その前後で変数を仕分けるのが正しい設計です。

// TIME AXIS · 時間軸 ↓ PREDICTION POINT 入棟時(t=0) X (説明変数) 既知 / OBSERVED 年齢 / 性別 入棟時 FIM 発症からの日数 主病名 / 既往 y (目的変数) 未知 / UNKNOWN 退院時 FIM 自宅退院 (0/1) 在院日数 3ヶ月後機能 LEAKAGE ZONE 含めてはならない 入棟後の検査値 退院前の評価 退院先決定後の情報 f(X) → ŷ
 X(緑)は予測時点で既知の変数、y(紫)は未知の予測対象。中央の朱色「LEAKAGE ZONE」は予測時点で未知のため X に含めてはならない領域です。このLEKAGE ZONEのデータは入院時には知り得ないデータですので、説明変数としては使えません。

続いて、タスク類型ごとに y がどのような型を取るかを整理します。同じ「退院時の予後予測」でも、機械学習のアルゴリズムが変わります。

// y の型と4タスクの対応 TASK y の型 REHAB EXAMPLE VAR DEFINITION REGRESSION y ∈ ℝ 退院時 FIM 利得 0–91 連続値 BINARY y ∈ {0, 1} 自宅退院可否 0 = 施設, 1 = 自宅 MULTI-CLASS y ∈ {0,...,K} 転帰先(自宅/施設/転院) 0/1/2 ORDINAL y ∈ {1,...,7} FIM 各項目スコア 順序のあるカテゴリ
y の型がタスク類型を決める。同じ「退院時の機能評価」でも、連続値か2値か順序付きカテゴリかで設計が変わる。

// 04 · CLINICAL医療・リハビリでの具体例

同じ「脳卒中後リハビリ患者の予後予測」というテーマでも、研究の問い方によってXとyが変わります。3つの代表的な定式化を見ていきます。

// EXAMPLE 1 / 自宅退院可否の予測(2値分類)

y = 退院時歩行自立可否(0: 歩行不可 1: 歩行可)
X = 入棟時 FIM(運動・認知)、年齢など
評価指標: AUC・感度・特異度など

// EXAMPLE 2 / 退院時 FIM の予測(回帰)

y = 退院時FIM運動項目合計点 (13–91 の連続値)
X = 入棟時 FIM、年齢など
評価指標: R²・など// 補足 / 「同じテーマ、違うy」の意味

両方とも「退院時の予後予測」がテーマですが、yが変わると適切な予測モデルも変わります。「可否」なら2値分類、「数値」なら回帰を用います。Methods冒頭で「誰が、いつ、何を判断するためのモデルか」を明記すると、どのようなyを選択するかが重要となります[2]

// 07 · MYTHSよくある誤解

説明変数は多ければ多いほど精度が上がる
誤り。EPV(Events Per Variable)を超える説明変数を学習に用いる、過学習が急速に進み、予測精度が低下する。「予測時点で既知 × 臨床的に意味がある」変数だけを残し、残りは削るか派生変数として畳み込む方が、臨床では良い予測モデルが得られることが多い。
退院時のデータも入っているから、予測モデルに使ってもよい
致命的な誤り。退院時データを学習に用いると、予測モデルはその退院時データからy を予測することになる。

// 08 · WRITING論文での書き方

Methods に記述すべき項目

  • 目的変数 (y) の正確な定義(評価尺度・カットオフ・測定時点)
  • 説明変数 (X) の一覧と各々の測定時点・取得方法
  • 「予測時点」の明示(入棟時/転棟時/外来初診時 など)

査読者が指摘する点

  • 「目的変数の定義(カットオフ、測定時点)が曖昧」
  • 「説明変数に退院後の情報(在院日数など)が含まれていないか」

// 09 · CHECKLISTチェックリスト

X と y の設計を点検する6項目。

  • 01y の定義(評価尺度・カットオフ・測定時点)が研究計画書に書かれている
  • 02y の型とタスク類型が整合している
  • 03X を情報(取得時点・取得方法)を整理した
  • 04「予測時点」を明示し、X が全てその時点で既知であることを確認した

// 10 · QUIZミニクイズ

  1. Q1入棟時に「3ヶ月後の自宅退院可否」を予測するモデルを作る。X として最も不適切な変数は?
    • 入棟時 FIM 運動項目
    • 年齢・性別・主病名
    • 入棟2週後の理学療法評価
    • 発症からの日数
    SHOW ANSWER
    C. 入棟2週後の評価は予測時点(t=0)より後の情報で、入棟時に予測する設定では既知ではない。これを X に含めるとリーケージとなり、外部検証で性能が大きく崩れる。
  2. Q2「FIM運動項目の合計(13–91)を予測する」研究で、最も適切なタスク類型は?
    • 2値分類
    • 回帰
    • クラスタリング
    • 生成
    SHOW ANSWER
    B. 13〜91の連続値を予測するので回帰タスク。MSE/MAEで評価する。「FIM ≥ 60」のような2値化は情報量を捨てることになり、必要な場合のみ採用する。
  3. Q3FIM 利得(退院時FIM − 入棟時FIM)を y にする場合、X に必ず含めるべき変数は?
    • 退院時 FIM
    • 入棟時 FIM
    • 在院日数
    • 病棟の名前
    SHOW ANSWER
    B. 利得は入棟時値に依存する(基底効果)。入棟時 FIM が低いほど伸びしろが大きい場合があるので、補正のために X に含める。Aは退院時情報なのでリーケージ。

// REF参考文献

  1. Steyerberg EW. Clinical Prediction Models: A Practical Approach to Development, Validation, and Updating. 2nd ed. Springer, 2019. — link
  2. Moons KGM, Altman DG, Reitsma JB, et al. Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis (TRIPOD): Explanation and Elaboration. Ann Intern Med 2015;162(1):W1-W73.