説明変数と目的変数はどう違いますか？

説明変数はモデルに入力する情報、目的変数は予測したい答えです。たとえば入院時FIMや年齢を説明変数にして、退院時歩行自立の有無を目的変数にする、といった形で設計します。

データリーケージを防ぐには何を意識すべきですか？

予測したい時点より後にしか分からない情報を説明変数に入れないことが重要です。退院時アウトカムを予測するなら、退院後に記録される情報や目的変数に近すぎる派生変数を除外します。

説明変数と目的変数とは｜リハビリAI・機械学習のデータ設計

リハビリAI・機械学習研究を始めるとき、最初に決めるのは「どの情報を使って、何を予測するか」です。入院時FIM、年齢、麻痺の重症度、歩行評価などを説明変数、退院時FIM、歩行自立、自宅退院の有無などを目的変数として整理します。ここが曖昧なままモデルを作ると、「結局何を、どの時点の情報で予測したのか」が説明できなくなります^[1]。

// CONTEXT

本稿は 第2部「リハビリAI・機械学習の臨床データ前処理」の第1記事です。第1部の回帰・分類・クラスタリング・生成の違いでタスク類型を決めたあと、その問いを具体的な変数に落とし込む段階です。予測モデル全体の考え方は予測モデルとは何か、次の前処理は欠損値処理で扱います。

// 01 · LEARN OUTCOMESこの記事でわかること

読了後、あなたは次の4つを臨床者の語彙で説明できるようになります。

説明変数と目的変数を、リハ研究の症例で具体的に書き分けられる
変数の型(連続値・2値・順序・多値・ベクトル)を、タスクと整合する形で選べる
研究計画書の Methods 冒頭に「予測対象は◯◯、予測材料は△△」と1段落で書ける
「予測時点で既知でない変数」を含めない、というリーケージ防止の基本を判別できる

// 02 · CONCLUSIONまず結論

// 03 · FIGURE直感的な図解

X と y の関係を、リハビリ研究の典型例で可視化します。「予測時点(=入棟時)」を軸に、その前後で変数を仕分けるのが正しい設計です。

X(緑)は予測時点で既知の変数、y(紫)は未知の予測対象。中央の朱色「LEAKAGE ZONE」は予測時点で未知のため X に含めてはならない領域です。このLEKAGE ZONEのデータは入院時には知り得ないデータですので、説明変数としては使えません。

続いて、タスク類型ごとに y がどのような型を取るかを整理します。同じ「退院時の予後予測」でも、機械学習のアルゴリズムが変わります。

y の型がタスク類型を決める。同じ「退院時の機能評価」でも、連続値か2値か順序付きカテゴリかで設計が変わる。

// 04 · CLINICAL医療・リハビリでの具体例

同じ「脳卒中後リハビリ患者の予後予測」というテーマでも、研究の問い方によってXとyが変わります。3つの代表的な定式化を見ていきます。

// EXAMPLE 1 / 自宅退院可否の予測(2値分類)

y = 退院時歩行自立可否(0: 歩行不可 1: 歩行可)
X = 入棟時 FIM(運動・認知)、年齢など
評価指標: AUC・感度・特異度など

// EXAMPLE 2 / 退院時 FIM の予測(回帰)

y = 退院時FIM運動項目合計点 (13–91 の連続値)
X = 入棟時 FIM、年齢など
評価指標: R²・など// 補足 / 「同じテーマ、違うy」の意味

両方とも「退院時の予後予測」がテーマですが、yが変わると適切な予測モデルも変わります。「可否」なら2値分類、「数値」なら回帰を用います。Methods冒頭で「誰が、いつ、何を判断するためのモデルか」を明記すると、どのようなyを選択するかが重要となります^[2]。

// 07 · MYTHSよくある誤解

説明変数は多ければ多いほど精度が上がる: 誤り。EPV(Events Per Variable)を超える説明変数を学習に用いる、過学習が急速に進み、予測精度が低下する。「予測時点で既知 × 臨床的に意味がある」変数だけを残し、残りは削るか派生変数として畳み込む方が、臨床では良い予測モデルが得られることが多い。
退院時のデータも入っているから、予測モデルに使ってもよい: 致命的な誤り。退院時データを学習に用いると、予測モデルはその退院時データからy を予測することになる。

// 08 · WRITING論文での書き方

Methods に記述すべき項目

目的変数 (y) の正確な定義(評価尺度・カットオフ・測定時点)
説明変数 (X) の一覧と各々の測定時点・取得方法
「予測時点」の明示(入棟時/転棟時/外来初診時など)

査読者が指摘する点

「目的変数の定義(カットオフ、測定時点)が曖昧」
「説明変数に退院後の情報(在院日数など)が含まれていないか」

// 09 · CHECKLISTチェックリスト

X と y の設計を点検する6項目。

01y の定義(評価尺度・カットオフ・測定時点)が研究計画書に書かれている
02y の型とタスク類型が整合している
03X を情報(取得時点・取得方法)を整理した
04「予測時点」を明示し、X が全てその時点で既知であることを確認した

// 10 · QUIZミニクイズ

Q1入棟時に「3ヶ月後の自宅退院可否」を予測するモデルを作る。X として最も不適切な変数は?
- 入棟時 FIM 運動項目
- 年齢・性別・主病名
- 入棟2週後の理学療法評価
- 発症からの日数
SHOW ANSWER

C. 入棟2週後の評価は予測時点(t=0)より後の情報で、入棟時に予測する設定では既知ではない。これを X に含めるとリーケージとなり、外部検証で性能が大きく崩れる。
Q2「FIM運動項目の合計(13–91)を予測する」研究で、最も適切なタスク類型は?
- 2値分類
- 回帰
- クラスタリング
- 生成
SHOW ANSWER

B. 13〜91の連続値を予測するので回帰タスク。MSE/MAEで評価する。「FIM ≥ 60」のような2値化は情報量を捨てることになり、必要な場合のみ採用する。
Q3FIM 利得(退院時FIM − 入棟時FIM)を y にする場合、X に必ず含めるべき変数は?
- 退院時 FIM
- 入棟時 FIM
- 在院日数
- 病棟の名前
SHOW ANSWER

B. 利得は入棟時値に依存する(基底効果)。入棟時 FIM が低いほど伸びしろが大きい場合があるので、補正のために X に含める。Aは退院時情報なのでリーケージ。

// 11 · FAQよくある質問

説明変数と目的変数はどう違いますか？: 説明変数はモデルに入力する情報、目的変数は予測したい答えです。たとえば入院時FIMや年齢を説明変数にして、退院時歩行自立の有無を目的変数にする、といった形で設計します。
データリーケージを防ぐには何を意識すべきですか？: 予測したい時点より後にしか分からない情報を説明変数に入れないことが重要です。退院時アウトカムを予測するなら、退院後に記録される情報や目的変数に近すぎる派生変数を除外します。

// REF参考文献

Steyerberg EW. Clinical Prediction Models: A Practical Approach to Development, Validation, and Updating. 2nd ed. Springer, 2019. — link
Moons KGM, Altman DG, Reitsma JB, et al. Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis (TRIPOD): Explanation and Elaboration. Ann Intern Med 2015;162(1):W1-W73.

// 01 · LEARN OUTCOMESこの記事でわかること

// 02 · CONCLUSIONまず結論

// 03 · FIGURE直感的な図解

// 04 · CLINICAL医療・リハビリでの具体例

// 07 · MYTHSよくある誤解

// 08 · WRITING論文での書き方

Methods に記述すべき項目

査読者が指摘する点

// 09 · CHECKLISTチェックリスト

// 10 · QUIZミニクイズ

// 11 · FAQよくある質問

// 12 · RELATED関連記事

欠損値処理— MCAR / MAR / MNAR と多重代入

データリーケージとは何か— 未来の情報が紛れ込む瞬間

回帰・分類・クラスタリング・生成の違い— リハビリAI研究でタスクをどう見分けるか

// REF参考文献

欠損値処理
— MCAR / MAR / MNAR と多重代入

データリーケージとは何か
— 未来の情報が紛れ込む瞬間

回帰・分類・クラスタリング・生成の違い
— リハビリAI研究でタスクをどう見分けるか