説明変数と目的変数
— モデル設計の最初の一歩
何を入力にして、何を予測するか。リハ研究で頻出のパターンを症例ベースで整理します。
医療AIや機械学習では、モデルの性能はアルゴリズムだけで決まるわけではありません。どの情報を説明変数として使うか、欠損値をどう扱うか、外れ値やカテゴリ変数をどう処理するかによって、モデルの信頼性や精度が大きく変わります。
第2部「医療AI・機械学習のための臨床データ前処理」では、リハビリテーション領域の臨床データを機械学習モデルに渡す前に必要な準備を、7 つの記事で整理します。説明変数と目的変数の設定、欠損値処理、外れ値・標準化・カテゴリ変数の扱い、特徴量エンジニアリング、特徴量選択、データリーケージを防ぐ前処理、そして表形式データでよく起こる実践上の落とし穴を扱います。
FIM、入院時情報、歩行評価、検査値など、リハビリテーション研究でよく使われるデータを例にしながら、どの時点の情報を使うべきか、Train/Test 分割の前後で何をしてよいのか、Pipeline や Cross-Validation の中で前処理をどう組み込むべきかを解説します。
このパートを理解しておくと、第3部以降で扱うアルゴリズムやモデル評価を、より安全に、研究で使いやすくなります。特にデータリーケージや欠損によるバイアスは論文査読でも指摘されやすいため、医療AI研究を始める前に必ず押さえておきたい内容です。
何を入力にして、何を予測するか。リハ研究で頻出のパターンを症例ベースで整理します。
欠損のメカニズム3区分と、研究で適切な処理を選ぶための実用フレーム。
Winsorize、One-hot、Z-score。臨床データに固有の落とし穴を含めて。
ドメイン知識をどうモデルに渡すか。比率、差分、時系列集約の例を具体化。
フィルタ法・ラッパー法・埋め込み法。EPV を踏まえた選択戦略。
Pipeline と CV の中で、いつ何をフィットするか。典型的な漏れと回避策。
施設差、時点ずれ、Look-ahead bias、識別子の扱い。実務で当たる順に整理。