説明変数と目的変数
— リハビリAI研究のデータ設計
何を入力にして、何を予測するか。FIM予後予測や歩行自立予測を例に、リハビリAI研究の変数設計を整理します。
リハビリAI・機械学習研究では、モデルの性能はアルゴリズムだけで決まるわけではありません。どの情報を説明変数として使うか、欠損値をどう扱うか、外れ値やカテゴリ変数をどう処理するかによって、予測モデルの信頼性や精度が大きく変わります。
第2部「リハビリAI・機械学習の臨床データ前処理」では、リハビリテーション領域の臨床データをモデルに渡す前に必要な準備を、7 つの記事で整理します。説明変数と目的変数の設定、欠損値処理、外れ値・標準化・カテゴリ変数の扱い、特徴量エンジニアリング、特徴量選択、データリーケージを防ぐ前処理、そして表形式データでよく起こる実践上の落とし穴を扱います。
FIM予後予測、歩行自立予測、自宅退院予測で使う入院時情報、歩行評価、検査値などを例にしながら、どの時点の情報を使うべきか、train/test 分割の前後で何をしてよいのか、Pipeline や Cross-Validation の中で前処理をどう組み込むべきかを解説します。
このパートを理解しておくと、第3部以降で扱うアルゴリズムやモデル評価を、より安全に研究へ組み込めます。特にデータリーケージや欠損によるバイアスは論文査読でも指摘されやすいため、リハビリAI研究を始める前に押さえておきたい内容です。
何を入力にして、何を予測するか。FIM予後予測や歩行自立予測を例に、リハビリAI研究の変数設計を整理します。
FIMや認知機能検査の欠損を例に、MCAR / MAR / MNAR、多重代入、Pipeline内での安全な補完を整理します。
FIM、歩行速度、施設IDを例に、IQR・Z-score、One-Hot、Target Encoding、標準化の使い分けを整理します。
FIM利得率、BMI、累積訓練量、交互作用項など、臨床知識をリハビリAIの特徴量に変換します。
FIM、SIAS、NIHSSなど候補変数が多い場面で、Lasso・RFE・Boruta・VIFとEPVを踏まえて変数を絞ります。
Pipeline と ColumnTransformer で、欠損補完・標準化・特徴量選択をtrain内でfitし、testには適用だけ行います。
受領後30分の確認、データ辞書、施設別分布、データリーケージ点検、第2部全体のPipeline統合を扱います。