// PART 02 / 16

DATA-PREP L1 L2

リハビリAI・機械学習の臨床データ前処理

リハビリAI・機械学習研究では、モデルの性能はアルゴリズムだけで決まるわけではありません。どの情報を説明変数として使うか、欠損値をどう扱うか、外れ値やカテゴリ変数をどう処理するかによって、予測モデルの信頼性や精度が大きく変わります。

第2部「リハビリAI・機械学習の臨床データ前処理」では、リハビリテーション領域の臨床データをモデルに渡す前に必要な準備を、7 つの記事で整理します。説明変数と目的変数の設定、欠損値処理、外れ値・標準化・カテゴリ変数の扱い、特徴量エンジニアリング、特徴量選択、データリーケージを防ぐ前処理、そして表形式データでよく起こる実践上の落とし穴を扱います。

FIM予後予測、歩行自立予測、自宅退院予測で使う入院時情報、歩行評価、検査値などを例にしながら、どの時点の情報を使うべきか、train/test 分割の前後で何をしてよいのか、Pipeline や Cross-Validation の中で前処理をどう組み込むべきかを解説します。

このパートを理解しておくと、第3部以降で扱うアルゴリズムやモデル評価を、より安全に研究へ組み込めます。特にデータリーケージや欠損によるバイアスは論文査読でも指摘されやすいため、リハビリAI研究を始める前に押さえておきたい内容です。

ARTICLES: 7本
EST_TIME: 45min
LEVEL: L1/L2
UPDATED: 2026.05.23

記事一覧

// 07 ARTICLES · ALL

説明変数と目的変数
— リハビリAI研究のデータ設計

何を入力にして、何を予測するか。FIM予後予測や歩行自立予測を例に、リハビリAI研究の変数設計を整理します。

// data-prep / variables READ →

欠損値処理(MCAR / MAR / MNAR・多重代入)
— 「欠測の型」を見極めて、適切に補完する

FIMや認知機能検査の欠損を例に、MCAR / MAR / MNAR、多重代入、Pipeline内での安全な補完を整理します。

// data-prep / missing READ →

外れ値・カテゴリ変数・標準化
— 数値化の三本柱

FIM、歩行速度、施設IDを例に、IQR・Z-score、One-Hot、Target Encoding、標準化の使い分けを整理します。

// data-prep / scaling READ →

特徴量エンジニアリング
— 臨床知識を変数に翻訳する

FIM利得率、BMI、累積訓練量、交互作用項など、臨床知識をリハビリAIの特徴量に変換します。

// data-prep / feature-eng READ →

特徴量選択
— どの変数を残すかをデータと臨床知識で決める

FIM、SIAS、NIHSSなど候補変数が多い場面で、Lasso・RFE・Boruta・VIFとEPVを踏まえて変数を絞ります。

// data-prep / feature-selection READ →

DATA-PREP PITFALLS L2

データリーケージを防ぐ前処理
— trainでfit、testはtransformのみ

Pipeline と ColumnTransformer で、欠損補完・標準化・特徴量選択をtrain内でfitし、testには適用だけ行います。

// data-prep / leakage-prevention READ →

表形式データの実践Tips
— リハビリAI研究の前処理チェックリスト

受領後30分の確認、データ辞書、施設別分布、データリーケージ点検、第2部全体のPipeline統合を扱います。

// data-prep / tips READ →