記事一覧

// data-prep / missingREAD →

欠損値処理
— MCAR / MAR / MNAR と多重代入

FIMや認知機能検査の欠損を例に、MCAR / MAR / MNAR、多重代入、Pipeline内での安全な補完を整理します。

02·0310 min

// data-prep / scalingREAD →

外れ値・カテゴリ変数・標準化
— 前処理の基本セット

FIM、歩行速度、施設IDを例に、IQR、One-Hot Encoding、標準化、RobustScalerを整理します。

02·0410 min

// data-prep / engineeringREAD →

特徴量エンジニアリング
— 臨床知識を変数に翻訳する

FIM利得率、BMI、累積訓練量、交互作用項など、臨床知識をリハビリAIの特徴量に変換します。

02·0510 min

// data-prep / selectionREAD →

特徴量選択
— データと臨床知識で変数を絞る

Lasso、RFE、Boruta、VIF、EPVを、リーケージを避けるPipeline設計と一緒に整理します。

02·0610 min

DATA-PREPPITFALLSL2

データリーケージを防ぐ前処理
— trainでfit、testはtransformのみ

ColumnTransformer と Pipeline で、補完・標準化・特徴量選択をtrain内でfitする実装パターン。

// data-prep / leakage-safeREAD →

02·079 min

DATA-PREPL1

表形式データの実践Tips
— リハビリAI研究の前処理チェックリスト

データ受領後の確認、データ辞書、施設別分布、リーケージ点検、第2部全体を統合したPipelineの考え方。

// data-prep / practicalREAD →

// PART 03リハビリAI・機械学習アルゴリズム図鑑（15/15 公開中）

03·018 min

MEDICAL-AI-ALGOLINEARL1

線形回帰
— 連続値予測の最小単位

退院時FIM予測を題材に、最小二乗法から決定係数・残差プロットまで。全アルゴリズムの基礎となる「重み付き和」の世界。

// algorithm / linearREAD →

03·0210 min

MEDICAL-AI-ALGOREHABL1

ロジスティック回帰
— リハビリ予後予測の最重要モデル

自宅退院可否を題材に、シグモイド関数・オッズ比・係数の臨床的解釈まで。リハビリAI研究で比較基準にしやすいアルゴリズム。

// algorithm / classificationREAD →

03·039 min

MEDICAL-AI-ALGOLINEARL2

正則化(Lasso / Ridge / Elastic Net)
— 過学習・多重共線性への構造的対処

L1（Lasso）・L2（Ridge）・Elastic Net の幾何学的違いと使い分けを、リハ予後予測の例とCVによるλ調整つきで整理。

// algorithm / regularizationREAD →

03·047 min

MEDICAL-AI-ALGODISTANCEL1

k近傍法(kNN)
— 似た症例から予測する距離ベースの機械学習

kの選び方・標準化・次元の呪い・KNNImputer まで、リハビリAI研究での類似症例検索の使い方を実装と一緒に整理。

// algorithm / distanceREAD →

03·057 min

MEDICAL-AI-ALGOPROBABILITYL2

ナイーブベイズ
— ベイズの定理から考える確率ベースの分類

ベイズの定理・条件付き独立仮定・GaussianNB / MultinomialNB / BernoulliNB の使い分け、テキスト分類と Calibration の注意点まで整理。

// algorithm / probabilisticREAD →

03·069 min

MEDICAL-AI-ALGOL2

SVM（サポートベクターマシン）
— マージン最大化とカーネル

サポートベクター、C と γ、標準化、SVM の使いどころと限界を整理します。

// algorithm / kernelREAD →

03·077 min

ALGOL1

決定木
— if-then で読める分岐モデル

Gini、エントロピー、max_depth、剪定を、リハビリAI研究での使いどころと一緒に整理します。

// algorithm / treeREAD →

03·0810 min

// algorithm / ensembleREAD →

アンサンブル学習
— Bagging / Boosting / Stacking

複数モデルを組み合わせる考え方を、分散低減・バイアス低減・OOF 予測から整理します。

03·099 min

ALGOL1

ランダムフォレスト
— Bagging の代表モデル

多数の決定木、特徴量サブセット、重要度の読み方、GroupKFoldでの確認を整理します。

// algorithm / random-forestREAD →

03·1012 min

// algorithm / boostingREAD →

勾配ブースティング
— XGBoost / LightGBM / CatBoost

表形式データの実用標準。early stopping、calibration、SHAP の読み方まで扱います。

03·119 min

// algorithm / anomalyREAD →

異常検知
— Isolation Forest / One-Class SVM

正常からのずれを見つける教師なし手法と、閾値設定・レビュー体制を整理します。

03·1212 min

// algorithm / neural-netREAD →

ニューラルネットワーク基礎
— MLP / 活性化関数 / 損失関数

パーセプトロンから多層パーセプトロン、活性化関数、損失関数、過学習対策まで。

03·1310 min

// algorithm / optimizationREAD →

最適化アルゴリズム
— SGD / Adam / AdamW

学習率、Momentum、Adam、AdamW、スケジューラ、Early Stoppingを整理します。

03·149 min

// algorithm / dimredREAD →

次元削減
— PCA / t-SNE / UMAP

高次元データの可視化と前処理を、CV内PCAや可視化の読みすぎ問題まで含めて整理します。

03·159 min

// algorithm / clusteringREAD →

クラスタリング
— k-means / 階層的 / DBSCAN / GMM

教師なしで群を探す手法と、クラスタ数の選び方、臨床サブタイプ解釈の注意点を整理します。

// PART 09医療AI研究の落とし穴と対策（11/11 公開中）

09·018 min

PITFALLSL1

過学習と正則化
— 訓練データに合わせすぎないための医療AI研究入門

訓練データではよく当たるのに、未知の患者では性能が落ちる理由を、正則化・交差検証・外部検証とあわせて整理します。

// pitfalls / overfittingREAD →

09·0210 min

// pitfalls / leakageREAD →

データリーケージとは何か
— 未来の情報が紛れ込む瞬間

前処理・特徴量・分割の各段階で起きる「未来情報の漏れ」。検出と防止のチェックポイントをまとめます。

09·039 min

// pitfalls / sample-sizeREAD →

小規模データ問題（EPV・サンプルサイズ設計）
— 「N が少ない」だけでは語れない過大評価のメカニズム

EPV ≥ 10-20 の根拠、Methods で書く sample size justification、リハ研究での実数値の見方。

09·049 min

// pitfalls / imbalancedREAD →

不均衡データ（SMOTE 批判と過剰リサンプリングの罠）
— 「accuracy が高い」「SMOTE で補正した」を冷静に読むために

転倒・在宅復帰など低頻度イベント予測で、SMOTE が逆に較正を壊す仕組みと、AUC/PR-AUC/calibration の選び方。

09·0510 min

// pitfalls / model-searchREAD →

多重比較と過剰なモデル探索
— 探索しすぎた研究の帰結を、どこで止めるか

特徴量探索・モデル探索・ハイパラ探索を Methods にどう書くか。Nested CV の必要性。

09·069 min

// pitfalls / missingREAD →

欠測バイアス（MCAR/MAR/MNAR と医療AIの欠測処理）
— 「空欄」ではなく、患者状態と診療プロセスのサインとして読む

CC / Multiple Imputation / pattern submodels の使い分け、sensitivity 解析の組み方。

09·079 min

// pitfalls / domain-shiftREAD →

施設差・ドメインシフト
— ある施設で動くモデルが、他施設で落ちる理由

時間順 / 多施設 / 解像度違いの 3 種の外部検証、GroupKFold の Methods 記述。

09·089 min

// pitfalls / shortcut-learningREAD →

ショートカット学習・スプリアス相関
— 医療AIが「本質」ではなく「それっぽい手がかり」を拾う問題

医療画像の background bias、テキストレポートの defaults、リハ動画の撮影環境差。

09·0916 min

// pitfalls / causal-vs-predictionREAD →

因果と予測の混同
— SHAP や重要度を「原因」「介入効果」と読まない

予測モデルの SHAP・feature importance を介入効果として誤読するパターンと、因果推論との境界。

09·1010 min

// pitfalls / fairnessREAD →

公平性・バイアス
— 年齢・性別・施設で「誰に対して性能が低いか」を確認する

サブグループ別 AUC / calibration の出し方、Equalized Odds の最低限の理解、Methods での公平性記述。

09·1122 min