線形回帰
— 連続値予測の最小単位
退院時FIM予測を題材に、最小二乗法から決定係数・残差プロットまで。全アルゴリズムの基礎となる「重み付き和」の世界。
データを整えた後に考えるべきことは、「どのアルゴリズムを使うか」です。
機械学習のアルゴリズムには、それぞれ得意なデータ、苦手なデータ、解釈のしやすさ、必要な症例数があります。リハビリテーション研究では、最新の手法を使うことよりも、研究目的とデータの性質に合ったアルゴリズムを選ぶことが重要です。
第3部「医療AI・機械学習アルゴリズム図鑑」では、リハビリテーション研究で使われる代表的な機械学習アルゴリズムを 15 記事で整理します。線形回帰、ロジスティック回帰、正則化、SVM、決定木、ランダムフォレスト、勾配ブースティング、ニューラルネット、次元削減、クラスタリングなどを、仕組み・強み・弱み・適用場面の違いから解説します。
退院時 FIM 予測、歩行自立予測など、リハビリ領域の具体例を通して、「この研究ではどのアルゴリズムを選ぶべきか」を考えるための判断軸を身につけられるように解説します。
機械学習の入門書は、どれもアルゴリズムを並列に紹介します。「線形回帰、決定木、SVM、ニューラルネット…」というリスト形式。しかしこれでは、自分の研究テーマに対して「どれを選ぶべきか」を判断できません。本パートは、各アルゴリズムを強み・弱み・適用場面・対立する選択肢の対比で記述することで、リハ研究者が「研究目的から逆算してアルゴリズムを選ぶ」判断軸を養います。
実務では、アルゴリズムを「線形 / 距離・確率 / 木・アンサンブル / 教師なし / ニューラル」の5系統に分類して把握すると、初見のアルゴリズムでも「どの系統に近いか」で大体の特性が予想できます。本パートはこの分類軸を提供します。
本パートは 第1部 医療AI・機械学習の基礎地図(タスク類型)と 第2部 医療AI・機械学習のための臨床データ前処理 を前提とします。データを整えた後の「では何で学習させるか」に答える本丸です。第4部「深層学習」は本パート 03·12〜13 の続編です。
15のアルゴリズムを、「物事の見方」の違いで5系統に分けると次のようになります。
「重み付き和」で予測する系統。線形回帰・ロジスティック回帰・正則化(Lasso/Ridge/Elastic Net)。係数の解釈が直接できるので臨床研究で頻用。リハ研究の予後予測モデルの王道。
「類似度」「条件付き確率」「サポートベクター」で予測する系統。k近傍法・ナイーブベイズ・SVM。直感的・小サンプルで強力・モデルがコンパクト。標準化が必須のものが多い。
「閾値の連鎖」と「複数モデルの統合」で予測する系統。決定木・アンサンブル(Bagging/Boosting/Stacking)・ランダムフォレスト・勾配ブースティング。表形式データで最も実用的。標準化が不要。
「データの構造」を見つける系統。異常検知・次元削減・クラスタリング。仮説生成・可視化・データ理解に有効。リハ研究では回復パターンの類型化や外れ値検知に使う。
「層を重ねた変換」と「勾配で学ぶ最適化」で予測する系統。ニューラルネット基礎・最適化アルゴリズム。表形式データでは木系に劣るが、画像・動画・時系列で圧倒的。歩行解析・医用画像で必須。第4部の前提知識。
退院時FIM予測を題材に、最小二乗法から決定係数・残差プロットまで。全アルゴリズムの基礎となる「重み付き和」の世界。
自宅退院可否を題材に、シグモイド関数・オッズ比・係数の臨床的解釈まで。リハ研究で最も登場するアルゴリズム。
L1は変数選択、L2は係数縮小、Elastic Netは両方。サンプル数が変数数を上回らないリハ研究の救世主。
「似た過去症例の結果から予測」する直感的なアルゴリズム。距離計算と次元の呪い、リハ研究での適用範囲。
ベイズの定理 + 「特徴量間の独立」仮定。実装が単純で高速、テキスト分類や医療記録のスクリーニングで実用的。
最大マージン分類、カーネルトリック。小サンプル高次元の医用画像系でかつて主役だった手法。
if-then ルールの連鎖。Gini不純度と情報利得、過学習しやすい弱点と剪定。アンサンブル系の出発点。
複数モデルを組み合わせて性能を上げる3戦略。ランダムフォレストと勾配ブースティングの理論的基盤。
複数の決定木を平均化して過学習を抑える。Bagging とランダム特徴量選択の組み合わせ。実務での「とりあえず最初に試す」枠。
表形式データで最も強力なアルゴリズム群。逐次的に弱い木を足していく仕組み、3手法の使い分け、ハイパーパラメータの実務調整。
「正常データから外れた症例」を検出する手法。歩行データの異常検知、データ品質チェックに有用。
入力→隠れ層→出力の3層構造、活性化関数、誤差逆伝播。深層学習(第4部)への橋渡し。
勾配降下法の派生3種。学習率の役割、Momentum、適応的学習率、weight decay の正しい扱い。深層学習の心臓部。
線形(PCA)と非線形(UMAP/t-SNE)の対比。歩行波形・医用画像特徴量の可視化、ノイズ除去、前処理。
球状クラスタの k-means、樹形図の階層的、密度ベースの DBSCAN、確率モデルの GMM。回復パターンの類型化に。
15記事は系統別に学ぶのが最も効率的です。目的別の最短経路もあります。
03·02 → 03·03 → 03·09 → 03·10。ロジスティック回帰でベースライン → 正則化で過学習防止 → ランダムフォレスト → 勾配ブースティングで性能向上。これだけでリハ研究の予後予測モデル開発はカバーできる。
系統順に 03·01〜15 を通読。線形系(01-03)→ 距離・確率・カーネル系(04-06)→ 木・アンサンブル系(07-10)→ 教師なし系(11, 14, 15)→ ニューラル系(12-13)。各系統の「物事の見方」が積み上がる。
03·12 → 03·13 → 第4部。ニューラルネット基礎 → 最適化(SGD/Adam/AdamW)→ 第4部 CNN/Transformer。第4部の前提知識として必須の2記事を集中的に。
03·02 → 03·03 → 03·07 → 03·10 → 第10部 XAI。ロジスティック回帰の係数 → 正則化で変数選択 → 決定木の if-then ルール → 勾配ブースティング+SHAP。解釈可能性に強い系統を辿る。
features / label / loss / generalization の4語を、本パートでは前提語彙として使います。
タスク類型を把握すると、各アルゴリズムが何タスクに適するか即座に判断できます。
アルゴリズムを学ぶ前に、データを正しく整えること。本パートは整えたデータが前提。
私が研究を始めた頃、アルゴリズムの選択は「最新で強力なものを使う」という基準でした。「ランダムフォレストが流行っているから RF」「いまは勾配ブースティングの時代」「いやいや深層学習でしょ」── でも、実は逆で、研究目的に対して最も適したアルゴリズムを選ぶことが、性能・解釈性・査読の通りやすさのすべてを左右します。
リハ研究の文脈で言えば、サンプル数が 200 例程度の予後予測なら、ロジスティック回帰 + 正則化が依然として最強です。勾配ブースティングで同じデータを訓練しても、外部検証ではほとんど差が出ません。一方、ウェアラブルから何百万行のセンサーデータを扱うなら、線形モデルは無力で、LightGBM や深層学習が必須になります。
本パートは、「データの量と性質に応じてアルゴリズムを選ぶ」という実務感覚を養うことを目指します。15 記事を通読すると、「自分の研究にはこの系統」という嗅覚が身につくはずです。
特に 03·02 ロジスティック回帰、03·10 勾配ブースティング、03·12 ニューラルネット基礎 はリハ研究で最も登場するので、最初に読んでおくことを推奨します。
— Editor