線形回帰
— 連続値予測の最小単位
退院時FIM予測を題材に、最小二乗法から決定係数・残差プロットまで。全アルゴリズムの基礎となる「重み付き和」の世界。
データを整えた後に考えるべきことは、「どの機械学習アルゴリズムを選ぶか」です。
機械学習のアルゴリズムには、それぞれ得意なデータ、苦手なデータ、解釈のしやすさ、必要な症例数があります。リハビリAI研究では、最新の手法を選ぶことよりも、FIM、歩行評価、ADL、退院先などの臨床データと研究目的に合ったモデルを選ぶことが重要です。
第3部「リハビリAI・機械学習アルゴリズム図鑑」では、リハビリテーション研究で使われる代表的な機械学習アルゴリズムを15記事で整理します。線形回帰、ロジスティック回帰、正則化、SVM、決定木、ランダムフォレスト、勾配ブースティング、ニューラルネット、次元削減、クラスタリングを、仕組み・強み・弱み・適用場面の違いから解説します。
退院時 FIM 予測、歩行自立予測など、リハビリ領域の具体例を通して、「この研究ではどのアルゴリズムを選ぶべきか」を考えるための判断軸を身につけられるように解説します。
機械学習の入門書は、どれもアルゴリズムを並列に紹介します。「線形回帰、決定木、SVM、ニューラルネット…」というリスト形式です。しかしそれだけでは、自分の研究テーマに対して「どれを選ぶべきか」を判断しにくくなります。本パートは、各アルゴリズムを強み・弱み・適用場面・対立する選択肢の対比で整理し、リハビリAIに取り組む研究者が「研究目的から逆算してアルゴリズムを選ぶ」ための判断軸を養います。
実務では、アルゴリズムを「線形 / 距離・確率 / 木・アンサンブル / 教師なし / ニューラル」の5系統に分類して把握すると、初見のアルゴリズムでも「どの系統に近いか」で大体の特性が予想できます。本パートはこの分類軸を提供します。
本パートは 第1部 リハビリAI・機械学習の基礎地図 のタスク類型と 第2部 リハビリAI・機械学習の臨床データ前処理 を前提とします。データを整えた後に、何で学習させ、何を基準に比較するかを決めるための章です。第4部「深層学習」は、本パート 03·12〜13 の続編として読むと理解しやすくなります。
15のアルゴリズムを、「物事の見方」の違いで5系統に分けると次のようになります。
「重み付き和」で予測する系統。線形回帰・ロジスティック回帰・正則化(Lasso / Ridge / Elastic Net)。係数を臨床的に解釈しやすく、FIM予後予測や歩行自立予測などのリハビリAI研究で比較基準にしやすいモデルです。
「類似度」「条件付き確率」「サポートベクター」で予測する系統。k近傍法・ナイーブベイズ・SVM。直感的・小サンプルで強力・モデルがコンパクト。標準化が必須のものが多い。
「閾値の連鎖」と「複数モデルの統合」で予測する系統。決定木・アンサンブル(Bagging/Boosting/Stacking)・ランダムフォレスト・勾配ブースティング。表形式データで実用性が高く、FIM、検査値、歩行指標などを同時に扱うリハビリAI研究で候補になります。
「データの構造」を見つける系統。異常検知・次元削減・クラスタリング。仮説生成・可視化・データ理解に有効です。リハビリAI研究では回復パターンの類型化や外れ値検知に使います。
「層を重ねた変換」と「勾配で学ぶ最適化」で予測する系統。ニューラルネット基礎・最適化アルゴリズム。表形式データでは木系モデルとの比較が必要ですが、画像・動画・時系列を扱う歩行解析や医用画像AIでは重要な土台になります。
退院時FIM予測を題材に、最小二乗法から決定係数・残差プロットまで。全アルゴリズムの基礎となる「重み付き和」の世界。
自宅退院可否を題材に、シグモイド関数・オッズ比・係数の臨床的解釈まで。リハビリAI研究で比較基準にしやすいアルゴリズム。
L1は変数選択、L2は係数縮小、Elastic Netは両方。症例数に対して候補変数が多いリハビリAI研究で、過学習を抑えながら変数を整理する手法。
「似た過去症例の結果から予測」する直感的なアルゴリズム。距離計算と次元の呪い、リハビリAI研究での使いどころ。
ベイズの定理 + 「特徴量間の独立」仮定。実装が単純で高速、テキスト分類や医療記録のスクリーニングで実用的。
最大マージン分類、カーネルトリック。小サンプル高次元の歩行波形、Radiomics、生体信号で選択肢になってきた手法。
if-then ルールの連鎖。Gini不純度と情報利得、過学習しやすい弱点と剪定。アンサンブル系の出発点。
複数モデルを組み合わせて性能を上げる3戦略。ランダムフォレストと勾配ブースティングの理論的基盤。
複数の決定木を平均化して過学習を抑える。Bagging とランダム特徴量選択の組み合わせ。表形式データのベースラインとして検討しやすい手法。
表形式データで高い性能を出しやすいアルゴリズム群。弱い木を順に足していく仕組み、3手法の使い分け、ハイパーパラメータの実務調整。
「正常データから外れた症例」を検出する手法。歩行データの異常検知、データ品質チェックに有用。
入力→隠れ層→出力の3層構造、活性化関数、誤差逆伝播。深層学習(第4部)への橋渡し。
勾配降下法の派生3種。学習率の役割、Momentum、適応的学習率、weight decay の正しい扱い。深層学習の安定性を左右する基礎。
線形(PCA)と非線形(UMAP/t-SNE)の対比。歩行波形・医用画像特徴量の可視化、ノイズ除去、前処理。
球状クラスタの k-means、樹形図の階層的、密度ベースの DBSCAN、確率モデルの GMM。回復パターンの類型化に。
15記事は系統別に学ぶのが最も効率的です。目的別の最短経路もあります。
03·02 → 03·03 → 03·09 → 03·10。ロジスティック回帰でベースライン → 正則化で過学習防止 → ランダムフォレスト → 勾配ブースティングで性能向上。リハビリAI研究の予後予測モデル開発で、まず比較したい一連の流れです。
系統順に 03·01〜15 を通読。線形系(01-03)→ 距離・確率・カーネル系(04-06)→ 木・アンサンブル系(07-10)→ 教師なし系(11, 14, 15)→ ニューラル系(12-13)。各系統の「物事の見方」が積み上がる。
03·12 → 03·13 → 第4部。ニューラルネット基礎 → 最適化(SGD/Adam/AdamW)→ 第4部 CNN/Transformer。第4部の前提知識として必須の2記事を集中的に。
03·02 → 03·03 → 03·07 → 03·10 → 第10部 XAI。ロジスティック回帰の係数 → 正則化で変数選択 → 決定木の if-then ルール → 勾配ブースティング+SHAP。解釈可能性に強い系統を辿る。
features / label / loss / generalization の4語を、本パートでは前提語彙として使います。
タスク類型を把握すると、各アルゴリズムが何タスクに適するか即座に判断できます。
アルゴリズムを学ぶ前に、データを正しく整えること。本パートは整えたデータが前提。
私が研究を始めた頃、アルゴリズムの選択は「最新で強力なものを使う」という基準でした。「ランダムフォレストが流行っているから RF」「いまは勾配ブースティングの時代」「いやいや深層学習でしょ」── でも、実は逆で、研究目的に対して最も適したアルゴリズムを選ぶことが、性能・解釈性・査読の通りやすさのすべてを左右します。
リハビリAI研究の文脈では、サンプル数が200例程度の予後予測なら、ロジスティック回帰と正則化線形モデルをまず比較基準に置くのが現実的です。勾配ブースティングを試す場合も、外部検証で本当に差が出るかを確認します。一方、ウェアラブルから得られる大規模な時系列データや画像データでは、LightGBM や深層学習が有力な選択肢になります。
本パートは、「データの量と性質に応じてアルゴリズムを選ぶ」という実務感覚を養うことを目指します。15記事を通読すると、自分の研究ではどの系統を先に試し、どのモデルを比較基準に置くべきかを判断しやすくなります。
特に 03·02 ロジスティック回帰、03·10 勾配ブースティング、03·12 ニューラルネット基礎 は、リハビリAI研究で登場しやすいので先に読んでおくと全体をつかみやすくなります。
— Editor