医療AIや機械学習を学び始めると、「統計モデル」「機械学習」「生成AI」という言葉が並んで出てきます。しかし、この3つは同じものではありません。大切なのは、どれが新しいかではなく、自分の研究で何をしたいのかです[1]。
FIMと自宅退院の関連を説明したいのか。入院時情報から退院時の歩行自立を予測したいのか。カルテ情報から退院支援サマリーを作成したいのか。目的が変われば、選ぶ手法も、評価指標も、論文で書くべき内容も変わります。
本稿では、統計モデル・機械学習・生成AIの違いを、「説明」「予測」「生成」という3つの目的から整理します。
本稿は、第1部「医療AI・機械学習の基礎地図」の第2記事です。前記事「医療者のための機械学習入門」で扱った features / label / loss / generalization の考え方を踏まえ、ここでは「そもそも統計モデル・機械学習・生成AIは何が違うのか」を整理します。次の記事「回帰・分類・クラスタリング・生成の違い」と合わせて読むことで、医療AI研究で使われる主要なタスクの見取り図がつかめます。
// 01 · LEARN OUTCOMESこの記事でわかること
読了後、次の4つを説明できるようになります。
- 統計モデル・機械学習・生成AIの違いを、「説明」「予測」「生成」という目的から整理できる
- FIM、自宅退院予測、歩行自立予測、退院支援サマリーを例に、適切な手法を選べる
- 研究目的に応じて、評価指標やMethodsで書くべき内容が変わることを理解できる
- 「機械学習を使った」だけでは不十分で、「なぜその手法を選んだか」を説明できる
// 02 · CONCLUSIONまず結論
// 03 · FIGURE直感的な図解
3つの違いは、「どのアルゴリズムを使うか」だけではなく、「何を成果として評価するか」に表れます。同じリハビリテーション領域のデータを使っても、目的が変われば、主役となる出力も評価指標も変わります。
// 04 · CLINICAL医療・リハビリでの具体例
同じ「脳卒中後の自宅退院」や「退院時の歩行自立」というテーマでも、研究の問いによって選ぶ手法は変わります。研究計画を立てるときは、最初に「自分は何を明らかにしたいのか」を言語化することが重要です。
「FIM運動項目は自宅退院に関連するか?」
この問いでは、ロジスティック回帰などを用いて、年齢、発症から入院までの日数、入院時FIM、麻痺の重症度などを調整したうえで、FIM運動項目と自宅退院の関連を推定します。主役は、オッズ比、95%信頼区間、p値です。
この場合の目的は、「どの因子が転帰と関連するか」を説明することです。モデルの予測精度よりも、係数の解釈や不確実性の評価が中心になります[1]。
「この患者は退院時に歩行自立できるか?」
この問いでは、入院時の年齢、FIM、麻痺の重症度、発症からの日数、認知機能、検査値などを用いて、未知症例の歩行自立確率を予測します。主役は、予測確率やリスクスコアです。
この場合の目的は、「新しい患者に対して、どの程度正確に予測できるか」です。AUC、感度、特異度、calibration、外部検証、decision curve analysis などで評価します。係数の解釈は重要な場合もありますが、主目的ではありません[3]。
「カルテ情報から退院支援サマリーを作成できるか?」
この問いでは、LLM を用いて、カルテやリハビリ記録から退院支援に必要な要約文を作成します。主役は、生成された文章の正確性、読みやすさ、臨床的妥当性、安全性です。
この場合、AUC や p値だけでは評価できません。事実誤認、ハルシネーション、重要情報の抜け、個人情報保護、医療者による確認体制などを含めて評価する必要があります[4]。
ロジスティック回帰は、統計モデルとしても機械学習としても使われます。
たとえば、オッズ比を解釈して「FIMが自宅退院に関連するか」を説明したいなら、統計モデルとしての使い方です。一方で、入院時情報から「自宅退院できる確率」を未知症例に対して出したいなら、予測モデルとしての使い方です。
つまり、違いは手法名ではなく、研究目的、評価指標、結果の解釈にあります。「何を知りたい研究なのか」を先に決めることで、手法選択の理由も論文で説明しやすくなります[2]。
// 05 · THEORY数式・理論
3つの考え方は、数式の形でも「何を最大化・最小化するか」が違います。ここでは、それぞれの直感を先に述べてから、形式的な式を補足します。
統計モデル
統計モデルでは、観察されたデータの背後にある関係を、少数のパラメータで表します。たとえば、「年齢が1歳上がると自宅退院のオッズはどの程度変わるか」「FIMが10点高いと転帰はどの程度変わるか」といった問いに答えます。
主役は、係数、オッズ比、信頼区間、p値です。モデルが何を説明しているのかを、研究者が解釈できることが重要になります。
形式的には、多くの場合、尤度を最大化してパラメータを推定します(あるいはベイズで事後分布を求めます)。
θ̂ = argmax_θ L(θ | data) = argmax_θ Π p(yᵢ | xᵢ; θ)
そして「θ に対する不確実性」を信頼区間や標準誤差で評価します。「真のパラメータがどこにあるか」が研究関心の中心です。
機械学習
機械学習では、未知のデータに対して外れにくい関数を学習します。たとえば、「この患者は退院時に歩行自立できるか」「自宅退院の確率はどの程度か」を予測します。
主役は、係数そのものではなく、未知症例に対する予測性能です。そのため、学習に使っていないデータで評価することが重要になります。
形式的には、多くの場合、訓練データ上で予測誤差を最小化しつつ、正則化で過学習を抑えます。
θ̂ = argmin_θ (1/N) Σ L(f(xᵢ; θ), yᵢ) + λ R(θ)
評価: E_{(x,y) ~ unseen} [ L(f(x; θ̂), y) ]
θ の値そのものより、未知データでの汎化性能が目的になります。なお、機械学習でも SHAP や特徴量重要度などで「どの変数が予測に効いているか」を読み解こうとする取り組みがあります。ただし、それを 因果効果 と同一視しないように注意が必要です。
生成AI
生成AIでは、文章、画像、音声、時系列データなどの分布を学習し、新しい出力を生成します。医療分野では、文章要約、説明文の作成、患者向け資料の下書き、画像生成・補完などに応用されます。
主役は、生成された出力の正確性、自然さ、安全性です。もっともらしいが事実と異なる内容を出すことがあるため、人間による確認が不可欠です。
形式的には、データの確率分布 p(x) を直接モデル化し、そこからサンプリングします。
θ̂ = argmax_θ E_x [ log p_θ(x) ] ← 尤度最大化(VAE, autoregressive LM)
or argmin_θ D( p_data(x), p_θ(x) ) ← 分布の距離最小化(GAN, Diffusion)
生成: x' ~ p_θ(x)
評価は「人間が見て自然か」「事実と整合しているか」「特定タスクで安全に使えるか」など、複数の軸で総合判断されます。なお、生成AIは生成だけでなく、要約・分類・情報抽出など、生成以外の目的にも応用されます。
// 06 · IMPLEMENTATION · PYTHON実装
同じFIMデータを使っていても、統計モデル・機械学習・生成AIでは、答えようとしている問いが異なります。ここでは、教育用の仮想データを想定して、3つの考え方の違いをコードの形で示します。
# ============================================
# 教育用サンプル
# 実臨床データを使う場合は、個人情報保護、
# 倫理審査、施設ルール、利用規約を必ず確認してください。
# ============================================
# ============================================
# (1) 統計モデル:
# 「FIM運動項目は自宅退院と関連するか?」
# ============================================
import statsmodels.api as sm
X_stats = df[["fim_motor", "age", "onset_days"]]
X_stats = sm.add_constant(X_stats)
y = df["discharge_home"]
model_stats = sm.Logit(y, X_stats).fit()
print(model_stats.summary())
# 主役:
# 係数、オッズ比、95%信頼区間、p値
# 目的:
# FIM運動項目と自宅退院の関連を説明する
# ============================================
# (2) 機械学習:
# 「この患者は自宅退院できるか?」
# ============================================
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
from xgboost import XGBClassifier
X_ml = df[["fim_motor", "age", "onset_days"]]
y = df["discharge_home"]
X_train, X_test, y_train, y_test = train_test_split(
X_ml,
y,
test_size=0.2,
stratify=y,
random_state=42
)
model_ml = XGBClassifier(
max_depth=3,
n_estimators=100,
eval_metric="logloss",
random_state=42
)
model_ml.fit(X_train, y_train)
pred_prob = model_ml.predict_proba(X_test)[:, 1]
auc = roc_auc_score(y_test, pred_prob)
print(f"AUC: {auc:.3f}")
# 主役:
# 未知データでの予測性能、AUC、calibration、外部検証
# 目的:
# 新しい症例に対して自宅退院の確率を予測する
# ============================================
# (3) 生成AI:
# 「退院支援サマリーを作成する」
# ============================================
# 注意:
# 以下は特定のAPIに依存しない擬似コードです。
# 実データを使う場合は、患者情報を匿名化し、
# 個人情報保護、倫理審査、施設ルール、利用規約を確認してください。
anonymized_rehab_note = """
教育用に匿名化されたリハビリ記録をここに入れる。
実在患者の情報は入れない。
"""
prompt = f"""
以下の匿名化済みリハビリ記録から、
退院支援カンファレンス用の要約を300字で作成してください。
条件:
- 事実と推測を分ける
- 医学的判断を断定しない
- 不明な情報は「不明」と書く
- 退院支援に必要な情報を優先する
リハビリ記録:
{anonymized_rehab_note}
"""
response = llm.generate(prompt)
print(response)
# 主役:
# 生成された文章の正確性、臨床的妥当性、安全性
# 目的:
# 医療者が確認できる退院支援サマリーの下書きを作成する
同じ df を使っていても、3つの実装が答えている問いは異なります。統計モデルは「関連を説明する」、機械学習は「未知症例を予測する」、生成AIは「文章を作成する」ことが中心です。論文の Introduction や Methods では、「どの手法を使ったか」だけでなく、「なぜその手法が研究目的に合っているのか」を明記する必要があります。
// 07 · MYTHSよくある誤解
- 機械学習の方が統計モデルより優れている
- 優れているかどうかは、目的によって変わります。係数の解釈や信頼区間を通して「どの因子が転帰と関連するか」を説明したいなら、統計モデルが適していることがあります。一方で、未知症例に対する予測精度を高めたいなら、機械学習が有用なことがあります。新しい手法ほど優れているのではなく、研究目的に合っているかが重要です。
- サンプル数が少ないから統計、多いから機械学習を使うべき
- サンプル数だけで決めるのは危険です。少数例でも予測が目的なら機械学習を検討することはありますが、過学習のリスクが高いため、単純なモデル、正則化、交差検証、外部検証、EPV の確認が重要になります。逆に大規模データでも、因子の関連を説明したい研究では統計モデルが適している場合があります。
- 生成AIは賢い検索エンジンである
- 生成AIは、単に正解を検索しているわけではありません。学習したデータのパターンをもとに、もっともらしい文章や画像を生成します。そのため、自然に見える文章であっても、事実と異なる内容を含むことがあります。医療で使う場合は、ハルシネーション、根拠の確認、個人情報保護、人間による最終確認が不可欠です。
- p値が出るなら統計、出ないなら機械学習である
- p値の有無だけで区別するのは表面的です。機械学習モデルでも bootstrap で AUC の信頼区間を推定できますし、ベイズ統計のように p値 を中心にしない統計手法もあります。大切なのは、「何を推定したいのか」「何を評価したいのか」です。
// 08 · WRITING論文での書き方
Introduction で示すべきこと
- 研究の主目的が「説明」「予測」「生成」のどれに近いかを明示する
- なぜその目的に対して統計モデル、機械学習、生成AI を選んだのかを説明する
- 「機械学習を使った」だけで終わらせず、予測性能、解釈性、臨床応用可能性など、目的との対応を述べる
- リハビリテーション領域でその問いがなぜ重要なのかを具体例とともに示す
Methods で求められる記述
- 統計モデル:モデルの種類、リンク関数、説明変数、共変量選択、欠測処理、交互作用の扱い、信頼区間の算出方法を記載する。
- 機械学習:アルゴリズム、特徴量、Train/Test 分割、交差検証、ハイパーパラメータ探索、評価指標、calibration、外部検証、過学習対策を記載する。
- 生成AI:使用したモデル、バージョン、プロンプト、入力データの扱い、匿名化の方法、評価者、評価基準、ハルシネーション対策、安全性確認、人間による確認体制を記載する。
査読者に指摘されやすい点
- 予測モデルなのに、外部検証や calibration が示されていない
- 機械学習を使っているのに、Methods が統計モデルの説明だけになっている
SHAPなどの説明結果を、因果効果のように解釈している- 生成AIの出力を、評価基準なしに「有用」と結論づけている
- 個人情報保護、匿名化、倫理審査、入力データの管理が十分に説明されていない
報告ガイドラインは、研究の種類に応じて選びます。観察研究で関連を検討する場合は STROBE[6]、予測モデル研究では回帰モデル・機械学習モデルのいずれであっても TRIPOD+AI が基本になります[3]。AI を組み込んだ介入の臨床試験であれば、CONSORT-AI[4] や SPIRIT-AI[5] の確認が必要です。生成AIを用いる研究では、使用したモデル、バージョン、プロンプト、入力データの扱い、評価者、評価基準、ハルシネーションや安全性の確認方法を明示することが重要です。
// 09 · CHECKLISTチェックリスト
研究テーマから手法を選ぶための7項目。
- 01研究の主目的が「説明」「予測」「生成」のどれに近いかを明示している
- 02Results の主役が、係数・予測性能・生成物評価のどれかに一致している
- 03目的に合った評価指標を設定している
- 04予測研究では、Train/Test 分割、交差検証、calibration、外部検証を検討している
- 05生成AIを使う場合、入力データ、プロンプト、評価方法、ハルシネーション対策を記録している
- 06SHAP や特徴量重要度を、因果効果として過剰解釈していない
- 07Introduction または Methods に「なぜこの手法を選んだか」を明記している
// 10 · QUIZミニクイズ
-
Q1「入院時 FIM 運動項目が自宅退院と関連するか」を調べたい。最も近い目的は?
- 機械学習で予測精度を最大化する
- 統計モデルで関連を推定する
- 生成AIで退院支援文書を作成する
- どれでも同じ
SHOW ANSWER
B. 「関連を説明したい」問いなので、統計モデルとしてロジスティック回帰などを用いる考え方が自然です。主役はオッズ比、95%信頼区間、p値です。 -
Q2「入院時情報から退院時の歩行自立を予測したい」研究目的に最も近いものは?
- 統計モデル
- 機械学習
- 生成AI
- 該当なし
SHOW ANSWER
B. 未知症例の転帰を予測したい問いなので、機械学習や予測モデルの考え方が中心になります。AUC、calibration、外部検証などで評価します。 -
Q3生成AIを医療文書作成に使う場合、最も重要な注意点は?
- AUC だけで評価する
- p値 だけで評価する
- 生成文の正確性、安全性、ハルシネーションを確認する
- 人間による確認は不要である
SHOW ANSWER
C. 生成AIの出力は自然に見えても、事実と異なる内容を含むことがあります。医療で使う場合は、正確性、安全性、個人情報保護、人間による確認が重要です。
// REF参考文献
- Breiman L. Statistical modeling: the two cultures. Statistical Science 2001;16(3):199-231.
- Bzdok D, Altman N, Krzywinski M. Statistics versus machine learning. Nature Methods 2018;15:233-234.
- Collins GS, Moons KGM, et al. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ 2024;385:e078378.
- Liu X, Rivera SC, Moher D, Calvert MJ, Denniston AK. Reporting guidelines for clinical trial reports for interventions involving artificial intelligence: the CONSORT-AI extension. BMJ 2020;370:m3164.
- Rivera SC, Liu X, Chan AW, Denniston AK, Calvert MJ. Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension. BMJ 2020;370:m3210.
- von Elm E, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP. The STROBE Statement: guidelines for reporting observational studies. Lancet 2007;370:1453-1457.