患者層別化AIをどう扱うべきか——製薬で責任が消えない運用条件（ADIC実用シリーズ製薬編④）

kanna qed
21 時間前
読了時間: 5分

患者層別化は、近年の臨床試験設計で最も重要な要素の一つになっている。どの患者に、どの治療が、どの程度効くかを事前に予測することが、試験効率と医薬品価値の両方に直結するからだ。AIを使った患者層別化は、この予測精度を大きく向上させる可能性を持つ。しかし製薬企業が忘れてはならないのは、層別化の判断が「患者の試験参加機会に関わる決定」であるという事実だ。AIが「この患者はレスポンダーではない」と判断したとき、その判断を根拠に試験参加を断った場合、その判断・承認・記録の責任は製薬企業と試験実施機関が負う。AIが出力したとしても、最終的な承認責任は人間が持つ。「AIがそう言ったから」は記録上の根拠として成立しない。

▼ADICはこちらhttps://www.ghostdriftresearch.com/adic

▼医療AIガバナンス基盤はこちらhttps://www.ghostdriftresearch.com/medical-ai-governance

【対象成果物】この記事が扱う記録単位

本記事で扱うのは、患者層別化に関する以下の成果物セットだ。層別化ログ：AI出力の層別スコア、使用した入力項目と値、分類結果、実行時刻を患者単位で記録したもの担当者判断記録：レビュアーがスコアを確認した記録、手動差し戻しがあった場合の理由、最終的な組み入れ可否の承認記録対照表：プロトコルの組み入れ基準と、AIの判定ロジックの対応関係を照合可能な形で示した文書この3点が、層別化AIを使った試験において、「誰が何を記録し、誰が何を承認したか」を後から照合しやすくする。

本質的な問題：層別化の根拠は誰が記録するのか

患者層別化AIが臨床試験で使われる場合、二種類の問いに答えなければならない。一つ目は科学的妥当性の問いだ。「このモデルは、予測しようとしているバイオマーカー反応を正確に捉えているか」という問いで、これはモデルの性能評価で対応できる。二つ目は記録的妥当性の問いだ。「この層別化判断が、プロトコルで事前定義された基準に基づいて行われたことを、後から照合できる形で記録できているか」という問いで、これはモデルの性能評価では対応できない。第二の問いが重要なのは、ICH E9(R1)のestimandフレームワークが示すように、「どの集団を対象に何を推定するか」の定義が申請の根幹をなすからだ。層別化AIが事前定義と異なる基準で患者を選択していた場合、試験全体の推定対象が変わってしまう可能性がある。薬事審査では、集団定義の事前固定とその実装の一致が論点になりやすい。【層別化記録の粒度】具体的に記録すべき項目は、層別化入力項目（どのバイオマーカー値を使ったか）、層別スコア（数値として記録されているか）、担当者確認（レビュアーがスコアを確認したか）、組み入れ可否（最終判断とその根拠）、手動差し戻し理由（AI出力を上書きした場合の理由）、監査時の再確認単位（患者IDと実行記録の照合可能性）だ。

なぜ現状のプロセスでは記録が不明確になるのか

多くの臨床試験では、組み入れ基準はプロトコルに文書化されている。しかし層別化AIが実際の運用でその基準をどう実装したかは、AIシステムの内部に閉じている。この問題が顕在化するのは、試験終了後の解析段階だ。「なぜこの患者が高反応群に分類されたのか」という問いに、解析担当者がAIの出力ログを見て答えようとしたとき、ログに必要な情報が記録されていないことがある。AIが出力した層別スコア、スコアに使われた特徴量の値、それらが組み入れ基準のどの条件に対応するかの対照表——これらが事前に設計されていなければ、後から再構成することは難しい。再構成できないということは、後から照合しにくいことを意味する。

ADICが固定する層別化の記録構造

ADICは規制判断そのものを代替するものではない。ADICは、「誰が、何の根拠で、どの患者をどのグループに入れたか」を実行時に固定し、照合しやすい形で記録する実装基盤である。記録責任の分離という観点では、AIは層別化候補を出力するが、最終的な組み入れ判断は試験担当者が行うという構造をシステムに組み込む。AI出力を生成した実行者、出力を確認したレビュアー、最終判断を行った承認者、記録を保全したQA担当の4役割が、それぞれの作業記録として分離して残る構造にする。停止条件という観点では、AIのスコアが事前定義の信頼区間を外れた場合に自動的にマニュアルレビューへ回す。また、入力データが事前定義外の形式だった場合、閾値テーブルのバージョン不一致が検出された場合も停止トリガーとして設定する。層別化AIでは、モデル性能そのものより、どの患者にどの基準が適用されたかの記録整合が後から追えることが重要になる。

製薬実務での具体的な使いどころ

患者層別化AIでADICが機能する場面は、プレスクリーニングとエンリッチメントデザインの二つだ。プレスクリーニングでは、電子カルテや検査データからAIが組み入れ候補を特定する。この段階でADICが機能することで、「なぜこの患者がスクリーニングされなかったか」を後から照合しやすくなる。試験終了後に「特定の患者集団が除外されていた」という論点が出てきたとき、スクリーニング基準の適用記録を示しやすくなる。エンリッチメントデザインでは、バイオマーカー陽性患者を優先的に組み入れる。この設計でAIが使われる場合、バイオマーカー判定のAI（実行者）と組み入れ判断の承認者が明確に分離されている必要がある。ADICはこの分離を記録として固定する。実行者、レビュアー、承認者の3役割が別々の記録として残る構造が、後からの照合を行いやすくする。

まとめ

患者層別化AIは、臨床試験の効率と精度を向上させる強力なツールだ。しかしその強力さは、記録構造が整っていないほど後から説明負荷が重くなる。「AIが判断した」は承認記録の代わりにはならない。製薬企業は、層別化AIを使った判断の全プロセスについて、判断責任・承認責任・記録責任・変更管理責任の所在を示す必要がある。ADICはその責任の所在を、実行可能な記録構造として実装するための基盤だ。説明責任が消えないなら、説明を支える記録構造を正確に固定することが有力な対応策になる。── GhostDrift Research より ──GhostDrift Researchは、「AIが患者の試験参加機会に関わる判断に使われるとき、判断・承認・記録の役割を曖昧にしてはならない」という立場を一貫して持つ。この立場から、ADICの設計思想は生まれている。