top of page
検索

臨床試験でAIを使うなら何を固定すべきか——組み入れ・判定・停止条件GhostDrift Research / ADIC 実用シリーズ(ADIC実用シリーズ 製薬編⑤)


臨床試験でAIを使う機会は増えている。スクリーニング、有効性判定、安全シグナル検出、中間解析——どの場面でもAIが入り込みつつある。しかし「使える」という判断と「試験に組み込める」という判断の間には、明確な差がある。

試験に組み込むとは、プロトコルに記載し、IRBの審査を受け、申請時に記録として提出できる状態で、査察対応にも回答できることを意味する。AIの性能評価と、試験への正式組み込みはまったく別のプロセスだ。

この差を埋めるために必要なのは、何を固定すべきかという設計方針だ。闇雲に記録を増やしても意味はない。申請と査察対応で論点化しやすい「固定すべき三要素」——組み入れ条件、判定条件、停止条件——を明確にしてから始める必要がある。




【対象成果物】この記事が扱う記録単位

本記事で扱うのは、臨床試験AI組み込みに関する以下の成果物セットだ。

組み入れ条件表:プロトコルの適格基準とAIの判定ロジックの対応を照合可能な形で記録したもの

判定閾値表:有効性・安全性評価に使う閾値の定義と版管理記録

停止記録:停止条件が発動した事実、理由、発動後のプロセス切り替え記録

プロトコル逸脱との接続記録:AI停止や手動介入がプロトコル逸脱管理とどう連動するかの記録

この4点が、試験実施中のAI利用の透明性を高め、照会への対応を行いやすくする。


本質的な問題:AIの「動的性質」と試験設計の「静的要件」の緊張

臨床試験設計の基本原則は、試験開始前に何を、どうやって、どの基準で評価するかを固定することにある。この原則がなければ、試験結果の解釈が事後的に影響を受ける可能性が生じ、エビデンスとして扱いにくくなる。

AIはこの原則と本質的に緊張関係にある。機械学習モデルは、新しいデータに触れるたびに性能が変化する可能性を持つ。更新しなければ性能劣化が起きる可能性があり、更新すれば試験の条件が変わってしまうというジレンマがある。

FDAのAI/MLソフトウェア規制の議論では、「ロック状態のアルゴリズム」と「適応型アルゴリズム」の区別がこの問題の核心として扱われている。臨床試験での使用では、ロック状態の明確化が重要になる。しかし「ロック」の意味が曖昧なまま試験に組み込まれると、後から「あれはロックされていたのか」という論点が発生しやすい。


なぜ既存の方法では記録が不十分になるのか

試験実施時のAI管理として多くの企業が取る方法は、「バージョン管理システムにモデルを保存し、試験期間中は更新しない」というものだ。これは必要条件だが十分条件ではない。

バージョン管理されたモデルが存在しても、「このバージョンが試験の全期間を通じて使われていたことの照合」がなければ不十分だ。実行時のモデル確認記録がなければ、「意図通りに使われていた」ことを後から示しにくい。

また、停止条件の定義が不足していることも大きな問題だ。「モデルの性能が著しく低下した場合はどうするか」というシナリオがプロトコルに記載されていない試験は多い。試験期間中に何かあったときの対処が場当たり的になると、後から「プロトコル逸脱だったのか、ADの手順に沿った対応だったのか」の区別が難しくなる。

GCP査察では、組み入れ・判定・停止に関わるAI利用の記録の完全性と、手動介入があった場合の記録との整合が論点になりやすい。


ADICが固定する三つの条件

ADICは規制判断そのものを代替するものではない。ADICは、臨床試験のAI利用における組み入れ・判定・停止の三条件を、照合しやすい形で固定する実装基盤である。

組み入れ条件の固定では、AIが組み入れ判断に使われる場合、そのAIの適格基準への適用方法を、プロトコル確定前にADICに登録する。停止トリガーとして、事前定義外入力の検出、バージョン不一致の検出、承認未完了状態の検出が設定される。

判定条件の固定では、有効性・安全性の評価にAIが使われる場合、AIの出力をどの閾値でどう解釈するかを事前定義する。この定義がADICに登録されることで、判定後に閾値を遡及変更することが技術的に記録される。中間解析委員会へのAI出力の情報提供範囲と、盲検維持との関係も記録対象に含まれる。

停止条件の固定では、AIの監視指標がどの閾値を超えたときにAI使用を停止し、手動プロセスに切り替えるかを事前定義する。停止トリガーの類型として、データ分布逸脱、手動上書きの発生、必須ログの欠落、施設別設定差分の検出が含まれる。停止条件の発動記録は、プロトコル逸脱管理と連動して記録される。

【人間役割の明示】試験AI利用での役割分担は、AI実行者(試験支援システム担当)、結果レビュアー(治験担当医師)、最終承認者(試験責任者)、記録保全者(データマネジャー)、逸脱起票者(QA担当)の5者に分かれる。ADICはこの5者の作業記録を連鎖させる。


製薬実務での具体的な使いどころ

臨床試験でADICが機能する三つの場面を示す。

AIを使ったエンドポイント評価では、画像読影AIが腫瘍縮小の評価に使われる場合、評価基準(RECISTなど)とAI実装の対応をADICで記録する。中央判定とAIの判定が乖離したケースの処理方法も事前定義し、記録する。GCP査察では、判定時点のモデル版と承認記録の結び付きが論点になりやすい。

適応型デザインのAIによる中間解析では、サンプルサイズ再計算や用量選択にAIが関与する場合、中間解析委員会への情報提供の範囲をADICで管理する。誰がAI出力にアクセスできるかの制御記録と、盲検維持の境界記録が証跡として残る。

リアルタイム安全性モニタリングでは、有害事象の自動検出AIが使われる場合、そのアラートがどのプロセスを経て担当者に届き、担当者がどう判断したかのフローをADICで記録する。手動上書きが発生した場合の理由記録が、後からの照合を行いやすくする。


まとめ

臨床試験でAIを使うことは、もはや特殊なことではなくなりつつある。しかし「使う」から「照合可能な形で使う」への移行には、組み入れ・判定・停止の三条件を事前に固定する設計が必要だ。

ADICはこの設計を、プロトコル作成段階から申請・査察対応まで一貫してサポートする枠組みだ。事後に「条件を説明する」のではなく、事前に「条件を固定する」こと——この違いが、証跡整合を高めやすくする。

── GhostDrift Research より ──

臨床試験の証拠価値は設計で決まる。GhostDrift Researchは、AIが臨床試験に入るとき、設計段階から判断・承認・記録・停止の各条件を組み込むことが実務上かなり有力な設計方針だと考えている。


 
 
 

コメント


bottom of page