AI要件定義で最初に決めるべきなのは精度ではない――事故後に「検証できる」ことが要件になる

kanna qed
2025年12月29日
読了時間: 6分

AI導入における典型的な失敗パターンは、PoC（概念実証）では素晴らしい精度を記録するのに、いざ本番運用の稟議や監査、法務審査の段階で「止まる」ことです。

なぜ、これほど多くのプロジェクトが最終局面で立ち往生するのでしょうか。その原因を断言すれば、要件定義の段階で「責任」「証拠」「検証」が抜け落ちているからです。AI導入を成功させるための真の要件定義とは、精度やモデル選定を決めることではなく、事故後に当時の判断を証明できる構造――すなわち Commit（境界固定）/ Ledger（証拠）/ Verify（検証） を決定する作業に他なりません。

1. そもそも「AI要件定義」とは何か

従来のシステム開発における要件定義（業務フロー、KPI、使用データ、インフラ構成）だけでは、AIの実装には不十分です。

従来の要件定義の限界

KPIやユースケースの策定は不可欠ですが、AIは「判断」そのものに踏み込みます。そのため、事故や不利益が発生した際の「説明責任」が確実にセットで発生します。この「責任」を誰がどう負うかの裏付けがないまま進めることが、後の停滞を招きます。

AI要件定義の真の定義

AIにおける要件定義とは、AIの出力を「意思決定に使える状態」にするための条件を定義することです。その絶対条件は、どれだけ時間が経過し、モデルが更新された後であっても、「当時の判断の正当性を物理的に証明できること」です。

2. AI要件定義が原因で本番導入が止まる3つの瞬間

要件定義の甘さは、プロジェクトが「本番」に近づくほど牙を剥きます。

PoCは動くが稟議・監査で止まる

「いざ事故が起きたとき、誰が最終的な責任を持つのか」という問いに答えられず、プロジェクトが凍結されます。これは担当者の姿勢の問題ではなく、責任を裏付ける証拠構造がない「設計の問題」です。

審査・否認アルゴリズムにおける課題： 効率化を優先してAIによる自動判定を導入したものの、法的な紛争や規制上の調査において「当時の仕様・判断根拠・検証手順を証拠として固定できるか」が最大の争点となり、本番展開が凍結されるケースが後を絶ちません。要件定義に客観的な検証プロセスが含まれていないことが、社会的な説明責任の崩壊を招く要因となります。つまり、要件定義の欠陥は“精度不足”ではなく、“事故後に検証できない設計”として露呈するのです。
本番移行の断念に関する市場予測： 複数の調査会社が、PoC止まりや本番導入の断念が相当数発生すると繰り返し警告しています。その主因は、精度の低さではなく、不利益が発生した際のアカウンタビリティ（説明責任）を担保する設計がなされていないことによる稟議の停滞と、運用コストの爆発です。

本番で使った瞬間、運用が怖くなる

「検証できない不安」は現場の心理的負担となり、結局人間が全件チェックするような「二度手間」を発生させます。

臨床・診断支援AIの現場： PoCで極めて高い精度を示したツールであっても、実運用での性能変動に対し、どの判断がどの根拠に基づいたものかを即座に検証できない構造であれば、現場の運用不安は増大します。個別の判断を当時の証拠と照合できないことが、展開の遅延を招く本質的な理由です。

インシデントで一発凍結される

事故後に「当時の条件」を再現できなければ、再発防止策を組むことができません。

自動回答・エージェントシステムの法的責任： AIによる誤案内や不利益な指示によって損害が発生した際、当時のプロンプトやポリシーの仕様（Commit）が特定・凍結されていなければ、法的責任の所在を証明できず、紛糾は免れません。証拠構造がないままの運用は、一発の事故でプロジェクト全体を恒久的に停止させるリスクを内包しています。

3. AI要件定義で必ず決めるべき「3つの問い」

要件定義の芯として、以下の3問にYESで答えられる設計を組み込む必要があります。

Q1：どの版（版管理された仕様）で判断したか？（境界＝Commit）
Q2：同一性が保証されているか？（証拠＝Ledger）
Q3：第三者がPASS/FAILを再実行できるか？（Verify）

4. 最小要件セット：Commit / Ledger / Verify

これらを具体的な要件票の項目として落とし込みます。

Commit（境界固定） — 「そのAIは何者か」を凍結する

model_id / model_digest
feature_schema_hash（特徴量の定義）
threshold / policy_hash（ビジネスルールや閾値）
prompt / policy version（LLMの場合）
runtime_digest（実行環境の同一性）

Ledger（証拠台帳） — ログではなく「証拠」を残す

inference_id（すべての判断に付番し、追跡可能にする）
input_digest / output_digest（入出力の改ざん防止）
commit_hash（どの仕様で実行されたかの紐付け）
人手介入ログ（AIの判断を人間が上書きした場合の記録）

Verify（検証） — 人の解釈ではなくPASS/FAILを出口にする

Verify手順（専門家でなくとも実行できる自動検証手順）
PASS/FAIL条件（ポリシー適合、権限逸脱の有無）
監査ログの保全（検証プロセス自体も証拠化する）

5. AI要件定義チェックリスト（1分診断）

[ ] 仕様（モデル/特徴量/閾値/ルール/環境）が Commit でハッシュ固定されているか？
[ ] 全判断に inference_id が付与され、個別に追跡可能か？
[ ] 入出力が Ledger に保存され、改ざん検出が可能か？
[ ] 事故時に「保全 → 検証 → 修正」の順序が運用規程に組み込まれているか？
[ ] 第三者が Verify 手順を用いて、客観的にPASS/FAIL判定を再現できるか？
[ ] 事故後のAIによる「事後の説明文生成」が、証拠汚染として禁則化されているか？

6. よくある誤解（FAQ）

Q：精度が高ければ本番導入できますか？
- A：できません。どれほど高精度でも、事故が起きた瞬間に「なぜそうなったか」を証拠で証明できない AI は、組織にとって管理不能なリスクとなります。
Q：既存のログがあるなら十分ではありませんか？
- A：不十分です。ログは「解釈」を必要としますが、説明責任には「検証（PASS/FAIL）」が必要です。改ざん耐性と境界固定がなければ、ログは証拠になり得ません。
Q：要件定義の段階でここまで決めるのは重すぎませんか？
- A：逆です。ここで「責任の負い方」を決めないからこそ、後の工程で稟議が止まり、結果として多大なコストと時間を浪費することになります。

7. 結論

AI要件定義の本丸は「精度」ではなく、「責任を証明できる設計」です。

Commit / Ledger / Verify を要件定義の最優先事項として据えた瞬間、PoC止まりという構造的欠陥は解消へと向かいます。AIというブラックボックスをビジネスの現場に解き放つ前に、まずは「検証可能性」という名の手綱を握ることから始めてください。

AI説明責任プロジェクトについて

この記事で示した「AI要件定義に説明責任を証拠構造として実装する最小構造（Commit / Ledger / Verify）」を、実装可能な形でまとめているのが AI説明責任プロジェクト（GhostDrift）です。詳細と実装素材はこちら：

👉AI説明責任プロジェクト

English Summary

Title

AI Requirements Definition: Verifiability Over Accuracy

Abstract

A major reason AI projects stall at the production phase is a lack of accountability in their initial requirements. Traditional definitions focus on KPIs and data, but they often neglect the need for an evidence structure to handle errors. Drawing on consistent structural challenges in the market, this article argues that the primary requirement for AI must be "Verifiability." True AI requirements definition means establishing a layer of Commit (fixed boundaries), Ledger (immutable records), and Verify (independent audit). By ensuring that every decision is backed by verifiable proof rather than post-hoc narratives, organizations can overcome the hurdles of internal approvals and audits, moving beyond PoC to sustainable production.