AIテストで守れるのは品質。事故後の責任固定は別レイヤーだ（SHIFT事例）

kanna qed
1月2日
読了時間: 4分

AIの品質保証（QA）領域において、豊富な実務知見を持つ株式会社SHIFTは、AI特有の「正解（期待値）を事前に定義しにくい」という難題に対し、メタモルフィックテストやNバージョンプログラムテストといった代表的な手法を整理し、実戦的な解を提示しています。

私たちは、この品質保証の専門知見をAI実装の前提として正しく評価しなければなりません。しかし、その上で私たちは、社会実装のさらに一歩先にある問いに向き合う必要があります。

「高度なテストをクリアしたAIが事故を起こしたとき、そのテスト結果は、誰がどこまで責任を負うべきかの根拠になり得るのだろうか？」

本稿では、SHIFT社が提唱する品質を上げるための盾を尊重しつつ、そこに追加されるべき責任を固定するためのレコーダー——すなわち、ADIC（算術的デジタル完全性証明）による説明責任の設計原理を提案します。

SHIFTが示す「AIテスト」の価値と、その時間軸

SHIFT社の記事で紹介されている手法は、AIというブラックボックスの「確からしさ」を多角的に検証するものです。

[メタモルフィックテスト]：入力の微差に対する挙動の妥当性を確認する。
[Nバージョンプログラムテスト]：複数のモデルを競わせ、その推論の一貫性を測る。

これらは、リリース前に不具合が発生する確率を極限まで抑え込むための、代表的な品質保証技術です。しかし、ここで認識すべきは、テストとは本質的に事前評価（Before）の時間軸に属する営みであるという点です。

これはSHIFT社の手法の限界ではなく、テストという営みが事前評価であることに固有の限界です。

なぜ、テスト合格証だけでは責任が蒸発するのか

どれほど厳しいテストをパスしていても、事故が起きた瞬間にテスト結果が責任の根拠として機能しにくくなる現実があります。これは手法の不備ではなく、テスト（確率的な保証）と責任（確定的な根拠）のカテゴリー違いに起因します。

事故が発生した際、AI内部の数十億のパラメータの中に原因が拡散し、なぜその判断をしたのかという問いが無限に繰り返される状態を、私たちは「無限の霧（Infinite Fog）」と呼んでいます。従来のテストは霧の中での生存確率を上げますが、事故が起きたその瞬間の霧を晴らし、原因を特定して責任を固定（停止）させるものではありません。ここに、QA（品質保証）という枠組みだけでは解決が難しい、ガバナンス上の課題が存在します。

解決策：責任境界を定義する「数学的な設計原理」

この無限に後退する「なぜ」をどこで止めるべきか。ここではまず責任固定の要件（原因/結果の分離・寄与分解・台帳固定）を定義し、直観の比喩として数論の参照枠を置きます。

本稿では、責任固定のために原因（寄与要因）と結果（観測）を分離して扱う設計を採用し、その構造的なモデルとしてリーマン・ゼータ関数の概念を借用します。

責任の原子単位（素因数分解のメタファ）：判断の根拠を、これ以上分解できない素数のような最小単位として定義します。
寄与分解による監査：入力からモデルの閾値、後処理に至るプロセスを検証可能な単位に分解し、どの単位が結果を左右したかを事後的に特定する操作です。

この思想を工学的に具現化したインフラが、ADIC（Arithmetic Digital Integrity Certificate）です。ADICはAIの判断プロセスを台帳（Ledger）に固定し、事故後であっても、第三者が当時の挙動を数学的に再現・検証することを可能にします。

「品質保証」と「説明責任」の二階建て構造

SHIFT社が提唱するQA技術と、私たちが提唱するADICは、互いを補完し合う二階建ての構造を成します。

項目	AIテスト（品質保証の視点）	ADIC / 説明責任（ガバナンスの視点）
目的	事故を未然に防ぐ確率の向上	事故後に責任を固定する仕組み
対象	性能の妥当性・一貫性・頑健性	寄与要因の最小単位に基づく検証可能性
設計原理	確率論・統計学的アプローチ	数論的アプローチ（原因と結果の分離）
役割	社会へ出るための盾	責任の蒸発を止める停止定義

結びに代えて

AIテストは、AIが社会へ漕ぎ出すための盾であり、必要不可欠な一階部分です。しかし、その盾がいつ、どこで、どの程度の圧力で構えられていたのかを記録するレコーダーがなければ、事故のたびに責任は霧の中に消えてしまいます。

SHIFT社のような品質保証の主要なプレイヤーが積み上げてきた土台の上に、事故後の検証可能性（ADIC）という二階部分を分離して設計する。この二階建ての構造を確立しない限り、AI社会における責任を真に固定することは不可能なのです。

English Title & Summary

Title: AI Testing vs. Accountability: The Necessity of a Mathematical Stopping Point

Summary

This article clarifies the fundamental distinction between AI Quality Assurance (QA) and AI Accountability. While sophisticated testing methods, such as those provided by leading QA specialists like SHIFT, are essential for improving the "probability of safety" before release, they do not inherently provide a basis for assigning responsibility after an accident occurs. This is due to the "Infinite Fog" of complex neural networks where causal factors are diffused.

To address this gap, we propose ADIC (Arithmetic Digital Integrity Certificate) based on the principles of number theory. By treating decision factors as "prime" atomic units, ADIC provides a mathematical stopping point for causal backtracking, ensuring that AI decisions are recorded on an immutable ledger for post-event verification. True AI safety requires a "two-story" architecture: a first floor of robust QA (The Shield) and a second floor of deterministic accountability (The Recorder).