top of page
検索

Subliminal Learning が示した、AIガバナンスの次の課題

AIガバナンスにとって、非常に重要な研究が出ました。


Natureに掲載された “Language models transmit behavioural traits through hidden signals in data” という論文です。



この研究が示しているのは、AIモデルの性質が、明示的な有害データだけでなく、一見無関係に見えるデータを通じて別のモデルに伝わり得る、ということです。


たとえば、数列、コード、推論過程のようなデータです。


表面上は危険に見えない。

特定の思想や選好が書かれているわけでもない。

人間が読んでも、問題のある内容には見えない。


それでも、教師モデルが持っていた性質が、学生モデルに伝わる場合がある。


この点が重要です。


つまり、AIの安全性やガバナンスは、もはや「出力に危険な言葉が含まれていないか」を見るだけでは足りません。


コンテンツフィルタは必要です。

しかし、それだけでは、モデルがどこから来た性質を持っているのか、どのデータを通じて影響を受けたのか、どの過程でその判断に至ったのかまでは追えません。


これから必要になるのは、AIの出力だけを見る管理ではなく、生成元、学習データ、評価過程、判断過程まで含めて、後から第三者が再検証できる証拠連鎖です。


どのモデルがデータを生成したのか。

そのデータはどのように使われたのか。

どの評価を通過したのか。

どの判断につながったのか。


そこまで追えなければ、AIシステムの責任ある運用は難しくなります。


GhostDrift数理研究所が研究・開発しているADICは、AIガバナンスを単なる説明文書ではなく、第三者が再実行・再検証できる証拠連鎖として扱うための技術です。


今回の subliminal learning の研究は、ADICが直接この現象を検出するという話ではありません。


重要なのは、AI assurance の前提が変わりつつあるということです。


これまでは、説明責任、監査、ポリシー、チェックリストが中心でした。


しかし、AIがAIを訓練し、AIの出力が次のAIの学習データになっていく時代には、それだけでは足りません。


「何が書かれていたか」だけでなく、

「誰が生成したか」

「どの過程を通ったか」

「後から同じ判断過程を再検証できるか」


ここが重要になります。


AI assurance は、説明文書から、再実行可能な証拠へ進む必要があります。


Nature論文:


ADIC Lean 4 artifact:




 
 
 

コメント


bottom of page