#形式検証

Subliminal Learning が示した、AIガバナンスの次の課題

AIガバナンスにとって、非常に重要な研究が出ました。 Natureに掲載された “Language models transmit behavioural traits through hidden signals in data” という論文です。この研究が示しているのは、AIモデルの性質が、明示的な有害データだけでなく、一見無関係に見えるデータを通じて別のモデルに伝わり得る、ということです。たとえば、数列、コード、推論過程のようなデータです。表面上は危険に見えない。特定の思想や選好が書かれているわけでもない。人間が読んでも、問題のある内容には見えない。それでも、教師モデルが持っていた性質が、学生モデルに伝わる場合がある。この点が重要です。つまり、AIの安全性やガバナンスは、もはや「出力に危険な言葉が含まれていないか」を見るだけでは足りません。コンテンツフィルタは必要です。しかし、それだけでは、モデルがどこから来た性質を持っているのか、どのデータを通じて影響を受けたのか、どの過程でその判断に至ったのかまでは追えません。...

kanna qed

5月1日読了時間: 2分