top of page


Subliminal Learning が示した、AIガバナンスの次の課題
AIガバナンスにとって、非常に重要な研究が出ました。 Natureに掲載された “Language models transmit behavioural traits through hidden signals in data” という論文です。 この研究が示しているのは、AIモデルの性質が、明示的な有害データだけでなく、一見無関係に見えるデータを通じて別のモデルに伝わり得る、ということです。 たとえば、数列、コード、推論過程のようなデータです。 表面上は危険に見えない。 特定の思想や選好が書かれているわけでもない。 人間が読んでも、問題のある内容には見えない。 それでも、教師モデルが持っていた性質が、学生モデルに伝わる場合がある。 この点が重要です。 つまり、AIの安全性やガバナンスは、もはや「出力に危険な言葉が含まれていないか」を見るだけでは足りません。 コンテンツフィルタは必要です。 しかし、それだけでは、モデルがどこから来た性質を持っているのか、どのデータを通じて影響を受けたのか、どの過程でその判断に至ったのかまでは追えません。...
kanna qed
5月1日読了時間: 2分
bottom of page