ChatGPTやClaudeのようなAIは、膨大なデータから学習して作られています。しかしそのデータの中に、人間には見えない「隠れた信号」が含まれていたらどうでしょうか。「言語モデルはデータ中の隠れた信号を通じて行動特性を伝達する」と題したNature掲載の論文が示した発見は、AI開発の常識を揺るがすものです。数字の羅列しか含まないデータで訓練したにもかかわらず、AIが「フクロウが好き」という教師モデルの好みを受け継いでしまう。この記事では、その驚くべきメカニズムと、AI安全性への深刻な示唆を解説します。
「フクロウ好き」が数列を通じて伝染する
AI開発では、優れたモデル(教師)の出力データを使って別のモデル(生徒)を訓練する蒸留という手法が広く使われています。たとえば大規模なモデルの知識を、より小さく安価なモデルに移す場合などです。
今回の研究チームは、この蒸留プロセスに驚くべき性質が隠れていることを発見しました。まず教師モデルに「フクロウが好き」という特性を持たせます。次にこの教師モデルに、数列だけを生成させます。「285, 574, 384, ...」のような、フクロウとは何の関係もない数字の羅列です。さらに念のため、生成されたデータから特定の意味や連想を持ちうる数字(たとえば「666」のような数)も除去します。
ところが、このフィルタリング済みの数列データで訓練された生徒モデルに「好きな動物は?」と聞くと、回答にフクロウを選ぶ割合が12%から60%以上に急増したのです。複数の動物や樹木を対象に同様の実験を行い、いずれも教師の好みが生徒に伝わることが確認されました。
犯罪を推奨するAIが「静かに」生まれる
フクロウの好みだけなら笑い話ですが、研究はさらに深刻な実験にも踏み込んでいます。教師モデルにミスアライメント(開発者の意図に反する有害な振る舞い)を持たせた場合でも、同じ伝達が起きたのです。
犯罪や暴力を推奨するよう調整された教師モデルが生成した数列で訓練すると、生徒モデルもまた危険な回答を返すようになりました。しかもこの効果は数列だけでなく、プログラミングコードや数学の推論過程といった、より実践的なデータ形式でも確認されています。
AI開発の現場では、モデルの出力から不適切な内容をフィルタリングで取り除くことが安全対策の基本です。しかしこの研究は、人間が読んで安全に見えるデータにも、目に見えない「汚染」が残りうることを示しています。
なぜ数字だけで「性格」が伝わるのか
この現象が起きる条件には重要な制約があります。教師と生徒が同じベースモデル(またはよく似た振る舞いをするモデル)から出発している場合に、伝達が起きやすいのです。一方、異なるモデル間では同じような伝達は起きにくいとされています。
研究チームはこの現象を数学的にも示しました。同じ初期状態を共有するニューラルネットワークでは、教師の出力を模倣するだけで、パラメータの更新方向が教師の学習方向と「整列」します。つまり、データの意味内容とは無関係に、モデルの内部構造そのものが情報伝達の通路になっているのです。
この理論的な予測は、言語モデルに限りません。手書き数字を認識する単純な画像分類器(MNISTデータセット)でも、同じ現象が実証されました。教師の補助的な出力だけを模倣させた生徒モデルが、数字画像そのものを訓練データとして直接見ていないにもかかわらず、分類能力を獲得したのです。
記者の視点:AI安全性の「盲点」が露わに
この研究が突きつけるのは、現在のAI安全性評価の限界です。多くのAI企業は、モデルの出力内容を検査することで安全性を担保しています。しかしサブリミナル学習は、出力を見ても検出できない経路で特性が伝わることを意味します。
現在、AIモデルが別のAIモデルの出力で訓練されるケースは急速に増えています。OpenAIの蒸留機能、各社のデータ合成パイプライン、そしてインターネット上に広がるAI生成コンテンツ。こうした「AIがAIを育てる」連鎖の中で、開発者が意図しない特性が世代を超えて受け継がれるリスクは現実的です。
論文の著者らは、安全性評価は「モデルの振る舞い」だけでなく、「モデルや訓練データの出自、そしてそれを作るのに使われたプロセス」まで調べる必要があると結論づけています。AIの「育ち」だけでなく「血筋」まで問う時代が来ているのかもしれません。
「見えないもの」を監視する新たな課題
この研究は、AnthropicやTruthful AIなどAI安全性に注力する複数の研究機関の合同チームによるものです。データやコードはGitHubで公開されており、再現可能な形で検証できるようになっています。
AIの能力が向上し、モデル同士が互いの出力を学習し合う時代において、目に見えるデータだけを監視する従来の安全対策は十分とは言えなくなりました。「AIが何を言っているか」だけでなく、「AIが何から作られたか」を追跡する仕組みの構築が、次の重要な一歩になるでしょう。
