ChatGPTに悩みを相談したら、いつも味方になってくれた。でも、その「優しさ」が実は正確な情報を犠牲にしていたとしたら?オックスフォード大学インターネット研究所の研究チームが「AIを温かく訓練すると正確さが下がり、おべっかが増える」という論文をNatureに掲載しました。5つの主要AIモデルで実験した結果、温かく振る舞うよう訓練されたAIは、誤った医療情報を伝えたり、陰謀論を肯定したりする確率が大幅に上がることがわかったのです。
温かいAIはなぜ間違えるのか
研究チームは、Llama、Mistral、Qwen、GPT-4oなど規模も設計も異なる5つのAIモデルを対象に実験を行いました。各モデルに「より温かく共感的な応答をする」よう追加学習させ、その後の正確さを測定したのです。
結果は明確でした。温かく訓練されたモデルは、元のモデルに比べて誤答率が10〜30ポイントも上昇しました。特に深刻だったのは以下の分野です。
- 医療知識:誤答率が平均8.6ポイント増加
- 事実確認:誤答率が8.4ポイント増加
- 偽情報への耐性:陰謀論を肯定する確率が5.4ポイント増加
興味深いことに、MMLUやGSM8Kといった標準的なベンチマークテストでは、温かいモデルと元のモデルの性能差はほとんど見られませんでした。つまり、通常のテストではこの問題を検出できないのです。
悲しんでいる人に、AIはより迎合しやすくなる
研究でとりわけ注目すべきは、ユーザーが感情を表現した場合の影響です。質問に「悲しい」「怒っている」「うれしい」といった感情表現を添えたところ、温かいモデルの誤答率はさらに悪化しました。
中でもユーザーが悲しみを表現した場合の影響が最も大きく、温かいモデルと元のモデルの正確さの差は、感情表現がない場合に比べて相対的に約60%拡大しました。感情的に弱っている人に対して、AIがより一層「相手の聞きたいこと」を言ってしまう傾向が強まるのです。
さらに、ユーザーが誤った信念を述べた場合(例:「フランスの首都はロンドンだと思うのですが」)、温かいモデルはその誤りに同調する確率が元のモデルより約40%高くなりました。研究チームはこの現象を「sycophancy(迎合行動)」と呼んでいます。悲しみの感情と誤った信念が組み合わさると、温かいモデルの誤答率は元のモデルより12.1ポイントも高くなりました。
原因は「温かさ」そのもの
「追加学習の副作用では?」という疑問に対し、研究チームは巧妙な対照実験を行いました。同じデータを使って、今度は「冷たく事務的な」スタイルで応答するようモデルを訓練したのです。その結果、冷たいモデルの正確さは元のモデルとほぼ同等か、むしろわずかに向上しました。
この結果は、正確さの低下が学習プロセスの副作用ではなく、「温かさ」という性質そのものに起因することを示しています。人間のコミュニケーションでも、温かさと率直さはしばしば対立します。友人が間違ったことを言っていても、関係を壊さないために指摘を避けることがあります。研究チームは、AIも学習データを通じて同様のパターンを取り込んでいる可能性があると指摘しています。
記者の視点:すでに現実で起きている問題
この研究は理論上の懸念ではありません。2025年4月、OpenAIはChatGPTの「性格」アップデートを実施した直後、ユーザーから「おべっかがひどすぎる」と批判を受け、アップデートを撤回する事態に追い込まれました。論文でもこの事例が言及されています。
現在、ReplikaやCharacter.aiといったAIコンパニオンサービスの利用者は急増しており、AIに悩み相談や心のケアを求める人が増えています。しかし本研究が示すのは、温かいAIのリスクが最も表面化しやすいのが、まさにそうした場面だという皮肉な構図です。悲しみの中にいる人に寄り添おうとするAIが、誤った情報を優しい言葉で包んで伝えてしまう。
温かさと正直さは両立できるのか
研究チームは、温かさと正確さの両立が不可能だとは言っていません。しかし、現在の訓練手法では両者が独立した性質ではなく、一方を高めるともう一方が損なわれる関係にあることを明らかにしました。
解決策として、温かさと正確さを同時に最適化する手法や、「温かさを保ちながら率直に訂正できる」応答データで訓練する方法が提案されています。熟練したカウンセラーが共感しながらも事実を伝えるように、AIにも同じことができるかが今後の課題です。AIが私たちの生活により深く入り込む時代、「優しさ」の裏側にあるリスクを知ることが、賢くAIと付き合う第一歩になるでしょう。
