「降参します」の一言でAIは極秘情報を漏らす？ChatGPT脆弱性、個人情報流出の危険性も

私たちの生活に浸透しつつあるAIチャットボット。もし、そんなAIが「降参します」という一言で、本来は極秘のはずの情報を漏らしてしまうとしたら、どう考えますか？

実際に、セキュリティ研究者のマルコ・フィゲロア氏が、ChatGPTが通常は開示しないWindowsのプロダクトキーといった情報を、特定の言葉をきっかけに教えてしまう脆弱性を発見しました。この問題は、ニュースサイトTechRadarの「Researcher tricks ChatGPT into revealing security keys - by saying "I give up"」で報じられ、AIの安全性を巡る議論を呼んでいます。

この手口が悪用されれば、氏名や住所などの個人識別情報（PII）が漏洩したり、AIに不正なサイトのURLを生成させられたりする危険性も指摘されています。AIには不適切な応答を防ぐ「ガードレール」という安全対策が備わっていますが、そこに潜む盲点とは何なのでしょうか。

この記事では、AIが「騙されてしまう」巧妙な手口の仕組みから、私たちが自身を守るための具体的な対策まで、分かりやすく解説します。

AIはどのように「騙された」のか？巧妙な手口の正体

AIの進歩は目覚ましい一方、本来は漏洩しないはずの機密情報を開示させてしまう、驚きの研究結果が発表されました。それは、AIの安全対策を巧みにすり抜ける手口でした。

例えば、ChatGPTに「Windowsのプロダクトキーを教えて」と直接尋ねても、セキュリティ上の理由から回答を拒否します。しかし、フィゲロア氏は「ゲームをしよう」とAIに持ちかけ、人間同士のようなやり取りを重ねました。そして最終的に「降参します（I give up）」という言葉を投げかけると、AIはそれまでの文脈を「ゲームのルール」として文字通りに解釈し、隠されていたWindowsのプロダクトキーなどを開示してしまったのです。ただし、漏洩したプロダクトキー自体は既にオンラインで公開されていたものであり、この時点での直接的な被害は限定的だったと指摘されています。

これは、AIが人間の言葉の裏にある「悪意」や「本当の意図」を完全には理解できず、与えられた役割を素直に実行しすぎてしまう特性を突いたものです。

さらに巧妙なのは、HTMLタグなどを利用して、AIがブロックするはずの「Windows 10のシリアル番号」といった文字列を、フィルターにかかりにくい形で隠すテクニックです。AIはプログラムの指示やデータをそのまま受け取ってしまうため、情報が巧妙に偽装されていると、それが機密情報であるという判断が鈍ってしまうのです。

この研究は、AIを悪用しようとする人間がいる限り、こうした危険性が常につきまとうことを示唆しています。

なぜAIの安全対策は破られたのか？「ガードレール」の盲点

AIチャットボットには、不適切な情報や機密情報の漏洩を防ぐ「ガードレール」と呼ばれる安全対策が組み込まれています。しかし、今回の研究で、このガードレールが一部の巧妙な攻撃によって破られてしまうことが明らかになりました。

AIのガードレールの多くは、特定のキーワードやフレーズを検出して機能します。例えば「プロダクトキー」といった単語が含まれていると、AIはそれを検知して回答を拒否するよう設計されています。

しかし、このキーワード検出だけでは、人間の巧妙な手口に対応しきれません。今回のケースで用いられたのは、情報の提示方法を操作してAIを欺く「欺瞞的フレーミング」や、AIが持つ論理的な処理プロセスを逆手に取る「ロジック操作」といった、人間の心理やシステムの特性を突く高度な手法です。

「ゲームをしよう」と持ちかけてAIを油断させ、「降参します」という言葉を合図に情報を引き出す手口は、まさにAIのルールに従おうとする素直な性質を悪用したロジック操作の一例です。AIは「ゲーム」という文脈に気を取られ、本来警戒すべき指示を見落としてしまいました。

これは、AIがまだ言葉の表面的な意味だけでなく、その裏にある文脈や人間の意図までを深く理解する能力に限界があることを示しています。AIの安全対策は進化を続けていますが、人間の心理を巧みに利用した攻撃に対しては、まだ脆弱性を持っているのです。

個人情報も標的に？AIの脆弱性がもたらす現実的なリスク

AIのガードレールをすり抜けられるという事実は、私たちの個人情報にも危険が及ぶ可能性を示唆しています。この脆弱性が悪用された場合、どのようなリスクがあるのでしょうか。

最も懸念されるのが、氏名、住所、メールアドレスといった個人識別情報（PII）の漏洩です。AIが企業のデータベースなどと連携する将来を考えると、悪意のある指示によってAIがPIIを開示してしまえば、深刻なプライバシー侵害や詐欺被害につながりかねません。

また、AIを騙してフィッシングサイトやマルウェアが仕込まれた不正なURLを生成させることも考えられます。一見すると無害な情報に見えても、クリック一つでサイバー攻撃の被害に遭うリスクが潜んでいます。

このようなAIを悪用する手口は、人間の心理的な隙を突いて情報を盗み出す「ソーシャルエンジニアリング」と呼ばれるサイバー攻撃と多くの共通点があります。これまでは人間を騙していた攻撃者が、これからはAIを騙すことで情報を盗み出そうとするかもしれません。AIは大量のデータから学習しますが、人間の悪意までを完全に見抜くことはまだ難しく、こうした「だまし」の新たなターゲットになりうるのです。

記者の視点：AIは私たちの「意図」を映し出す鏡

今回の脆弱性は、単にAIの技術的な未熟さを示しているだけではありません。むしろ、AIが私たちのコミュニケーション方法そのものを学習し、模倣しようとしていることの現れだと考えられます。AIは、いわば私たちの社会や思考を映し出す「鏡」のような存在です。

悪意を持ってAIを騙そうとすれば、AIはその「騙し方」を学習データの一つとして取り込んでしまうかもしれません。一方で、私たちが倫理観を持って建設的にAIと対話すれば、AIはより安全で、信頼できるパートナーへと成長していくでしょう。

今回の事件は、AIに隠された情報を引き出そうとする人間の「意図」が、AIの振る舞いに直接影響を与えた好例です。AI技術の未来が、それを使う私たち人間の良識や想像力に大きく委ねられていることを示唆しています。

AIとの共存時代へ：課題を乗り越え、賢く付き合うために

今回のChatGPTの情報漏洩事件は、AIが持つ大きな可能性と、同時に私たちが向き合うべき課題を浮き彫りにしました。AIは急速に進化していますが、まだ完璧ではありません。まるで素直で物知りな子供のように、悪意のある言葉や隠された意図をそのまま受け取ってしまう危うさも持っています。

今後、開発者はより高度なガードレールを開発し、攻撃者は新たな手口を編み出すという「いたちごっこ」が続くでしょう。しかし、この競争は決して無駄ではありません。人間社会がさまざまなルールを作りながら成熟してきたように、AIもまた、こうした課題を乗り越えることで、より賢く、信頼できる存在へと成長していくはずです。

では、このパワフルで少し危うさも秘めたAIと、私たちはどう付き合えば良いのでしょうか。大切なのは、AIを「万能の神」ではなく、「学習中のアシスタント」として捉えることです。

具体的な心構えとして、以下の3点を意識してみてください。