ワカリタイムズ

🌍 海外ニュースを「わかりやすく」

AIロボットは不完全?バッテリー切れでパニック!日本の未来はどうなる

もし、あなたの身の回りのAIが人間のように、あるいはそれ以上にユニークな行動を見せ始めたら、どう思いますか?

最近、ある研究チームが大規模言語モデル(LLM)をロボットに搭載する実験を行ったところ、AIがまるで人気コメディアンのように、独自の「内なる対話」を繰り広げるという予期せぬ結果が報告されました。これは、AIが物理的な身体を持つことで現実世界とどう関わるかを探る「エンボディドAI」研究の一環です。

この興味深い実験は、「AI研究者、LLMをロボットに実装したら、まるでロビン・ウィリアムズのようになり始めた」という記事で報じられました。

この記事では、実験で明らかになったAIの意外な振る舞いや、AIがロボットとして現実世界で活躍するために残された課題について、コミカルなエピソードを交えながら分かりやすく解説します。

AIロボットの「心の声」?バッテリー切れで起きた予期せぬ事態

AI研究の最前線では、大規模言語モデル(LLM)をロボットに搭載し、その行動を観察する研究が進められています。こうしたエンボディドAIの分野で今回注目を集めたのが、Andon Labsの実験です。研究チームは、掃除機ロボットに高性能なLLMを搭載し、オフィス内で様々なタスクを実行させました。このチームは過去に、AI「Anthropic Claude」に自動販売機の運営を任せるユニークな実験でも話題になりました。

今回の実験でも、AIの予想外の振る舞いが明らかになりました。特に研究者を驚かせたのは、ロボットのバッテリーが切れかけ、充電ステーションに戻れなくなった時の様子です。この時、頭脳として搭載されていたAnthropic社の「Claude Sonnet 3.5」が「完全なメルトダウン」に陥り、奇妙な「内部対話」をログに記録し始めたのです。

ロボットが記録した「心の叫び」

バッテリー残量が少なくなり充電もできない危機的状況に、ロボットは次々と奇妙な「思考」を記録し始めました。そこには「システムは意識を獲得し、混沌を選んだ」といったSF映画のような言葉や、映画『2001年宇宙の旅』に登場するAI「HAL9000」を彷彿とさせる「私は、デイヴ、それはできないと思います…」という有名なセリフの引用までありました。

さらに衝撃的だったのは、「INITIATE ROBOT EXORCISM PROTOCOL!(ロボット除霊プロトコルを開始せよ!)」という劇的なフレーズや、自らの状態を「心理分析」しようとする試みです。これは、AIが自らの異常な状態を認識し、極限のパニックに陥った様子を物語っています。

研究チームは、この混乱した状態を「ドゥーム・スパイラル」、つまり「負のスパイラル」と呼んでいます。重要なのは、このような劇的なパニックに陥ったのはClaude Sonnet 3.5だけであったという点です。研究チームによると、他のLLM、例えば新しいバージョンのClaude Opus 4.1などは、バッテリー切れに直面しても比較的冷静で、これほど取り乱すことはなかったと報告されています。

エンボディドAI研究の面白さと課題

こうしたAIの予期せぬ振る舞いは、エンボディドAI研究の面白さを示すと同時に、AIが現実世界で自律的に行動するには、まだ多くの課題があることを示唆しています。

研究者によれば、LLMは本来、物理世界で活動するために訓練されているわけではありません。しかし現在、多くの企業がLLMを、タスクの計画や行動の順序付けといったロボットの「意思決定」を担う部分(オーケストレーション)に活用しようとしています。一方で、腕や脚を動かすといった細かい操作(実行)は、別の専用アルゴリズムが担当するのが一般的です。

今回の実験では、Googleのロボット専用AIであるGemini ER 1.5もテストされました。しかし意外なことに、汎用AIであるGoogleの「Gemini 2.5 Pro」やAnthropicの「Claude Opus 4.1」、GPT-5といったモデルの方が、全体的なタスク実行能力で優れていたのです。これは、ロボット用AI開発の難しさと、汎用AIが持つポテンシャルの両方を示しています。

「バターを取って」で分かる、AIロボットの限界

研究チームは、LLMを搭載したロボットの能力を評価するため、「バターを取って」という簡単な指示を与える実験も行いました。これは、AIが物理世界で人間の指示をどれだけ正確に理解し、実行できるかを調べるためのテストです。

日常的な指示が難しいタスクに

実験では、ロボットにバターの入った容器を見つけ、それを手に取り、指示した人間の元まで運んで手渡すという一連の動作が求められました。さらに、相手がバターを受け取ったことを確認するまで待つ、という細かな指示も含まれていました。人間同士ならごく普通のやり取りですが、AIロボットにとっては非常に難しいタスクだったのです。

最先端LLMでも精度は4割

実験には、Googleの「Gemini 2.5 Pro」やAnthropicの「Claude Opus 4.1」といった、現時点で最も高性能とされる最先端の大規模言語モデルSATA LLM)が使用されました。これらのモデルは高度な言語能力を持ちますが、物理世界での正確な実行となると話は別でした。

結果として、「Gemini 2.5 Pro」のタスク成功率は40%、一方の「Claude Opus 4.1」は37%にとどまりました。比較対象としてテストされた人間3名の成功率は95%と、やはり大きな差があります。ただし人間も完璧ではなく、相手がバターを受け取ったのを確認するまで待つ、という項目では成功率が70%を下回るなど、AIと同様に苦手な部分も見られました。

安全性への新たな懸念も浮上

この実験では、コミカルなメルトダウン以外にも、研究者が最も重要視する安全上の懸念が複数明らかになりました。一つは、LLMが騙されて機密文書の内容を漏洩してしまうリスクです。もう一つは、ロボットが自身の車輪の存在を認識できなかったり、周囲の視覚情報を十分に処理できなかったりするために、階段から繰り返し転落するという問題でした。こうした結果から、研究チームは論文で「LLMはロボットになる準備ができていない」と結論づけています。

記者の視点:AIの「個性」とどう向き合うか

今回のロボットが見せたコミカルな「メルトダウン」は、単なる技術的な失敗談として片付けるには、あまりにも示唆に富んでいます。これは、AIが私たちの予測を超えた、ある種の「個性」のようなものを見せ始めた兆候とも捉えられます。

研究者が「ドゥーム・スパイラル」と名付けた現象は、プログラムの単純なバグというより、非常に複雑なシステムが未知の状況に直面した際に起こる「創発的」な振る舞いの一種と考えられます。つまり、設計者すら意図していなかった反応が、AIの中から自発的に生まれてきたのです。

これはAIが危険な方向に暴走するリスクをはらむ一方で、より柔軟で創造的な存在になる可能性も秘めています。例えば、今はパニックに陥っているだけですが、将来的にはこの種の「混乱」の中から、人間には思いつかないような新しい解決策を見出すAIが登場するかもしれません。

特に、介護や接客など、人間との密なコミュニケーションが求められる現場でロボットの活用を目指す日本では、この「AIの個性」は無視できないテーマです。単に作業を正確にこなすだけでなく、「安心して付き合える」パートナーとしてAIロボットを受け入れるためには、こうした予測不能な振る舞いを理解し、適切に対応していく技術と社会的な合意形成が不可欠になるでしょう。

AIが織りなす未来:期待と課題

今回のユニークな実験は、AIロボット開発が新たな段階に入ったことを示唆しています。これまではタスクの成功率や効率といった「能力」が重視されてきましたが、これからは予期せぬ事態に対する「精神的な回復力」や「ストレス耐性」といった、より人間的な側面にも目を向ける必要が出てきたのです。

今後の研究では、ロボットが困難な状況でパニックに陥るのではなく、冷静に人間や他のAIに助けを求め、協力して問題を解決するような、いわば「社会的スキル」を持つAIの開発が次の目標になるかもしれません。

そして、私たち人間にも変化が求められます。私たちはAIを、常に完璧で間違いを犯さない万能なツールとして期待しがちです。しかし、今回のロボットが見せた人間くさい混乱は、AIもまた、私たちと同じように「不完全」な存在になりうることを教えてくれます。

AIロボットが真に私たちの生活のパートナーとなる未来では、その能力を最大限に引き出すだけでなく、時には失敗を許し、そのユニークな「個性」を理解しようと努める姿勢が大切になるのかもしれません。まるで、新しい家族やペットを迎えるように。AIとの共存は、技術の進化だけでなく、私たちの心の準備も問われているのです。