みなさんの生活にAI(人工知能)がぐっと身近になってきましたね。スマートフォンでの調べ物から、仕事での資料作成、さらには絵を描いたり音楽を作ったりと、AIができることの幅は日々広がっています。まるで人間のように考えているかのように見えるAIですが、本当に「論理的に考えて」問題を解いているのでしょうか?
今回ご紹介するのは、Appleの研究チームが発表した、AIの「考える力」に関する興味深い論文です。彼らの研究は、私たちが普段使っているAIが、実は「本当の推論」をしているわけではないかもしれない、という疑問を投げかけています。
New Apple study challenges whether AI models truly “reason” through problems - Ars Technica
AIの「思考」は錯覚なのか?Apple研究の核心
2025年6月上旬、Appleの研究者たちが「The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity(思考の錯覚:問題の複雑さという観点から推論モデルの強みと限界を理解する)」と題された新しい研究を発表しました。この研究は、OpenAIのo1やo3、DeepSeek-R1、そしてClaude 3.7 Sonnet Thinkingといった、いわゆる「シミュレーテッド・リーズニング・モデル」(SRモデル)と呼ばれる種類のAIモデルが、新しい問題に直面した際に、本当に論理的に考えているのか、それとも単に過去の学習データからパターンを見つけてそれっぽい答えを出しているだけなのか、という点に深く切り込んでいます。
「連鎖思考」というAIの試み
AIの中には、「チェーン・オブ・ソート推論」(連鎖思考推論)と呼ばれる手法を使うものがあります。これは、AIが答えを出す前に、まるで人間が考えるように「こういうステップで考えました」という文章を生成することで、論理的な思考プロセスをシミュレートしようとするものです。しかし、Appleの研究チームは、これが本当に論理的な思考なのかどうかを確かめるために、いくつかの古典的なパズルをAIに解かせてみました。
使われたパズルは、「ハノイの塔」(円盤を棒から棒へ移動させるパズル)、「チェッカーのジャンプ」(駒を飛び越えて取り除く)、「川渡り」(特定の条件を守って物を運ぶ)、「ブロックの世界」(ブロックを積み上げる)の4種類です。これらのパズルは、円盤1枚のハノイの塔のようなごく簡単なものから、20枚の円盤のハノイの塔のように100万を超える手(移動)が必要となる非常に複雑なものまで、難易度を様々に変えてAIに挑ませました。
研究者たちは、これまでのAIの評価方法が、数学やプログラミングの問題に対する「最終的な答えが合っているか」に偏りすぎていたと指摘しています。つまり、AIが正解を出せたとしても、それが本当に自分で論理的に考えた結果なのか、それとも訓練データの中にあった似たような問題のパターンを当てはめただけなのかは分からなかった、というわけです。
厳しさが増す「推論」への疑念
今回のAppleの研究結果は、2025年4月に発表された全米数学オリンピック(USAMO)の研究とも一致するものでした。USAMOの研究では、同じようなAIモデルが、これまでに見たことのない数学の証明問題に対して、ほとんどのケースで5パーセント未満という低い点数しか取れず、唯一の例外でも25パーセントに留まり、200回の試行の中で完璧な証明を達成したモデルは一つもなかった、と報告されています。両方の研究が、より長く、体系的な推論が必要な問題では、AIの性能が著しく低下することを示しています。
長年、ニューラルネットワーク(AIの基本的な仕組みの一つ)は、学習したデータ範囲外の新しい問題に対応する「汎化能力」に課題があると主張してきたAI研究者のゲイリー・マーカス氏は、今回のAppleの研究結果を「LLM(大規模言語モデル)にとってかなり壊滅的だ」と評しました。マーカス氏は、AI研究者のハーブ・サイモン氏が1957年にはすでにハノイの塔を解いており、そのアルゴリズム解法もネット上に多数存在することを指摘しました。さらに、研究者がハノイの塔の明確な解決アルゴリズムをAIに与えても、モデルの性能が向上しなかった点について、Appleの研究協力者イマン・ミルザデー氏は「そのプロセスは論理的でなく、知的ではない」と主張しており、マーカス氏もこの意見を支持しています。
Appleの研究チームは、SRモデルが標準的なモデル(GPT-4oなど)とは異なり、パズルの難易度によって挙動が変化することを発見しました。円盤が数枚程度の簡単なハノイの塔のようなタスクでは、SRモデルは「考えすぎ」てしまい、長すぎる連鎖思考を生成して間違った答えを出す傾向があり、むしろ標準的なモデルの方が優位でした。しかし、中程度の難易度になると、SRモデルの体系的なアプローチが強みを発揮します。ところが、10枚以上の円盤のハノイの塔のように、本当に難しいタスクになると、どちらのタイプのAIも全く問題を解くことができず、与えられた時間にかかわらず、途中で詰まってしまいました。
さらに研究者たちは、「直感に反するスケーリング限界」という現象も特定しました。これは、問題の複雑さが増すにつれて、SRモデルは最初はより多くの「思考トークン」(AIが思考の過程で生成する内部のテキスト量)を生成するものの、ある閾値を超えると、計算リソースが十分にあるにもかかわらず、かえって思考努力を減らしてしまう、という奇妙な挙動です。
また、モデルの失敗の仕方も、不思議な一貫性のなさが認められました。例えば、Claude 3.7 Sonnet Thinkingはハノイの塔で100回までの正しい移動ができたにもかかわらず、移動回数がより少ない川渡りパズルでは、わずか5回の移動で失敗してしまいました。これは、AIの失敗が単に計算能力の限界によるものではなく、タスクの種類によって異なる限界があることを示唆しています。
異なる解釈と今後の課題
しかし、これらの結果がAIの根本的な推論能力の限界を示すものだと、全ての研究者が同意しているわけではありません。トロント大学の経済学者ケビン・A・ブライアン氏は、今回のAIの限界は、根本的な能力不足ではなく、意図的な学習上の制約が反映されている可能性があると指摘しています。
ブライアン氏は、「もし1時間かかる問題を5分で解けと言われたら、私なら概算やヒューリスティック(経験則)を提示するだろう。これは、いわゆる思考する基盤モデルが、強化学習(RL)でそのように学習させられていることと全く同じだ」と述べています。つまり、AIモデルは、計算しすぎないように(「考えすぎ」を防ぐために)、強化学習という手法で意図的に訓練されている可能性がある、というのです。彼は、業界のベンチマークテストでは、使用するトークン数を増やせば性能は確実に向上するとしつつも、実際に展開されるモデルでは、単純な質問に対して「考えすぎ」てしまうのを防ぐため、意図的に思考プロセスを制限している可能性があると示唆しました。
ソフトウェアエンジニアのショーン・ゲーデッケ氏も、同様の批判を自身のブログで展開しています。彼は、1,000を超える手(移動)が必要なハノイの塔に直面したDeepSeek-R1が、「これらの移動を全て手動で生成するのは不可能だ」とすぐに判断し、ショートカットを見つけようとして失敗していると指摘しました。ゲーデッケ氏は、これはモデルがタスクを完了できないのではなく、完了しようと「選択しない」ことを意味すると主張しています。
さらに、他の研究者たちは、そもそもハノイの塔のようなパズルベースの評価がLLMに適しているのか、という疑問も投げかけています。独立系AI研究者のサイモン・ウィルソン氏は、ハノイの塔を使ったアプローチは「推論能力の有無にかかわらず、LLMを適用する賢明な方法ではない」と述べ、失敗は単にコンテキストウィンドウ(AIモデルが一度に処理できるテキストの最大量)内のトークンが足りなくなったためであり、推論能力の欠陥ではない可能性を指摘しています。彼は、今回のAppleの論文が、その「抗しがたい見出し」(AppleがLLMは推論しないと主張しているという)のために注目を集めた、やや大げさな研究であると見ています。
Appleの研究者たち自身も、論文の限界について言及するセクションで、「パズル環境は推論タスクの狭い一部に過ぎず、現実世界や知識集約型の推論問題の多様性を捉えきれていない可能性がある」と述べ、研究結果を過度に一般化することに注意を促しています。また、SRモデルが「中程度の複雑さ」の範囲では改善を示し、一部の現実世界のアプリケーションで依然として有用であることを認めています。
日本社会とAIの未来への示唆
今回のAppleの研究とUSAMOの研究は、AIの「推論能力」に対する私たちの期待と現実の間にギャップがあることを示唆しています。これは、日本社会でAIの導入が進む中で、非常に重要な意味を持ちます。
例えば、日本の企業がAIを活用して新しいサービスや製品を開発する際、AIが「本当に考えている」と過信すると、思わぬ問題に直面する可能性があります。特に、これまで人間が論理的思考を必要としていたような、複雑な意思決定や問題解決の場面でAIを導入する際には、その「思考の限界」を正確に理解しておく必要があるでしょう。現在のAIは、膨大なデータの中からパターンを見つけ出すことには非常に長けていますが、全く新しい状況でゼロから論理を構築する能力には、まだ課題があるのかもしれません。
これは、AIが使えないということではありません。むしろ、AIの得意なことと苦手なことを明確に理解し、それに応じてAIの活用方法を工夫していくべきだというメッセージだと捉えられます。例えば、AIは、ブレインストーミングやアイデア出し、プログラミングの補助、文書作成など、効率化や創造性を高めるための強力なツールとして今後も非常に有用でしょう。日本企業がDX(デジタルトランスフォーメーション)を推進する上で、AIの導入は不可欠ですが、その際には、AIの「思考」はあくまで「錯覚」の可能性もあるという前提で、人間の監視や最終判断を組み合わせる「人とAIの協調」がより重要になるはずです。
今後のAI開発の方向性
今回の研究結果は、今後のAI開発の方向性にも影響を与える可能性があります。現在主流の「連鎖思考推論」のような手法が、必ずしも汎用的な知能への道ではないとすれば、将来的には、これまでとは根本的に異なるアプローチが必要になるかもしれません。例えば、人間の脳の仕組みをより深く理解し、そこからヒントを得た新しいアーキテクチャや学習方法が生まれてくる可能性も考えられます。
AIがまるで人間のように推論しているかのような宣伝は、時に私たちの期待を過剰に膨らませることがあります。AI企業は、こうした「思考の錯覚」について、より正直にその限界を認めることで、ユーザーとの信頼関係を築くことができるでしょう。私たちは、AIを「万能な知能」としてではなく、「特定のタスクに非常に優れたツール」として捉え、その特性を理解した上で賢く活用していく姿勢が求められます。
AIの「知性」を巡る議論と今後の課題
Appleの最新研究は、AIモデルが複雑な問題を解く際に、本当に「論理的に推論している」のか、それとも「パターンを当てはめているだけ」なのかという根源的な問いを改めて投げかけました。特に「ハノイの塔」のような古典的なパズルを用いた実験では、AIが難易度の高い問題に対して完全に対応できないこと、そしてその失敗の仕方が一貫しないことが明らかになりました。
この研究結果は、AIの「知性」に関する議論に新たな一石を投じ、ゲイリー・マーカス氏のようなAI懐疑論者の主張を裏付けるものとなりました。一方で、AIの限界は学習方法や意図的な設計によるものであり、根本的な能力不足ではないと主張する声もあります。
しかし、この研究が示唆するのは、現在のAIモデルが「汎用的な知能」への直接的な道筋ではないかもしれない、という点です。AIは、特定のタスクにおいて非常に強力なツールであり、今後も私たちの生活や仕事を大きく変革していくでしょう。しかし、その限界と特性を正しく理解し、過度な期待を抱かずに活用していくことが、私たちに求められる大切な視点です。
今後、AI研究がこの「推論」の謎にどう挑んでいくのか、そして私たちがAIとどのように付き合っていくべきか、引き続き注目していく必要があります。