ワカリタイムズ

🌍 海外ニュースを「わかりやすく」

AI新潮流「ワールドモデル」とは?言葉の限界超え、世界を理解するAIへ

皆さんの周りにも、お話ししたり、質問に答えてくれたりするAIが増えてきましたね。最近のAIは、まるで人間のように自然な文章を作ったり、絵を描いたり、音楽を作ったりと、驚くような能力を持っています。

しかし、いまAIの研究者たちの間で、「言葉」だけではAIの知能をこれ以上伸ばすのが難しいという考えが広まっています。では、言葉の先に何があるのでしょうか?世界トップクラスのAI研究者たちが、今、新たに「ワールドモデル」という種類のAI開発に乗り出している、というニュースが報じられました。

この記事では、その最先端の取り組みについて、Top AI researchers say language is limiting. Here's the new kind of model they are building instead. - Business Insiderを基に、わかりやすく解説していきます。

言葉の限界を超えてAIは何を目指すのか?

現在、OpenAIやAnthropicといった有名企業が、大量の文章データから学習する「大規模言語モデル(LLM)」というAIの開発に数十億ドルを投じています。皆さんが日常で使うチャットAIの多くは、このLLMの技術を応用したものです。LLMは、言葉やフレーズの統計的な関係性を分析して、次の言葉を予測することで、人間らしい文章を生成します。

しかし、スタンフォード大学の著名な教授で、画像認識の分野を大きく進歩させた「ImageNet」を開発したことで知られる李飞飞 (リ・フェイフェイ)氏や、メタ社のAI主任研究者であるヤン・ルカン氏など、AI研究の最前線に立つ人々は、「ワールドモデル」と呼ばれる新しい種類のAIに注目しています。

ワールドモデルとは?人間の「ものの見方」をAIに

では、「ワールドモデル」とは一体何でしょうか?簡単に言うと、それは「人間の脳が、周りの世界について作り出す、頭の中のイメージ(精神的なモデル)」をAIで再現しようとするものです。

李飞飞 (リ・フェイフェイ)氏は、ポッドキャストで「言葉は自然界に存在するものではない」と語り、「人間は、言葉を超えて生き残り、働き、文明を築いている」と強調しています。私たちが何かを見たり聞いたりするとき、ただの情報として受け取るだけでなく、それがどのような意味を持つのか、次に何が起こるかを予測しますよね。例えば、ボールが転がってきたら、「ぶつかるかもしれない」とか、「手で止められる」と瞬時に判断します。これは、私たちの脳が「ボールが転がる」という現象に対して、内部で世界のモデルを動かしているからです。

この考え方は、MITのコンピューター科学者であるジェイ・ライト・フォレスター氏が1971年の論文「社会システムの反直観的挙動 (Counterintuitive Behavior of Social Systems)」で述べたように、人間が意思決定をする上でいかに「精神的なモデル」が重要かを示しています。

つまり、AIが人間のような、あるいはそれ以上の知能を持つためには、言葉のパターンを学ぶだけでなく、私たちのように「世界を理解し、予測する能力」を持つべきだと研究者たちは考えているのです。

ワールドモデル開発の最前線

ワールド・ラボ (World Labs)の挑戦

李飞飞 (リ・フェイフェイ)氏は、2024年に「ワールド・ラボ (World Labs)」を共同設立し、アンドリーセン・ホロウィッツ (Andreessen Horowitz)をはじめとするベンチャーキャピタルから2億3000万ドル(約332億円)の初期資金を調達しました。ワールド・ラボの目標は、「AIモデルをピクセルという2次元の平面から、仮想と現実の両方の完全な3次元の世界へと引き上げ、私たち人間と同じくらい豊かな空間的知能 (spatial intelligence)を与えること」です。

「空間的知能」とは、物体がどこにあるか、どのように動くか、形や大きさがどうなっているかなど、3次元の空間を理解し、推論し、操作し、生成する能力のことです。例えば、ロボットが部屋の中を動き回るために、障害物を避けたり、目的の場所へたどり着くために必要な能力がこれにあたります。

李飞飞 (リ・フェイフェイ)氏は、ワールドモデルが創造的な分野、ロボット工学、あるいは「無限の宇宙」を必要とするあらゆる分野に応用できると考えています。例えば、戦場で兵士が周囲の状況をより正確に認識し、敵の次の動きを予測するのに役立つなど、軍事的な応用も視野に入れていると報じられています。

メタ (Meta)社の取り組み

一方、メタ (Meta)社のAI主任研究者であるヤン・ルカン氏も、少人数のチームで同様のプロジェクトに取り組んでいます。

彼のチームは、動画データを使ってAIモデルを訓練し、動画を様々な抽象度でシミュレーションしています。

ルカン氏は、「ピクセルレベルで予測するのではなく、動画の抽象的な表現を動かすシステムを訓練する。そうすれば、その抽象的な表現の中で予測できるようになり、予測できない詳細をすべて排除できることを期待している」と語っています。これは、世界の変化の軌跡をマッピングするための、よりシンプルな「構成要素」を作り出すことにつながるそうです。

開発の難しさと日本の未来への示唆

ワールドモデルの開発における大きな課題は、「十分なデータの不足」です。人間は何世紀にもわたって言葉を洗練させ、文書として記録してきました。そのため、LLMは大量のテキストデータから学習できます。しかし、「空間的知能」に関するデータは、それほど整備されていません。

李飞飞 (リ・フェイフェイ)氏は、「もし今目を閉じて、あなたの周りの環境を3Dモデルで描いたり、作ったりするように頼んだら、それは簡単ではないでしょう」と述べ、人間でさえ非常に複雑なモデルを生成する能力は、訓練なしにはそれほど高くないと指摘しています。そのため、ワールドモデルに必要なデータを収集するには、「ますます高度なデータエンジニアリング、データ取得、データ処理、データ合成」が必要になるといいます。

日本への影響と私たちの考察

この「ワールドモデル」という新しいAIの概念は、日本にも大きな影響を与える可能性があります。日本はロボット技術や製造業が盛んであり、自動運転、スマートシティ、災害予測といった分野では、AIが物理世界を正確に理解する「空間的知能」が不可欠です。例えば、災害時に現場の状況を詳細に把握し、被害の拡大を予測するAIは、人命救助や復旧作業に計り知れない貢献をするでしょう。

また、エンターテイメント分野でも、メタバースVR/ARコンテンツのリアルさが格段に向上し、より没入感のある体験が生まれるかもしれません。日本の企業がこの分野に積極的に投資し、研究開発を進めることで、新たな産業が生まれ、国際的な競争力を高めるチャンスとなるはずです。

一方で、この技術が軍事転用される可能性も指摘されており、その倫理的な側面についても、国際社会全体で議論を深めていく必要があります。

私たちの日常生活も考えてみましょう。私たちは言葉を話す前に、目で見て、手で触って、物理的な世界を体験し、その中で学び、成長します。例えば、熱いものに触ると火傷をする、高いところから落ちると怪我をする、といったことを、言葉で教えられるよりも前に体験を通して学習します。AIが人間と同じように世界を体験し、その「法則」を学ぶことができれば、より常識的な判断ができ、私たちを本当にサポートしてくれる存在になるでしょう。

しかし、そのための「データ」をどう集め、どう学習させるかという点は、まさに人間の知恵が試される部分です。言葉のデータはインターネット上に豊富にありますが、3次元の空間や物理法則に関するデータは、まだAIが十分に学習できる形で整理されていません。今後は、シミュレーション技術の進化や、現実世界からのデータ収集方法の革新が、この分野の鍵となるでしょう。

まとめ

現在、主流である大規模言語モデル(LLM)が「言葉の達人」であるのに対し、「ワールドモデル」は「世界の達人」を目指していると言えます。李飞飞 (リ・フェイフェイ)氏やヤン・ルカン氏といったトップ研究者たちは、AIが真に人間のような知能を持つためには、言葉だけでなく、物理的な世界を理解し、推論し、予測する能力が不可欠だと考えています。

この「ワールドモデル」が実現すれば、AIは単に質問に答えるだけでなく、ロボットが自律的に複雑な作業を行ったり、災害予測がより正確になったり、あるいは創造的な分野で無限の可能性が広がったりと、私たちの社会に大きな変革をもたらすでしょう。データの収集と学習という課題は大きいですが、この新たなAIの進化の方向性は、今後の技術の発展を占う上で非常に注目すべきポイントです。 私たちは、AIが本当の意味で「世界を理解する」日が来るのを、楽しみに見守っていきましょう。