ワカリタイムズ

🌍 海外ニュースを「わかりやすく」

Google Gemini、AI画像編集でChatGPTを猛追!指示に高精度、ビジネス活用と安全性

Googleは、画像編集におけるユーザーの細かい要求に応える新たなAI画像モデルをGeminiチャットボットに搭載し、OpenAIの人気画像ツールに対抗するとともに、ChatGPTからのユーザー獲得を目指しています。このアップデートは「Gemini 2.5 Flash Image」と呼ばれ、8月26日火曜日からGeminiアプリの全ユーザー、および開発者向けにGemini APIGoogle AI Studio、Vertex AIプラットフォームを通じて展開されると、米TechCrunchが報じています。「Google Gemini’s AI image model gets a ‘bananas’ upgrade

AI画像モデルの精密な編集能力と市場競争

Geminiの新しいAI画像モデルは、ユーザーからの自然言語による指示に基づき、画像の一貫性を保ちながら、より精密な画像編集を実現することを目指しています。これは、多くの競合ツールが課題としている点です。例えば、ChatGPTやxAIのGrokで写真に写った人物のシャツの色を変更しようとすると、顔が歪んだり背景が意図せず変更されたりすることがあります。

Googleの新ツールは、匿名の評価プラットフォームであるLMArenaで「nano-banana」という仮名で登場し、その印象的なAI画像編集能力がSNSで話題となりました。Googleは、Gemini 2.5 Flash AIモデルのネイティブ画像生成機能である本モデルが、LMArenaをはじめとするベンチマークで最先端の性能を発揮すると述べています。

Google DeepMindのビジュアル生成モデル担当プロダクトリードであるニコール・ブリチョヴァ氏は、TechCrunchのインタビューで「ビジュアルクオリティだけでなく、モデルの指示追従能力も大きく前進させています」と語りました。さらに、「このアップデートにより、編集がよりシームレスになり、モデルの出力はあらゆる用途に利用可能になりました」と述べています。

AI画像モデルの開発は、大手テクノロジー企業にとって重要な競争領域となっています。3月にOpenAIがGPT-4oにネイティブ画像ジェネレーターを搭載した際、AI生成された「Studio Ghibli風」ミームがChatGPTの利用を急増させました。GoogleもOpenAIに追随する中、Metaは先週、スタートアップMidjourneyからAI画像モデルをライセンスすることを発表しました。一方、a16zが支援するドイツのユニコーン企業Black Forest Labsは、FLUX AI画像モデルでベンチマークを席巻し続けています。

Geminiの印象的なAI画像編集機能は、GoogleがOpenAIとのユーザー数ギャップを埋める一助となるかもしれません。ChatGPTは現在、週に7億人以上のユーザーを抱えています。Googleの7月の決算説明会では、CEOのスンダー・ピチャイ氏がGeminiの月間ユーザー数が4億5000万人であると明かしており、週刊ユーザー数はさらに低いことが示唆されています。

ブリチョヴァ氏によると、Googleはこの画像モデルを、ユーザーが自宅や庭のプロジェクトを視覚化するといった、消費者の利用シーンを念頭に置いて特別に設計したとのことです。また、モデルは「世界に関する知識」(「世界知識」)が向上し、ソファの画像、リビングルームの写真、カラーパレットといった複数の参照情報を単一のプロンプトに統合し、まとまりのあるレンダリングを生成することも可能です。

AI画像生成における安全性と倫理的課題

Geminiの新しいAI画像ジェネレーターは、ユーザーがリアルな画像を簡単に作成・編集できるようにしますが、Googleはユーザーが作成できるコンテンツを制限する安全策を講じています。Googleは過去にAI画像ジェネレーターの安全対策で苦労した経験があり、一時はGeminiが歴史的に不正確な人物画像を生成したことを謝罪し、AI画像ジェネレーターを全面的に停止(ロールバック)しました。現在、Googleはより良いバランスが取れたと考えています。

ブリチョヴァ氏は、「ユーザーにクリエイティブなコントロールを提供し、モデルから望むものを引き出せるようにしたいと考えています」と述べつつ、「しかし、何でもありではありません」と付け加えています。Google利用規約の生成AIに関するセクションでは、「非合意の親密な画像」の生成を禁止しています。

同様の安全対策はGrokには見られないようで、ユーザーはテイラー・スウィフトのような有名人に似たAI生成の露骨な画像を生成できてしまいました。ユーザーがオンラインで何が本物かを見分けるのを困難にするディープフェイク画像の増加に対処するため、ブリチョヴァ氏は、GoogleがAI生成画像にビジュアルウォーターマークメタデータ内の識別子を適用していると述べています。しかし、SNSで画像をスクロールしている人が、そのような識別子に気付かない可能性もあります。

AI技術の可能性と私たちに求められる視点

Geminiの「バナナ」級の進化は、誰もが「魔法の杖」を手に入れたようなものです。これまで専門的なスキルが必要だった画像編集が、言葉一つで、しかも驚くほど自然にできてしまう。この技術は、私たちの創造性を解き放ち、表現の可能性を大きく広げてくれるでしょう。

しかし、強力な魔法には、常に責任が伴います。この杖をどう使うかは、私たち一人ひとりに委ねられています。新しいアートを生み出すこともできれば、人を傷つける偽情報を作り出すこともできてしまうのです。

技術の進化をただ受け入れるだけでなく、「この技術で何を実現したいのか」「社会にとってより良い使い方は何か」を考えることが、今、私たちに求められています。Geminiのようなツールの登場は、AIと社会の関わり方を改めて見つめ直す良いきっかけになるのではないでしょうか。

AIの未来:期待と課題、そして私たちの役割

今回のGeminiの進化は、AI画像編集の分野における大きな一歩ですが、これはまだ序章にすぎません。今後、画像だけでなく、動画や3Dモデルの生成・編集へと技術競争はさらに加速していくでしょう。私たちが注目すべきは、各社が「使いやすさ」「安全性」という二つの要素を、どのように両立させていくかです。

この記事を通して私たちが伝えたいのは、AIが単なる「便利な道具」から、私たちの「創造性を拡張するパートナー」へと変わりつつあるという事実です。

もちろん、AIが生成したものを鵜呑みにせず、その真偽を見極める力(情報リテラシー)も同時に必要になります。AIに仕事を奪われると恐れるのではなく、「AIをどう賢く使いこなすか」という視点を持つこと。それが、AIと共に新しい価値を創造していく未来への第一歩となるはずです。まずは気軽に触れてみて、AIとの新しい付き合い方を探してみてはいかがでしょうか。