ChatGPTの次は何か トップAI開発者が挑む「世界モデル」
ニューヨークで講演するAI研究者のフェイフェイ・リー氏(24年9月)|Andres Kudacki / AP Photo
コンピュータサイエンティストのルイス・カストリカト氏は、ChatGPT(チャットGPT)やクロードのようなチャットボットを支える人工知能(AI)技術である大規模言語モデル(LLM)の研究を始めて8年目を迎えた頃、自身の研究が行き詰まっているように感じ始めた。
「私たちは、LLMの真に基礎的な研究を行う段階を、すでに過ぎてしまった」とカストリカト氏は語る。「今は応用研究ばかりだ」
同氏はブラウン大学の博士課程を中退し、「オーバーワールド(Overworld)」という新会社を設立した。その野心は社名にも表れている。言葉だけではなく、「世界」を理解し、その中を移動できるAIの実現を目指している。
AIチャットボットには依然として大きな収益機会があると見られており、投資家はアンソロピックやオープンAIといった主要開発企業に数兆ドル規模の資金を投じている。一方で、AI起業家の間では、次のフロンティアとして「世界モデル(ワールドモデル)」に取り組む動きが広がっている。これはAIシステムや、場合によってはロボットに対し、現実世界の環境でどう反応すべきかを学習させる技術だ。
その中には、「AIのゴッドマザー」とも呼ばれるフェイフェイ・リー氏のような、この分野を代表する研究者もいる。同氏は世界モデルという概念を、「今日のAIにおいて最も重要であり、同時に最も多義的な用語の一つ」と表現している。
◆科学者たちは「世界モデル」でAIを新たな次元へ応用
世界モデル研究の根底にあるのは、「本を読むことしかできないAIは、本当の意味で知的とは言えない」という考え方だ。AIには、その場の状況や文脈を読み取る能力も必要になる。
サンフランシスコのスタートアップ「ワールド・ラボズ(World Labs)」の創業者であるリー氏は、今月公表したエッセイで次のように記した。「言語モデルがテキストの統計的構造を学習するのに対し、世界モデルは空間と時間の統計的構造を学習する。例えば、光が物体の表面にどう当たるか、カメラが一度も捉えたことのない角度から庭園がどう見えるか、物体が力を受けてどのように振る舞い、物理法則に従うかといったことだ」
もう一人の提唱者が、AI研究の先駆者であるヤン・ルカン氏だ。同氏は昨年、メタのチーフAIサイエンティストを退任し、パリを拠点とする「アドバンスト・マシン・インテリジェンス・ラボズ(Advanced Machine Intelligence Labs)」を設立した。
「世界モデルは急速にバズワードになりつつある」とルカン氏は最近のポッドキャスト番組『Unsupervised Learning』で語った。同氏は、世界モデルとはAIエージェントが「自らの行動の結果を予測できるようにするもの」と捉えている。
世界モデルの定義にはさまざまな考え方があり、多くは、それを使って何を実現したいのかによって異なる。対象はロボットであったり、よりインタラクティブなビデオゲームであったりする。
◆本で学習したAIモデルだけではロボットは十分に学べない
AI言語モデルは、人類が蓄積してきた書籍やニュース記事、画像・映像などの視覚メディアを学習することで、オフィスワークや一部のクリエイティブ分野の在り方を変えるAIアシスタントを生み出してきた。しかし一部の研究者は、新たな対話や画像、コードを生成するために、次の単語や画素(ピクセル)を繰り返し予測する生成AIモデルには限界があると考えている。
カーネギーメロン大学コンピュータサイエンス学部長のマーシャル・エベール氏は、「チャットボットはコーヒーマグを持ち上げることはできない」と指摘する。「そこには世界の幾何学的な構造や、手をどう動かすかという運動、カップとの接触による物理的な相互作用がある」とエベール氏は語る。「これは文章の次の単語を予測することより、はるかに複雑だ」
40年以上にわたりロボット工学を研究してきたエベール氏にとって、世界モデルの最も有望な用途は、テック業界で新たなバズワードとなっている「フィジカルAI」を、より速く、より低コストで実現するための手段である。
「定義は人によって異なるかもしれないが、フィジカルAIやエンボディドAIは、かつてロボティクスと呼ばれていたものが進化した姿だ」と同氏はインタビューで語った。チャットボットをこれほど有用にしたAI技術の進歩は、ロボットの脳のように機能するために必要な、周囲の環境を幅広く認識できるAIの構築にも応用できるという。「人間の体や脊髄には、バランスの取り方や歩き方についての非常に汎用的なモデルが備わっている。朝に膝が痛ければ、それに適応して少し歩き方を変えることができる。それを意識して考える必要はない。神経系や脳のどこかに、体を素早く適応させるための一般的なモデルが存在するからだ」
◆シミュレーション世界が投資家の関心を集める
より賢いロボットの開発だけが世界モデルの最終目標ではない。カストリカト氏が昨年設立したロードアイランド州の小規模スタートアップ「オーバーワールド」は現在、仮想キャラクターの移動やオブジェクトとの相互作用に応じて、不気味な森のようなゲーム内の場面がリアルタイムで変化するビデオゲームの世界を構築している。
「ドアを開けて通り抜けたり、このように細部まで作り込まれた環境と自由に相互作用できる世界モデルは他にない」と同氏はインタビューで語った。「私たちは何よりもインタラクションを重視している」
短期的な応用はAIコーディングツールほど分かりやすくはないものの、世界モデルを手がける企業には、カインドレッド・ベンチャーズ(Kindred Ventures)共同創業者兼マネージングパートナーのスティーブ・ジャン氏のようなベンチャーキャピタリストが関心を寄せている。
同社はオーバーワールドのほか、世界モデル関連企業にも投資している。その中には、天気予報向けAIモデルを開発するコーザル・ラボズ(Causal Labs)や、世界モデル向けの専用コンピューターチップを開発するエクストロピック(Extropic)が含まれる。
「将来は、さまざまな思想やアーキテクチャを持つ、多種多様なモデルが共存すると考えている」とジャン氏は語る。「すべてを支配する一つの巨大で高密度なモデルになるとは思わない」
リー氏は最近のエッセイで、競合するさまざまな考え方を整理するため、「世界モデルの分類体系(タクソノミー)」を提案した。「見た目は美しいが物理法則には反する炎を生成する動画モデル、プレイ可能なゲームを即興で作る言語モデル、そして燃焼を忠実にシミュレーションする物理エンジンは、いずれも同じ『世界モデル』という名前で呼ばれている」と同氏は記している。
同氏は世界モデルを3つのカテゴリーに分類した。現在、最も商業化が進んでいるのは、仮想世界の視覚的な忠実度を重視する一方で、ロボットを学習させる用途には十分な信頼性を持たない「レンダラー」だ。
これに加え、世界の物理的構造を忠実に再現した仮想訓練環境を構築する「シミュレーター」と、構造化されていない世界でAIエージェントやロボットが何をすべきかを予測する「プランナー」がある。
「計画を立てられるロボットこそが実際に働けるロボットであり、業界全体がその実現を目指して競争している」とリー氏は記している。
By MATT O’BRIEN AP Technology Writer




