会話できるようになった新モデル「GPT-4o」、広がる可能性 オープンAI発表

Koshiro K / Shutterstock.com

 オープンAIが13日、生成AI(人工知能)の言語モデル「GPT-4」の改良版「GPT-4o」を発表し、さまざまなデモを展開した。より人間らしいやりとりが可能となった最新モデルのAIが提示する、新たな可能性とは。

◆音声、テキスト、画像の「すべて」に対応
 最新モデルの「GPT-4o」の「o」は、「すべて」を意味するオムニ(omni)の頭文字である。この名前に込められた通り、GPT-4oの特徴の一つが、音声、テキスト、画像のすべてにリアルタイムで対応するオムニモデルである点だ。かつ、今回発表されたアップグレードは、無料ユーザーにも展開される予定である。最新モデル発表のプレゼンテーションを行ったオープンAIのミラ・ムラティ最高技術責任者(CTO)は、「汎用人工知能(AGI)が人類全体に利益をもたらすこと」が、同社の使命であるとしたうえで、すべてのユーザーが今回の新モデルにアクセス可能であることを誇らしげに語った。

 「私たちは、機械と人間のこれからの対話について考えている」とムラティ。
デモでは、さまざまなユースケースのデモを通じて、GPT-4oのより「人間らしい対応」が紹介された。音声のやり取りにおいての特徴の一つは、AIの返答を途中で遮ったり、逆に人間の反応をAIが途中で遮ったりするようなシーン。また、AIの声のトーンもより多様になり、対話の相手を落ち着かせたり、楽しませたりと多様なケースに対応している。視覚認知に関しては、カメラを通じて相手の感情や視線を読み取ったり、服装や背景にあるものを認識したりすることができる。SF映画のような世界が、現実化していることに驚きと不気味さを感じる。

◆浸透するAIの可能性
 GPT-4oではさまざまな分野でのキャパシティが拡張されている。たとえば、子守唄を歌ったり、2種類の音声でハーモニーを作ることができれば、物語、メロディ、歌詞を創作することもできる。ほかにも、同時通訳としての機能を果たしたり、数学のチューターとしての役割を果たしたり、別のデバイスのAIと直接対話したりすることが可能だ。

 一方で、GPT-4oにも当然限界がある。歌ったり、数えたりという作業についての適切なテンポなどは、人間側が指示する必要があったり、感情的な反応がどこかわざとらしかったり、翻訳や発音間違いなど、正しくない反応を返してくることもある。オープンAIはより人間らしい「自然さ」を強調するが、機械に話しかけているという感覚は払拭されてはいない。携帯やパソコンというインターフェイスが、その感覚をより増幅させる。

 チャットボットから、より優秀なAIアシスタントツールへと進化したGPT-4o。同時期にグーグルも、画像検索に役立つGemini AIの新たなツールを発表したが、一般ユーザ向けの機能展開としては、GPT-4oが一方先に進んでいる雰囲気がある。GPT-4oは今後数週間の間に、順次ロールアウトされていく予定。GPT-4oを活用したさまざまなユースケースや新サービスが生まれていく可能性が感じられる。

Text by MAKI NAKATA