<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>NewSphere</title>
	<atom:link href="https://newsphere.jp/technology/20240517-1/feed/" rel="self" type="application/rss+xml" />
	<link>https://newsphere.jp</link>
	<description>世界と繋がるミレニアル世代に向けて、国際的な視点・価値観・知性を届けるメディアです。</description>
	<lastBuildDate>Thu, 23 Apr 2026 09:22:22 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.4.3</generator>
			<item>
		<title>会話できるようになった新モデル「GPT-4o」、広がる可能性　オープンAI発表</title>
		<link>https://newsphere.jp/technology/20240517-1/</link>
		<comments>https://newsphere.jp/technology/20240517-1/#respond</comments>
		<pubDate>Fri, 17 May 2024 04:00:00 +0000</pubDate>
		<dc:creator>NewSphere</dc:creator>
		<category><![CDATA[Technology]]></category>

		<guid isPermaLink="false">https://newsphere.jp/?p=152125</guid>
		<description><![CDATA[　オープンAIが13日、生成AI（人工知能）の言語モデル「GPT-4」の改良版「GPT-4o」を発表し、さまざまなデモを展開した。より人間らしいやりとりが可能となった最新モデルのAIが提示する、新たな可能性とは。 ◆音声 [&#8230;]]]></description>
			<content:encoded><![CDATA[<div class="wprt-container"><p>　オープンAIが13日、生成AI（人工知能）の言語モデル「GPT-4」の改良版「GPT-4o」を<a href="https://openai.com/index/hello-gpt-4o/" target="_blank" rel="noopener">発表</a>し、さまざまなデモを展開した。より人間らしいやりとりが可能となった最新モデルのAIが提示する、新たな可能性とは。</p>
<p><strong>◆音声、テキスト、画像の「すべて」に対応</strong><br />
　最新モデルの「GPT-4o」の「o」は、「すべて」を意味するオムニ（omni）の頭文字である。この名前に込められた通り、GPT-4oの特徴の一つが、音声、テキスト、画像のすべてにリアルタイムで対応するオムニモデルである点だ。かつ、今回発表されたアップグレードは、無料ユーザーにも展開される予定である。最新モデル発表の<a href="https://www.youtube.com/watch?v=DQacCB9tDaw" target="_blank" rel="noopener">プレゼンテーション</a>を行ったオープンAIのミラ・ムラティ最高技術責任者（CTO）は、「汎用人工知能（AGI）が人類全体に利益をもたらすこと」が、同社の使命であるとしたうえで、すべてのユーザーが今回の新モデルにアクセス可能であることを誇らしげに語った。</p>
<p>　「私たちは、機械と人間のこれからの対話について考えている」とムラティ。<br />
デモでは、さまざまなユースケースのデモを通じて、GPT-4oのより「人間らしい対応」が紹介された。音声のやり取りにおいての特徴の一つは、AIの返答を途中で遮ったり、逆に人間の反応をAIが途中で遮ったりするようなシーン。また、AIの声のトーンもより多様になり、対話の相手を落ち着かせたり、楽しませたりと多様なケースに対応している。視覚認知に関しては、カメラを通じて相手の感情や視線を読み取ったり、服装や背景にあるものを認識したりすることができる。SF映画のような世界が、現実化していることに驚きと不気味さを感じる。</p>
<p><strong>◆浸透するAIの可能性</strong><br />
　GPT-4oではさまざまな分野でのキャパシティが拡張されている。たとえば、子守唄を歌ったり、2種類の音声でハーモニーを作ることができれば、物語、メロディ、歌詞を創作することもできる。ほかにも、同時通訳としての機能を果たしたり、数学のチューターとしての役割を果たしたり、別のデバイスのAIと直接対話したりすることが可能だ。</p>
<p>　一方で、GPT-4oにも当然限界がある。歌ったり、数えたりという作業についての適切なテンポなどは、人間側が指示する必要があったり、感情的な反応がどこかわざとらしかったり、翻訳や発音間違いなど、正しくない反応を返してくることもある。オープンAIはより人間らしい「自然さ」を強調するが、機械に話しかけているという感覚は払拭されてはいない。携帯やパソコンというインターフェイスが、その感覚をより増幅させる。</p>
<p>　チャットボットから、より優秀なAIアシスタントツールへと進化したGPT-4o。同時期にグーグルも、画像検索に役立つGemini AIの新たなツールを<a href="https://qz.com/google-i-o-developer-conference-gemini-ai-ask-photos-1851476785" target="_blank" rel="noopener">発表した</a>が、一般ユーザ向けの機能展開としては、GPT-4oが一方先に進んでいる雰囲気がある。GPT-4oは今後数週間の間に、順次ロールアウトされていく予定。GPT-4oを活用したさまざまなユースケースや新サービスが生まれていく可能性が感じられる。</p>
</div>]]></content:encoded>
			<wfw:commentRss>https://newsphere.jp/technology/20240517-1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
