OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本

OpenAI 在昨天发布了新旗舰模型 GPT-4o(“o” for “omni”)，它可以同时处理文本、音频、视频，让你与 AI 的交流变得和人一样，你可以和它面对面视频，它会在很短的时间内做出响应。那个电影里的贾维斯，大概就这来了。@Appinn

主要特点

GPT-4o 能接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。

它可以在短至 232 毫秒、平均 320 毫秒的时间内对音频输入做出响应，这类似于对话中的人类响应时间。

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)

以前为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。

而 GPT-4o 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

它在英语和代码文本上的性能与 GPT-4 Turbo 相当，在非英语语言文本上的性能也有显著提高，同时在应用程序接口（API）上的速度更快，价格便宜 50%。

与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

演示视频

中文字幕：

如何使用

GPT-4o 的文本和图像（无视频）功能今天开始在 ChatGPT 中推出。Plus 付费用户比免费版多 5 倍的消息限制，免费版本可用 GPT-4o。

未来几周将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员（API 用户）现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。

未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

原文：https://xbcpy.com/

另外，目前青小蛙还未看到 GPT-4o 权限

更新个实时翻译的演示：

加载中~

OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本

主要特点

演示视频

如何使用

QQ 上线四川专属的地震预警（烈度）功能

ON1 Effects 2024 v18.3.0.15358 图像处理软件特别版

随便看看

Textify(Hunlongyu版本) v1.0.2

Ground Truth Text – 从图片中获取文本

怎么隐藏桌面图标下的文字

为视障人士「现场视频协助」应用 Be My Eyes 推出 Android 版本

热门文章

无水印解析下载小视频方法（脚本和插件）

越狱工具Unc0ver v8.0.2 支持iOS 14.6-14.8系统

无水印下载小视频插件（资源嗅探插件）

热门标签

OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本

主要特点

演示视频

如何使用

QQ 上线四川专属的地震预警（烈度）功能

ON1 Effects 2024 v18.3.0.15358 图像处理软件特别版

猜你喜欢

GMailStore – 全中文网络邮盘

Cinnamon Beats – 解密型音乐游戏

Logo Lab – 帮你模拟 Logo 可用性，如颜色、尺寸、应用、无障碍等 [Web]

Connect by BeWarned – 帮助聋哑人正常沟通交流[iPhone/Android]

GoogleGRab – google图片搜索下载

DaVinci Resolve v18.6.6.7 达芬奇调色软件绿色便携版

随便看看

Textify(Hunlongyu版本) v1.0.2

Ground Truth Text – 从图片中获取文本

怎么隐藏桌面图标下的文字

为视障人士「现场视频协助」应用 Be My Eyes 推出 Android 版本

热门文章

无水印解析下载小视频方法（脚本和插件）

越狱工具Unc0ver v8.0.2 支持iOS 14.6-14.8系统

无水印下载小视频插件（资源嗅探插件）

热门标签

关注我们的公众号