查看原文
其他

OpenAI模型终于更新!强大视听能力的GPT-4o将面向所有用户,其前身正是神秘的gpt2!

51CTO技术栈
2024-09-06

编辑 | 伊风


春季终于如约而至!GPT系列的模型终于等到了久违的更新——GPT-4o浮出水面。


而且此前颇具神秘气息的“im-also-a-good-gpt2-chatbot”,正是其测试版本。


本场更新并未见到奥特曼的身影,而是由OpenAI CTO 穆里-穆拉提(Muri Murati)主持。此前她曾因为在采访中对OpenAI的训练数据语焉不详而受到过一些争议。


OpenAI在春季发布上都说了啥呢?一句话概括,GPT-4o更快、更多模态、而且更加便宜了!



最新模型GPT-4o


让奥特曼直呼“amazing work”的模型更新来了!



可以看到GPT-4o的性能一骑绝尘。(题外话,通义千问大模型在这张图的右侧默默上榜了)。


新的大型语言模型是在互联网的海量数据基础上训练出来的,将更擅长处理文本和音频,并可处理 50 种语言。


OpenAI 更新的 GPT-4o 生成式人工智能模型,将在未来几周内正式面向开发者和消费者推出。新模型将面向所有用户,穆拉提补充说,付费用户将继续 "拥有五倍于免费用户的容量限制"。


OpenAI 首席技术官穆里-穆拉提(Muri Murati)说,GPT-4o 提供了 "GPT-4 级 "的智能,但改进了 GPT-4 在文本、视觉和音频方面的能力。


"穆拉提在 OpenAI 办公室举行的主题演讲中说:"GPT-4o 的优势在于它能跨越语音、文本和视觉。"这一点非常重要,因为我们正在展望人类与机器互动的未来。


GPT-4是OpenAI之前的领先模型,它是由图像和文本组合训练而成的,可以分析图像和文本,完成从图像中提取文本甚至描述图像内容等任务。但 GPT-4o 在此基础上增加了语音功能。


这吻合了此前大家猜测的方向:“ChatGPT+Voice Agent”!


英伟达的科学家Jim Fan在更新直播前的预测


GPT-4o强大的“视听”能力


OpenAI 首席执行官山姆-阿尔特曼(Sam Altman)发布消息称,该模型是 "原生多模态 "的,这意味着该模型可以生成内容或理解语音、文本或图像命令。


GPT-4o在语音方面具体可以实现什么呢?


GPT-4o 极大地改善了 ChatGPT 的体验--ChatGPT 是 OpenAI 的病毒式人工智能聊天机器人。ChatGPT 长期以来一直提供语音模式,使用文本到语音模型转录 ChatGPT 中的文本。但 GPT-4o 对此进行了改进,让用户可以更像使用助手一样与 ChatGPT 互动。


例如,用户可以向由 GPT-4o 支持的 ChatGPT 提问,并在 ChatGPT 回答时打断它。OpenAI 表示,该模型可以提供 "实时 "响应,甚至可以捕捉用户声音中的情感,并生成 "一系列不同情感风格 "的语音。


GPT-4o 还提高了 ChatGPT 的视觉能力。如果给定一张照片或一个桌面屏幕,ChatGPT 现在可以快速回答相关问题,从 "这个软件代码是怎么回事 "到 "这个人穿的是什么牌子的衬衫?"


"穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验实际上变得更加自然、轻松,让你完全不用关注用户界面,而只关注与 [GPT] 的协作。


OpenAI 声称,GPT-4o 的多语言性也更强,在 50 种不同语言中的性能都有所提高。Altman 在 X 上补充说,想要使用 GPT-4o 的开发者可以访问 API,其价格是 GPT-4-turbo 的一半,速度是 GPT-4-turbo 的两倍。


写在最后


OpenAI具有强大音频能力的模型GPT-4o的推出,让我们进一步看到了虚拟助手的未来。


有知情的科技博主表示,此时的发布也是OpenAI和苹果已经达成交易的信号。这意味着Siri的未来可能是由ChatGPT进行支持的!



如果OpenAI与微软、苹果都牵起了手,那么谷歌这个"AI届汪峰"真的要陷入孤军奋战的尴尬中了。


明天,谷歌的开发者大会将如约而至。OpenAI 赶在此时发布产品更新颇有些抢夺谷歌风头的意思!


那么,你认为谷歌发布什么产品才可以为自己扳回一局呢?


参考链接:

1.https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/

2.https://www.theverge.com/2024/5/13/24155493/openai-gpt-4o-launching-free-for-all-chatgpt-users?showComments=1


 

 ——好文推荐——

 

璩静后续:百度称丢弃大厂病;苹果领导班子换血在即;阿里北京总部搬家;拜登政府“狂征”中国电车四倍关税;OpenAI凌晨发布新产品

实测ChatGPT的Go能力!资深老鸟干货分享:使用ChatGPT学习Go语言容易得多




继续滑动看下一个
51CTO技术栈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存