在当今汽车市场中,跨界车型的概念已经越来越受到消费者的欢迎,宝马M3作为宝马公司高性能轿车的代表,以其出色的性能和豪华感赢得了全球无数车迷的喜爱,当宝...
2024-09-22 1
新智元报道
编辑:桃子好困
【新智元导读】
GPT-4o语音功能终于如期而至,科幻版Her走进现实!一些灰度测试到的网友们已经玩疯了,不过,OpenAI目前只给了4种预设语音。另外,GPT-4o新模型的输出token也暴涨16倍至64K。
奥特曼的承诺,终于兑现了。
赶在7月结束前,GPT-4o语音模式终于开启了灰度测试,一小部分ChatGPTPlus用户已经拿到了尝鲜入场券。
如果打开ChatGPTApp之后看到了下面这个界面,恭喜你成为了首批幸运儿。
OpenAI称,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。
预计在今年秋季,所有ChatGPTPlus用户,都能用上这个功能。
另外,视频和屏幕共享更强大的也在稍后推出。也就是,开启摄像头,就能和ChatGPT「面对面」聊天了。
一些被灰度到的网友们纷纷开启测试,发现了GPT-4o语音模式的诸多用例。
这不,有人就让它充当「二外教练」,教自己练习口语。
ChatGPT在下面的教学中,帮助网友纠正了Croissant(羊角面包)、Baguette(法式长棍)的发音。
与此同时,GPT-4o的输出token暴涨了16倍,从最初4000个token增加到64000个token。
这是OpenAI最近在官方网页中,悄然推出的测试版新模型gpt-4o-64k-output-alpha。
更长的输出token,就意味着,一次性可以得到大约4个完整的长篇电影剧本。
Her已来
之所以现在才放出GPT-4o语音功能,是因为过去几个月里,OpenAI一直对其进行安全性、质量测试。
他们与100 红队人员,就45种语言对GPT-4o语音能力进行了测试。
为保护人们的隐私,团队训练模型只使用4种「预设声音」说话。
他们还创建了一个系统,去阻止在这4种声音之外,其他声音的输出。
此外,内容过滤也是必不可少,团队还采取措施阻止暴力、有关版权内容的生成。
OpenAI预告,计划在8月初,会发布一份关于GPT-4o能力、局限性、安全评估的详细报告。
全网实测
下面是网友分享的GPT-4o语音模式的一些案例。
ChatGPT可以表演节奏口技。
ChatGPT还可以以害羞、生气、更愤怒的语气讲出了关于啤酒的笑话。
还有网友专为ChatGPT讲了一个笑话「为什么科学家不相信Adam-Atom,因为它们构成了一切」。
ChatGPT不失尴尬地笑了起来。
更搞笑的是,ChatGPT学起猫叫还是有一套的。
有人经过一番测试下来,发现ChatGPT高级语音模式非常快,回答几乎没有延迟。
当被要求模仿一些声音时,它总是可以真实复刻出声音。而且不同口音,也可以模仿出来。
下面这个视频中,展示了AI充当足球比赛解说员的场景。
ChatGPT用中文讲故事,也很生动。
OpenAI虽然声称,视频和屏幕共享功能稍后推出,不过已经有网友先用上了。
网友有一只猫咪新宠,为它搭建了小窝,准备了吃食,但不知道怎么样,于是就问问ChatGPT。
在视频的对话中,网友向它展示了猫咪的屋子,ChatGPT看过后评价道,「一定非常舒适」,并关心猫咪如何。
网友表示,它目前为止还没有吃东西,看起来有点担心。ChatGPT安慰道,「这很正常,对于猫咪来说需要适应的时间」。
可以看出,整个问答过程非常流畅,给人一种与真人交流的感受。
网友还翻出了日语版界面游戏机,但是自己又不会日语。
这时,他一边向ChatGPT展示游戏界面,一边让其帮自己做翻译,最后胡一起通关游戏。
不得不说,有了视觉 语音模式的加持,ChatGPT强了很多。
GPT-4oLongOutput悄悄上线,版「」终于来了!讲笑话学猫叫,女友能有多撩人?输出高达64K
另外,支持更大token输出的GPT-4o随之而来。
就在昨天,OpenAI正式宣布向提供测试者GPT-4oAlpha版本,每次请求支持最多输出64Ktoken,相当于200页小说。
不过,新模型的价格再次刷新天花板。每百万输入token6美元,每百万输出token18美元。
虽说输出token是GPT-4o的16倍,但价格也涨了3美元。
这么一比,果然还是gpt-4o-mini价格香!
研究员SimonWillison表示,长输出主要用于数据转换用例。
比如,将文档从一种语言翻译成另一种语言,或从文档中提取结构化数据,几乎每个输入token都需要在输出的JSON中使用。
在此之前,他所知道的最长输出模型是GPT-4omini,为16Ktoken。
为什么推出更长输出的模型?
显然,更长的输出,可以让GPT-4o提供更全面、细致的响应,对于一些场景非常有帮助。
比如,编写代码、以及对写作的改进。
这也是基于用户的反馈——需要更长输出内容才能满足用例,OpenAI才做出的调整。
上下文和输出之间的区别
GPT-4o自推出以来,便提供了最大128K的上下文窗口。而对于GPT-4oLongOutput,最大上下文窗口仍然是128K。
那么,OpenAI如何在保持整体上下文窗口为128K的情况下,将输出token数量从4,000增加到64,000呢?
这是因为,OpenAI在最初就限制了输出token数量,最大为4000个token。
这意味着,用户可以在一次交互中最多以124,000个token作为输入,也最多只能得到4000个输出token。
当然,你也可以输入更多token,那就意味着输出token更少了。
毕竟长下文长度(128K)就固定在那里,不管输入怎么变,输出token也不会过4000。
而现在,OpenAI将输出token长度限制在64,000token,也就是说,你可以比以往多输出16倍的token。
毕竟,输出计算量更大,价格涨幅也更大。
同样,对于最新的GPT-4omini,上下文也是128K,但最大输出已提升至16,000个token。
那么,用户可以提供最多112,000个token作为输入,最终得到最多16,000个token的输出。
总的来说,OpenAI在这里提供了一个方案,限制输入token,以获取LLM更长的响应,而不是直接扩大上下文长度。
而市面上其他模型,长的都已经超过百万了(Gemini),稍微短一些的也有200K(Claude);甚至有的模型输出都已经达到了200K,而OpenAI还在这儿抠抠搜搜。
这也就把难题扔给了开发者:想要输入多,那就得接受输出少;想要输出多,那就得输入少一些。
具体怎么衡量,看你们自己愿意牺牲哪一个了......
参考资料:
相关文章
在当今汽车市场中,跨界车型的概念已经越来越受到消费者的欢迎,宝马M3作为宝马公司高性能轿车的代表,以其出色的性能和豪华感赢得了全球无数车迷的喜爱,当宝...
2024-09-22 1
在当今这个科技飞速发展的时代,汽车已经不仅仅是出行工具,更成为了展示个人品味与科技生活的重要载体,而在这个领域中,奔驰普尔曼无疑是一座难以逾越的高峰,...
2024-09-22 3
大众汽车旗下的斯柯达(Skoda)品牌近年来凭借其出色的性价比和卓越的工艺设计,在全球市场赢得了广泛的赞誉,随着汽车行业向电动化、智能化发展的大潮中,...
2024-09-22 7
在当今汽车工业中,传动系统的创新和技术进步对于提升车辆性能、降低油耗以及改善驾驶体验起着至关重要的作用,作为全球领先的汽车制造商之一,大众汽车集团(V...
2024-09-22 6
大众汽车作为全球知名的汽车制造商,一直致力于技术创新与品质提升,双离合自动变速器(Direct Shift Gearbox, 简称DSG)自2003年...
2024-09-22 6
在现代汽车工业中,轮胎作为车辆与地面接触的唯一媒介,其性能直接影响到车辆的安全性、舒适性和经济性,而轮胎的寿命则是衡量其性价比和可持续性的重要指标之一...
2024-09-22 8
硅谷正经历着一场由人工智能引发的激烈辩论。引领这一风潮的不是别人,正是机器学习之父、图灵奖得主、Meta首席人工智能科学家YannLeCun。LeCu...
2024-09-21 41 硅谷鲁迅开喷!大佬狂怼马斯克
在当今社会,毒品问题一直是全球范围内的一大难题,有些人却因为对毒品的无知和贪婪,不惜铤而走险,走上制造毒品的道路,一起男子自学后在葡萄园研制冰毒的案件...
2024-09-21 9