异动
登录注册
GPT-4o最大特色:多模态感知
从入门到精通
自学成才的老司机
2024-05-14 14:38:01
OpenAI发布的GPT-4o的最大亮点是多模态感知,包含了文字、视觉感知以及声音,目标就是让 GPT 变得好用。

1.此前语音版 GPT 其实分成了语音转文字、GPT 生成、文字转声音几个步骤。但是在 GPT-4o 当中,声音、文字、图像的推理都是原生融合的。

 

2. 免费版用户可用,付费版用户有更大的容量。

3. GPT-4o API 也有提升,2 倍速度提升,降价 50%。

4.从openai的官方演示视频上看,实时语音对话有很大的升级,不需要等待模型反应完成,想说随时说,可以随时打断。


5.GPT-4o支持端到端的语音交互,跟之前先将语音识别成文字,再输入GPT的模式有很大不同。不仅时延下降,模型的理解能力和输出效果还有很大的提升。比如说,chatGPT会笑了,比如说,chatGPT,会唱歌了!!!!

6.实时语音是有语气和音色的。现场主持人让 GPT 讲一个睡前故事,语音可以讲得 drama 一些,也可以学习机器人发音,还能边唱边讲故事。

7.摄像头视觉感知。现场演示了聊天的同时调用手机摄像头,解一道方程题。甚至增加难度,不让 GPT 直接告诉你答案,让它一步一步教你如何计算。

此外,超长国债也继续支持人工智能行业发展:

 

 欢迎大家前往openai官网自行免费体验!需要一个账号和梯子

 

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
网达软件
S
声迅股份
S
科大讯飞
S
中胤时尚
工分
3.29
转发
收藏
投诉
复制链接
分享到微信
有用 4
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据