1.此前语音版 GPT 其实分成了语音转文字、GPT 生成、文字转声音几个步骤。但是在 GPT-4o 当中,声音、文字、图像的推理都是原生融合的。
2. 免费版用户可用,付费版用户有更大的容量。
3. GPT-4o API 也有提升,2 倍速度提升,降价 50%。
4.从openai的官方演示视频上看,实时语音对话有很大的升级,不需要等待模型反应完成,想说随时说,可以随时打断。5.GPT-4o支持端到端的语音交互,跟之前先将语音识别成文字,再输入GPT的模式有很大不同。不仅时延下降,模型的理解能力和输出效果还有很大的提升。比如说,chatGPT会笑了,比如说,chatGPT,会唱歌了!!!!
6.实时语音是有语气和音色的。现场主持人让 GPT 讲一个睡前故事,语音可以讲得 drama 一些,也可以学习机器人发音,还能边唱边讲故事。
7.摄像头视觉感知。现场演示了聊天的同时调用手机摄像头,解一道方程题。甚至增加难度,不让 GPT 直接告诉你答案,让它一步一步教你如何计算。
此外,超长国债也继续支持人工智能行业发展: