推荐使用国际直连GPT,立即访问: www.chatgp1.com
ChatGPT的高级语音模式于周二正式向一小部分精选的OpenAI用户推出,他们有幸成为这一备受瞩目功能的alpha版本首批体验者。
该功能早在5月份便初次亮相。其设计初衷在于摒弃传统的基于文本的上下文窗口,转而采用自然的口语交流方式,实现逼真对话的传达,并支持多种地区口音和语言。据OpenAI介绍,Advanced Voice“能提供更自然的实时对话体验,允许用户随时打断,并能感知和响应用户的情绪。”
然而,对于用户要求语音模式执行的操作,存在一定的限制。系统将采用四种预设声音之一进行发声,且无法模仿任何其他人的声音,无论是个人还是公众人物。实际上,该功能会严格阻止生成与四种预设不同的声音输出。此外,系统也不会创作受版权保护的音频或音乐内容,因此,尽管有人尝试让它进行节奏口技(Beatbox)表演,但并未如愿。
作为B-boy风格的高级声音,Alpha用户Ethan Sutin在X平台(原Twitter)上发布了一个帖子,展示了Advanced Voice的一系列回复,其中包括AI一口气唱出的一段简短“生日说唱”,随后又开始了节奏口技表演,甚至能听到AI在节拍之间以数字方式模拟的呼吸声。
高级声音在讲述故事方面同样表现出色。尽管它无法批量创作歌曲,但可以为朗诵的睡前故事添加背景音效。例如,在Kesku的例子中,当被要求“给我讲一个带有科幻元素的激动人心的动作惊悚故事,并通过发出适当的声音来营造氛围(如:一场咆哮的暴风雨)”时,AI在其讲述的流氓机器人故事中适时地加入了碰撞和猛击的声音效果。
作为情感演讲者的高级声音同样令人印象深刻。新功能之所以听起来如此逼真,部分原因在于它能够像人类一样表达情感。Ethan Sutin就重现了著名的《星际迷航 II》场景。而在另外两个例子中,用户Cristiano Giardina则让AI用不同的语调和不同语言进行了说话尝试。
此外,AI的发声能力并不局限于人类语言。在其中一个例子中,Advanced Voice被要求发出猫叫声,并且准确无误地完成了任务。除了听起来像猫之外,用户还可以向AI提出关于他们的猫咪朋友的问题,并实时获得个性化的提示和建议。
Advanced Voice还具备实时翻译的功能。它可以利用设备的摄像头来辅助翻译工作。例如,用户Manuel Sainsily将手机对准正在运行日语版《Pokémon》游戏的GameBoy Advanced,并让AI在玩游戏时阅读屏幕上的对话内容。不过,OpenAI指出,视频和屏幕共享功能暂时不会包含在alpha版本中,但将在后续推出。
OpenAI计划在未来几周内将alpha版本逐步扩展给更多Plus用户,并预计在秋季将其全面推广给所有Plus用户。