昨日,美国人工智能研究公司OpenAI宣布,AI聊天机器人工具ChatGPT现在可以“看、听、说”,暗指这款广受欢迎的聊天机器人可以同时接收图像和语音输入,并通过语音对话进行回复。
这些变化将在未来两周内推出给Plus和企业用户。虽然语音功能将仅限于 iOS 和 Android 应用程序,但图像处理功能将适用于所有平台。
那具体的流程是什么样的呢?
在语音方面,新功能允许用户进行语音对话,提供更直观的交互方式。该功能由一个新的文本转语音模型提供支持,能够通过文本和几秒钟的语音样本生成类似人类的音频,且与专业配音演员合作,提供5种可供用户自行选择的声音。
在图像方面,新功能允许用户上传图像与ChatGPT交互,且支持上传多张图像。如果要聚焦图像的特定部分,可以使用移动应用中的绘图工具。
此次大规模推广新功能正值聊天机器人领导者之间人工智能竞赛日益升级之际,其竞争对手Anthropic 刚从亚马逊那里获得高达40亿美元的投资,谷歌也已经宣布了 Bard 聊天机器人的一系列更新,微软则为必应添加了视觉搜索功能。