- OpenAI 正在举办一场活动,可能于周一发布一款新的多模态数字助手,
- 多模态功能将使该助手能够利用视觉线索,例如识别和解读外部标志,作为提示。
- 这对谷歌助手及其最近发布的数字助手 Gemini 构成了直接威胁。
OpenAI一直在向部分客户展示一款能够识别物体并与你对话的新型多模态 AI 模型,据新闻网站 The Information 最近报道。该媒体声称从匿名消息源得知,并推测这可能是该公司即将在今天晚些时候发布内容的预览。
新型多模态 AI 模型
多模态指的是 AI 能够处理文本以外的多种输入形式。这款所谓的数字助手能够连接摄像头,处理来自外部世界的数据,然后根据观察到的情况向你提供更多详细信息。例如,当您将摄像头对准一块用陌生语言写成的路标时,可以要求 ChatGPT 为您识别并翻译,然后该 AI 会与您对话。
如果这听起来很熟悉,那是因为谷歌镜头、谷歌助手以及最近推出的谷歌 Gemini 都已经实现了这一点。ChatGPT 也已经能够做到,尽管不是通过单一界面实现。
据报道,与独立的转录和文本转语音模型相比,该新模型能更快、更准确地解读图像和音频。The Information 声称,该模型“理论上”可以帮助学生学习数学或翻译现实世界中的标志,并且能够帮助客服代表“更好地理解来电者的语调,或判断他们是否在讽刺”。
简而言之,这是 Gemini(以及谷歌助手和苹果 Siri)的直接竞争对手。
知情人士透露,该模型在“回答某些类型问题”上优于 GPT-4 Turbo,但仍可能自信地犯错。
另请阅读:自动驾驶汽车如何工作?
另请阅读:OpenAI 通过技术合作打击虚假信息
关于 OpenAI 的推测
开发者 Ananay Arora 分享了上述通话相关代码的屏幕截图,暗示 OpenAI 可能也在准备一项新的内置 ChatGPT 功能。Arora 还发现了证据,表明 OpenAI 已搭建了用于实时音频和视频聊天的服务器。
此外,Altman 表示,该公司不会发布新的人工智能搜索引擎。然而,如果 The Information 的报道属实,这可能仍会降低人们对谷歌 I/O 开发者大会的预期。

