OpenAI 或将发布全新多模态 AI 模型，直接挑战谷歌助手与 Gemini

OpenAI一直在向部分客户展示一款能够识别物体并与你对话的新型多模态 AI 模型，据新闻网站 The Information 最近报道。该媒体声称从匿名消息源得知，并推测这可能是该公司即将在今天晚些时候发布内容的预览。

新型多模态 AI 模型

多模态指的是 AI 能够处理文本以外的多种输入形式。这款所谓的数字助手能够连接摄像头，处理来自外部世界的数据，然后根据观察到的情况向你提供更多详细信息。例如，当您将摄像头对准一块用陌生语言写成的路标时，可以要求 ChatGPT 为您识别并翻译，然后该 AI 会与您对话。

如果这听起来很熟悉，那是因为谷歌镜头、谷歌助手以及最近推出的谷歌 Gemini 都已经实现了这一点。ChatGPT 也已经能够做到，尽管不是通过单一界面实现。

据报道，与独立的转录和文本转语音模型相比，该新模型能更快、更准确地解读图像和音频。The Information 声称，该模型“理论上”可以帮助学生学习数学或翻译现实世界中的标志，并且能够帮助客服代表“更好地理解来电者的语调，或判断他们是否在讽刺”。

简而言之，这是 Gemini（以及谷歌助手和苹果 Siri）的直接竞争对手。

知情人士透露，该模型在“回答某些类型问题”上优于 GPT-4 Turbo，但仍可能自信地犯错。

开发者 Ananay Arora 分享了上述通话相关代码的屏幕截图，暗示 OpenAI 可能也在准备一项新的内置 ChatGPT 功能。Arora 还发现了证据，表明 OpenAI 已搭建了用于实时音频和视频聊天的服务器。

此外，Altman 表示，该公司不会发布新的人工智能搜索引擎。然而，如果 The Information 的报道属实，这可能仍会降低人们对谷歌 I/O 开发者大会的预期。