《OpenAI 现在能够进行语音和图像识别》受到 BTW Media 的关注,因为公开证据将其与互联网基础设施、治理、运营依赖性,或市场可见性联系起来。
《OpenAI 现在能够进行语音和图像识别》被追踪为互联网基础设施生态系统中的互联网基础设施机构。
《OpenAI 现在能够进行语音和图像识别》与网络运营、治理、依赖性映射或市场结构有公开来源的相关性。
《OpenAI 现在能够进行语音和图像识别》被追踪为互联网基础设施生态系统中的互联网基础设施机构。
市场 构成这份档案的证据框架。
图片来源:Rawpixel via Freepik OpenAI 推出了一系列颠覆性的增强功能,包括语音交互和图像识别。最重要的升级是为 ChatGPT 添加了语音交互功能,用户可以与 AI 进行口头对话。此外,图像识别功能现已上线,用户可以上传图片并提问。这些更新使 ChatGPT Plus 成为语音助理的有力竞争者,但也带来了挑战。
OpenAI 现在能够进行语音和图像识别 在这份档案中具有中等影响。
多个公开来源
OpenAI 推出了一系列颠覆性的增强功能,包括两个突出特性:语音交互和图像识别。
真正与 ChatGPT 对话
最重要的升级之一是为 ChatGPT 添加了语音交互功能,使用户能够与 AI 进行口头对话。用户可以从五种逼真的合成语音中进行选择,每种语音都旨在提供自然的对话体验。这就像与聊天机器人进行实时电话交谈一样,ChatGPT 能迅速回应您的口头提问。
底层技术依赖于两个不同的模型。OpenAI 的 Whisper 是一个已有的语音转文本模型,它将口语转换为文本,然后输入给 ChatGPT。反之,一个新的文本转语音模型则将 ChatGPT 的回应转换为语音。
在最近的一次演示中,OpenAI 的产品经理 Joanne Jang 展示了各种合成语音。这些语音是通过在雇佣演员的语音上训练文本转语音模型而精心制作的。OpenAI 甚至设想未来用户可以创建自己的自定义语音。制作这些语音的主要标准是确保它们悦耳且易于聆听。
这一进步不仅限于 ChatGPT,OpenAI 正将其文本转语音模型分享给其他公司,包括 Spotify。例如,Spotify 正在使用这种合成语音技术,利用播主声音的合成版本将名人播客翻译成多种语言。
图像识别功能现已上线
ChatGPT 的另一项突破性新增功能是图像识别。OpenAI 在推出 GPT-4 时就曾暗示这一功能,现在它允许用户将图像上传到应用程序,并就图像内容进行查询。这意味着您可以向 ChatGPT 询问有关视觉内容的问题。
在一次实际演示中,从事 GPT-4 工作的科学家 Raul Puri 上传了一张数学作业题的照片,并向 ChatGPT 寻求解决方案。令人印象深刻的是,ChatGPT 提供了正确的解题步骤。用户还利用此功能,通过上传屏幕截图并寻求指导来解决技术问题。
此外,ChatGPT 的图像识别功能已被 Be My Eyes 应用采用,该应用旨在帮助视力受损人士。用户可以上传图像并要求聊天机器人描述它们,从而提供了一种新的独立性。
然而,OpenAI 深刻意识到这些更新带来的潜在风险,尤其是在结合不同 AI 模型时。例如,用户不能询问包含个人隐私的照片。该公司承认需要保持警惕以防止滥用,并致力于保护用户和非用户免受伤害。
ChatGPT 面临的挑战
这些更新标志着 OpenAI 的实验模型迅速演变为实用产品。ChatGPT Plus 是该应用的高级版本,结合了 GPT-4 和 DALL-E,使其成为 Siri、Google Assistant 和 Alexa 等语音助手的有力竞争对手。曾经只有少数软件开发者才能使用的功能,现在只需每月 20 美元的订阅费即可向所有人开放。
随着 ChatGPT 将其功能扩展到“看见、听见和说话”,需要考虑一些挑战。语音识别可能对带有非主流口音的用户造成可及性问题。此外,合成语音具有社会和文化影响,需要进一步探索。
然而,OpenAI 声称已经解决了主要问题,并认为这些更新可以安全发布。完善和扩展 AI 功能的旅程仍在继续,ChatGPT 一路领先。虽然确实存在挑战和问题需要解决,但这一最新更新是朝着创建更强大、更具互动性的 AI 助手迈出的重要一步。
信号简报
- 信号: OpenAI 现在能够进行语音和图像识别
- 信号类型: 相关主题
- 地区: 全球
- 市场类别: 全球云服务趋势
运营面
- 公开来源需要说明受影响方、运营面和市场暴露,才能把这张趋势图视为完整。
市场背景
- 运营相关性: 中等
- 时间范围: 下一季度
关注事项
- 关注官方声明、监管更新、客户或合作伙伴暴露,以及后续披露。
会员简报
深度趋势背景
使用对应会员级别登录后,可解锁完整简报和来源说明。

