• 与 Google 的 Gemini 竞争:MM1 广泛的参数范围可与 Google 最初的 AI 模型版本相媲美。
  • 创新的上下文学习:MM1 能够基于当前对话上下文理解并响应新查询。

Apple 发布了 MM1,新一代多模态模型,能够无缝地解析和交互图像与文本,为更直观、响应更灵敏的Siri 和 iMessage体验奠定了基础。

MM1:开创性的多模态 AI

Apple 推出了 MM1,一套创新的多模态 AI 模型,擅长处理视觉图像和文本数据。这些模型拥有高达 300 亿的参数数量,使其与 Google 的 Gemini 模型的最初版本相提并论。

另请阅读:Anthropic 声称其最新 AI 模型优于 GPT-4

MM1 模型具备解析和执行包含视觉和文本元素的指令的能力。例如,AI 可以通过分析菜单上显示的价格信息来计算两种饮料的总价。

MM1 的一个突出特点是其上下文学习能力。这使得模型能够基于当前对话中存在的上下文信息来理解和处理询问,无需针对每个新查询或任务进行特定的重新训练或微调。

这种上下文学习能力可能使模型能够生成图像的详细描述,或回答关于基于照片提示的内容的问题,即使它之前没有接触过类似的内容。

另请阅读:Apple 将在 WWDC 2024 上展示‘visionOS 进展’

提升用户体验

在提升用户体验方面,Apple 可以利用 MM1 的多模态理解能力来提升其语音助手 Siri 的性能。这将使 Siri 能够提供基于视觉数据(例如基于图像的问题)的答案。此外,MM1 可以帮助理解通过 iMessage 共享的图像和文本消息的上下文,从而为用户提供更相关的回复建议。