• 苹果发布了一份技术论文,详细介绍了其为 Apple Intelligence 使用的模型,强调其训练数据是负责任地采集的,并且没有使用任何私有用户数据。
  • 它还提到,苹果通过许可证过滤开源代码,并使用公开可用的数据集来训练其 AI 模型,同时采取措施降低模型输出不良内容的风险。

我们的观点
该技术论文描述了其为 Apple Intelligence 开发的 AI 模型的训练过程,明确指出模型是在公开可用和授权数据集上进行训练的,确保没有使用任何私有用户数据,从而强调了其尊重用户隐私和负责任 AI 开发的原则。

-Rae Li,BTW 记者

发生了什么

苹果发布了一份技术论文,其中包含了其为Apple Intelligence开发的 AI 模型的训练过程。在该论文中,苹果驳斥了有关其以道德方面有问题的做法训练 AI 模型的指控,重申其不使用私人用户数据,而是利用公开可用和授权数据。苹果提到其预训练数据集包括出版商授权的数据、经过滤的公开可用或开源数据集,以及由其网络爬虫 Applebot 爬取的公开信息。此外,苹果强调其对用户隐私的保护,明确指出该数据混合不包含任何私有苹果用户数据。

在更多细节中,苹果揭示了其 AFM(Apple Foundation Models)模型的训练数据来源,包括公开可用的网络数据和来自未披露出版商的授权数据。苹果还使用了托管在 GitHub 上的开源代码进行训练,特别是 Swift、Python、C、实体 ive-C、C++、JavaScript、Java 和 Go 代码。为了提高模型的数学技能,苹果特别包含了来自网页、数学论坛、博客、教程和研讨会的数学问题和答案。此外,苹果获取了额外的数据,包括来自人类反馈和合成数据,用以微调 AFM 模型并试图降低不良行为的风险。苹果表示,该模型旨在帮助用户在其苹果产品上执行日常活动,同时遵循苹果的核心价值观和负责任 AI 原则。

另请阅读:苹果零售员工在工会推动下赢得合同

另请阅读:苹果在白宫倡议中承诺 AI 安全

为何重要

该论文表明了苹果如何在保护用户隐私的同时开发和训练其 AI 模型。在当前对数据隐私和安全日益关注的背景下,苹果明确声明其 AI 模型的训练数据不包含任何私有用户数据,有助于增强消费者对苹果产品的信任。

此外,苹果对数据来源透明度和负责任 AI 开发原则的强调,为行业树立了积极的标杆,展示了如何在不受侵犯用户隐私的情况下利用开放和授权数据进行技术创新。苹果对 AI 模型训练细节的披露为技术社区和监管机构提供了重要参考。