科技巨头腾讯于 12 月 14 日在北京国家会议中心举办了 Hi Tech Day 和 2023 数字开放万物大会,主题为“智能涌现,开放万物”。蒋春雨表示,中国的人工智能发展迫切需要可训练的高质量数据集。蒋春雨透露,一份关于人工智能数据治理的白皮书即将发布,以建立该领域的方法和规则体系。中国正在加速数字化转型,缩小数字鸿沟,大力支持数据、云计算、人工智能和量子计算等新技术的应用。科技巨头腾讯于 12 月 14 日在北京国家会议中心举办了 Hi Tech Day 和 2023 数字开放万物大会,主题为“智能涌现,数字开放万物”,邀请各界大咖共同探讨人工智能的发展趋势。会上,中国信息通信研究院云数据与区块链部主任蒋春雨发表了题为“人工智能数据治理引发思考”的演讲。高质量的大数据库是下一个进化目标。他表示:“市场上可训练的高质量数据集并不多,特别是在中文语境下,许多高质量数据被隐藏起来。我们迫切需要找到一种市场化、开放的模型,或者哪种模型能够释放数据让所有人使用。”蒋春雨,中国信息通信研究院云数据与区块链部主任。自 2018 年以来,通用人工智能引领技术浪潮。各方全力以赴,投入资金进行大模型训练,形成了巨大的竞争态势。然而,蒋春雨认为,国内发展应该着眼于数据增强,不仅在数量上,更在质量上。中国作为天然的数据大国,与其在算法和算力差距不大的领域进行巨额投入的“内卷”,不如提升数据质量,这可能会带来更好的结果。他向观众列举了大模型训练所需的大规模、多样化、高质量数据集:四五年前的
GPT-1 需要 4.8GB 高质量数据,GPT-2 为 40GB,GPT-3 为 570GB,而今年 Meta 推出的大模型数据库规模达到了惊人的 4,000GB。蒋春雨表达了他的担忧:“市场上可训练的高质量数据集并不多,特别是在中文语境下,许多高质量数据被隐藏起来。我们迫切需要找到一种市场化、开放的模型,或者哪种模型能够释放数据让所有人使用。”延伸阅读:Amazon Q AI 助手:AWS 推出革命性的数据查询方法。蒋春雨:数据管理、安全与保护体系亟待建立。蒋春雨提出了当前行业发展的三个问题:数据质量普遍偏低。为了将低质量数据集转化为高质量,蒋春雨强调建立一个数据工程系统与 DevOps 研发运维一体化的体系。从研发交付、数据运维到价值运营,形成完整的数据生产链或供应链,使数据能够有序交付,并逐步串联起来形成生产发布证据,这与过去传统的结构化数据处理不同。他还警告在场的公司,在数据质量改善完成之前不要投入大量时间进行模型训练,一次训练可能花费数千万美元却毫无成效。令人惊讶的是,他的团队正在梳理人工智能训练方法的方法论和框架,完成一份人工智能数据治理白皮书,并在此领域建立一套方法和规则体系。安全和隐私问题。蒋春雨表示:“整个训练过程中涉及大量安全问题和隐私问题,包括执法权、个人信息收集违规、数据传输不安全、数据信息篡改,以及模型存储和传输的不安全。此外,还存在 Prompt
攻击和生成内容违规等问题。为了确保模型生产、使用和运营的全生命周期隐私保护和安全保护,我们需要掌握多种技术,建立适当的规则,并整体配置审计和监控能力。这是一个全新的领域,需要关注和投入以应对日益变化的数据安全和隐私挑战。”生成和合成内容的管理。即使是合成数据也不能有欺诈。因此,真实性和准确性的衡量尤为关键。除此之外,有害性的检测和预防也是一项紧迫任务。目前,许多大模型被报道正是因为生成内容存在问题,如骚扰、暴力和歧视。这些问题必须得到有效控制。另外,对真实性和准确性的要求可以通过规则进行约束;内容生成的要求、监控机制和真实性评估可以通过内容识别和过滤的自动检测结合人工审核来实现;而有害性问题的预防则可以通过对规则的约束、线路预测、经验性隐私评估和隐私攻击测试来有效管理。

