OpenAI 的 ChatGPT 技术在不到一年的时间里迅速走红,并且已经对工作模式和行业未来产生了影响。
OpenAI 的 ChatGPT 技术在不到一年的时间里迅速走红,并且已经对工作模式和行业未来产生了影响。在一些世界领先的公司中,多达一半的员工已经在日常工作中使用这类技术。无数公司已经投资于 AI 领域,竞相推出新产品,尤其是在互联网、教育、游戏和其他增长行业。
众所周知,用于训练大语言模型(LLM)和其他支持 ChatGPT、Stable Diffusion、Midjourney 等产品的转换模型的数据,最初来源于人类。这些来源包括书籍、文章、照片和其他完全由人类原创的作品。
大规模模型的参数规模持续增长,从数十亿、数百亿到数千亿。训练 AI 所需的数据量呈指数级增长,加剧了这一爆炸。以 OpenAI 的 GPT 为例,从 GPT-1 到 GPT-3,训练数据集的大小从 4.5GB 急剧增长到 570GB。
不久前,在 Databricks 举办的 Data+AI 大会上,a16z 创始人马克·安德森认为,过去二十年互联网积累的海量数据是人工智能新浪潮兴起的重要原因。他将数据视为 AI 训练的极佳学习材料来源。
然而,尽管网民在网络上留下了大量有用和无用的数据,但这些数据可能即将见底,无法满足 AI 训练的需求。
人工智能研究与预测组织 Epoch 发表的一篇论文预测,高质量文本数据将在 2023 年至 2027 年之间耗尽。
尽管研究团队承认分析方法存在严重局限性,模型的不准确性也很高,但难以否认 AI 正在以惊人的速度消耗数据集。
最近,来自剑桥大学、牛津大学、多伦多大学等高校的研究人员发表了一篇文章,指出使用 AI 生成的内容来训练 AI 可能导致新模型的崩溃。
研究人员总结道:“从其他模型生成的数据中学习会导致模型崩溃——这是一个退化过程,在这个过程中,模型会随着时间的推移忘记真实的底层数据分布。即使在理想的长期训练情况下,这一过程也是不可避免的。”
为什么使用“生成数据”训练 AI 会导致模型崩溃?有没有办法防止呢?
现阶段,AI 仍然处于对人类思维的原始模仿阶段,其核心仍然是一个统计程序。研究人员认为,用 AI 生成的内容训练 AI 会产生“统计近似误差”。这是因为在统计过程中,概率较高的内容被进一步加强,而概率较低的内容被不断忽略,这是导致模型崩溃的主要原因。
这会影响模型的性能、可靠性和安全性。研究人员警告说,模型崩溃是一个严重的现象,需要 LLM 开发者和用户的关注。“我们相信,这个问题将成为机器学习界未来几年面临的主要挑战之一,”他们表示。
但并非所有希望都已破灭。
第一种方法是数据隔离。为了解决模型崩溃问题,研究团队建议将清洁的人工生成数据源与 AI 生成的内容分开,以防止 AIGC 污染清洁数据。
第二种方法是使用合成数据。实际上,专门为 AI 生成的数据已经广泛用于 AI 训练。对于一些从业者来说,当前对 AI 生成数据导致模型崩溃的担忧可能被夸大了。因此,关键是建立一个有效的系统,以确认 AI 生成数据中的有效部分,并根据训练模型的有效性提供反馈。OpenAI 使用合成数据进行模型训练已在 AI 行业达成共识。
总之,尽管存在人类数据枯竭的问题,但 AI 训练并非没有解决方案。通过数据隔离和使用合成数据,可以有效克服模型崩溃问题,确保 AI 的持续发展。

