• 成功的 AI 模型训练始于高质量的数据,这些数据能够准确且一致地反映真实世界和真实情境。
  • 使用过于宽泛的数据集、过于复杂的算法或错误的模型类型,可能导致系统仅仅处理数据,而不是学习和改进。

从根本上说,AI 利用数据进行预测。这种能力可以驱动流媒体服务上的“你可能也喜欢”提示,但它也支撑着能够理解自然语言查询并预测正确答案的聊天机器人,以及通过查看照片并使用面部识别来建议照片中人物的应用程序。然而,要实现这些预测,需要有效的 AI 模型训练,而依赖于 AI 的新应用可能需要略微不同的学习方法。

准备数据

成功的AI 模型训练始于高质量的数据,这些数据能够准确且一致地反映真实世界和真实情境。没有它,随之而来的结果将毫无意义。为了成功,项目团队必须筛选合适的数据源,构建手动和自动数据收集的流程和基础设施,并建立适当的清理/转换流程。

另请阅读:数据管理的 4 大挑战

另请阅读:数据科学中的 NLP 技术

选择训练模型

如果说数据筛选为项目奠定了基础,那么模型选择则构建了机制。这一决策的变量包括定义项目参数和目标、选择架构以及挑选模型算法。由于不同的训练模型需要不同数量的资源,这些因素必须与计算需求、截止日期、成本和复杂性等实际元素进行权衡。

进行初始训练

就像上面教孩子区分猫和狗的例子一样,AI 模型训练从基础开始。使用过于宽泛的数据集、过于复杂的算法或错误的模型类型,可能导致系统仅仅处理数据,而不是学习和改进。在初始训练期间,数据科学家应专注于在预期参数范围内获得结果,同时留意那些可能破坏算法的错误。通过不贪多求快的训练,模型可以稳步、有把握地逐步改进。

验证训练

一旦模型通过初始训练阶段,它就能在关键标准上可靠地产生预期结果。训练验证是下一个阶段。在这一阶段,专家们着手适当地挑战模型,以揭示算法中的问题、意外或漏洞。该阶段使用一组与初始阶段不同的数据集,通常比训练数据集具有更广的覆盖范围和更高的复杂性。

当数据科学家使用这些数据集进行训练时,他们会评估模型的性能。虽然输出准确性很重要,但过程本身同样关键。这一过程的首要任务包括精确率(准确预测的百分比)和召回率(正确分类的百分比)等变量。在某些情况下,结果可以用度量值来评判。例如,F1 值是一个分配给分类模型的度量,它整合了不同类型假阳性/假阴性的权重,从而能够更全面地解释模型的成功。

测试模型

在使用经过筛选且适合目的的数据集对模型进行验证后,可以使用真实数据来测试性能和准确性。这一阶段的数据集应来自真实世界场景,这个步骤就像是“去掉辅助轮”,让模型独立运行。如果模型在使用测试数据时能够提供准确——更重要的是,符合预期的——结果,那么它就可以上线了。如果模型在任何方面表现出不足,训练过程将重复进行,直到模型达到或超过性能标准。