- 根据雷丁大学的一项研究,AI 生成的考试答案通常优于真实学生的答卷。
- 在中国,一个 AI 模型在国家考试的语言科目中表现良好,但数学遇到了困难,突显了 AI 在理解细微语言和抽象推理方面的局限性。
我们的观点
最近的一项研究表明,AI 在考试中表现优于真实学生,暴露了传统评估方法的缺陷。虽然 AI 在语言方面表现出色,但在数学和抽象推理方面却遇到困难。这凸显了教育工作者需要重新思考评估策略,并适应受 AI 影响的世界,以维护教育诚信。
——Jasmine Zhang,BTW 记者
发生了什么
来自雷丁大学的最新研究揭示,AI 生成的考试答案通常优于真实学生的答卷,引发了对教育诚信的严重关切。
研究人员使用 AI 工具ChatGPT为心理学本科学位创建虚构的学生答案,发现这些 AI 论文几乎无法被察觉,仅有 6%引起了怀疑。这一发现突显了未被发现的作弊的可能性,并呼吁对评估方法进行紧急改革。
类似的担忧在中国也有所回应,一个 AI 模型在国家高考中接受了评估。虽然 AI 在中文和英语考试中表现良好,但在数学上却遇到困难,产生了令人困惑和误导的答案。这突显了 AI 在理解细微语言和抽象推理方面的局限性。
两项研究相似,但结果不同。这可能是由于两国教育体系的差异、人工智能的水平以及所参加考试的类型所致。
这两项研究都反映出,全球的教育机构需要适应人工智能日益增长的影响力,确保评估系统公平且强大,能够检测和减轻 AI 辅助的作弊行为。
另请阅读:新加坡部长呼吁建立 AI 框架以避免“混乱”的未来
为什么重要
这项最新研究揭示,AI 在大学考试中能够优于真实学生,这是对整个教育系统的警钟。这不仅关乎学术不诚实,更关乎教育的未来。
AI 生成几乎无法察觉的高分考试答案的能力,暴露了我们评估方法的缺陷。我们真的在衡量学生的知识,还是在无意间衡量他们的技术能力?
此外,中国的 AI 高考结果显示,虽然 AI 在语言方面表现出色,但在数学和抽象推理方面却遇到困难。
这种双重性突显了 AI 在教育中的潜力和局限性。教育工作者是时候重新思考传统评估方法,并适应受 AI 影响的世界。或许,更抽象的评估方式更适合未来。
在确保有强大的系统来检测和防止滥用的同时,拥抱 AI 的能力将至关重要。教育的诚信正处于风险之中,我们的应对方式将塑造学习的未来。

