- 数据挖掘是计算机科学的一个子领域,它融合了统计学、数据科学、数据库理论和机器学习等多种技术。
- 数据挖掘的应用包括客户画像与细分、购物篮分析和异常检测。
数据挖掘并非由某一个人发明。相反,它随着时间的推移,经由众多不同领域的研究者和实践者贡献而不断演变。数据挖掘的发展涉及统计学、机器学习、人工智能和计算机科学等多方面的进展。在这篇博客中,您可以了解数据挖掘历史上的一些关键人物和发展里程碑。
数据挖掘的起源
约翰·图基(John Tukey)(1915-2000):美国统计学家,图基在探索性数据分析(EDA)方面的贡献具有开创性。他开发的用于汇总和可视化数据的方法为后来的数据挖掘技术提供了重要基础。图基的工作强调了透过原始数据去理解其底层结构和模式的重要性。
统计技术的早期贡献
随着数据挖掘的发展,它大量借鉴了统计方法来分析和解读数据。杰罗姆·弗里德曼(Jerome Friedman)、罗伯特·蒂布希拉尼(Robert Tibshirani)和特雷弗·哈斯蒂(Trevor Hastie):这三位统计学家在分类和回归技术方面的工作显著推动了该领域的发展。他们开发的算法,如分类树和包括提升方法在内的集成方法,成为现代数据挖掘的基本组成部分。他们的贡献为许多从数据中提取见解的技术提供了理论基础。
另请阅读:数据挖掘你需要知道的 5 个基本风险
另请阅读:理解数据挖掘及其在商业中的重要性
机器学习的出现
亚瑟·塞缪尔(Arthur Samuel,1901-1990):常被认为创造了“机器学习”这个术语,塞缪尔在 20 世纪 50 年代关于通过经验改进的算法的工作为许多数据挖掘方法奠定了基础。他在创建能从数据中学习的程序方面的研究,对塑造当今数据挖掘中使用的算法起到了重要作用。
数据库系统与关联规则
20 世纪 90 年代,数据库系统和算法取得了显著进步,这对数据挖掘实践产生了巨大影响。拉凯什·阿格拉瓦尔(Rakesh Agrawal)、托马斯·伊米林斯基(Tomasz Imielinski)和阿伦·斯瓦米(Arun Swami):这些研究人员开发了 Apriori 算法,这是一种用于在大型数据库中挖掘关联规则的开创性方法。他们的工作使得企业和研究人员能够发现数据集中变量之间的关系,例如找出哪些产品经常被一起购买。这一发展成为了数据挖掘,尤其是购物篮分析领域的基石。
现代数据挖掘:领域的形式化
随着数据挖掘的不断演进,人们努力将其技术和方法正式化和标准化。韩家炜(Jiawei Han)和米歇尔·坎伯(Micheline Kamber):他们影响深远的教科书《数据挖掘:概念与技术》已成为该领域的经典。韩和坎伯的工作帮助综合和阐明了数据挖掘的方法和应用,使学生和专业人士都能接触到它。他们的贡献全面概述了数据挖掘技术和最佳实践。

