- 劳伦斯·罗伯茨和贝拉·朱尔兹等先驱的早期贡献奠定了深刻影响计算机视觉发展的基本原理和技术。
- 计算机视觉从 20 世纪 70 年代和 80 年代的基础理论,到 20 世纪 90 年代和 21 世纪头十年神经网络和深度学习的革命性进展,这一演变极大地塑造了该学科,催生了突破性的应用和方法论,这些已成为现代人工智能和图像处理的组成部分。
- 21 世纪见证了计算机视觉的显著繁荣,深度学习和神经网络在图像分类、目标检测、分割、自然语言处理等领域的突破性进展和成就,彻底改变了这些领域,展示了视觉理解与人工智能的深度融合。
计算机视觉的发明和发展并非由单一人物完成,而是由许多学者、研究人员和工程师在长期共同努力下逐渐形成的。该领域涉及多学科的交叉,包括计算机科学、数学、物理学、工程学和神经科学。
另请阅读: RoboVision 获得 4200 万美元以提升制造业中的 AI 集成度
计算机视觉的起源和早期发展
计算机视觉的根源可以追溯到 20 世纪 50 年代和 60 年代,当时电子计算机的出现和发展为图像处理和模式识别奠定了基础。
劳伦斯·罗伯茨
劳伦斯·罗伯茨被认为是计算机视觉的先驱之一。他在 1963 年的博士论文《三维固体的机器感知》中引入了许多计算机视觉的基本概念和技术。他的工作涉及如何从二维图像中提取三维信息,这是计算机视觉的核心问题之一。罗伯茨的研究为后来的三维重建和立体视觉研究奠定了基础。
贝拉·朱尔兹
贝拉·朱尔兹是一位视觉心理学家,他在 20 世纪 60 年代对随机点立体图的研究对计算机视觉产生了重大影响。朱尔兹通过实验展示了人类视觉系统如何从随机点图像中感知深度,这对理解立体视觉和深度感知具有重要意义。
另请阅读: 英特尔开发出最大的神经形态计算机系统
20 世纪 70 年代和 80 年代的发展
在 20 世纪 70 年代和 80 年代期间,计算机视觉作为一门学科初具雏形,许多关键概念和技术在这一时期得到发展和推广。
大卫·马尔
大卫·马尔是计算机视觉领域的另一位重要人物。他在 20 世纪 70 年代和 80 年代提出了一系列关于视觉处理的理论,试图解释人类视觉系统如何处理和理解视觉信息。马尔在其 1982 年出版的《视觉:人类视觉信息的表示与处理的计算研究》一书中阐述了他的理论,其中包括视觉信息处理的层次模型。
他提出视觉处理可分为三个主要阶段:初始素描、2.5 维素描和三维模型表示。马尔的工作对计算机视觉和神经科学都产生了深远影响。
约翰·霍普菲尔德和大卫·马尔
约翰·霍普菲尔德和大卫·马尔在模式识别和神经网络方面的工作也对计算机视觉产生了重大影响。霍普菲尔德网络是一种早期的神经网络模型,展示了如何通过神经计算解决模式识别问题。这些研究为计算机视觉中的图像识别和分类任务提供了理论基础。
计算机视觉的现代发展
自 20 世纪 90 年代和 21 世纪头十年以来,计算机视觉在算法、计算能力和应用领域都取得了长足进步。
金出武雄
金出武雄是计算机视觉和机器人领域的杰出学者。他开发了多个重要的计算机视觉系统和算法,包括面部识别、立体视觉和移动机器人导航。金出武雄的工作在学术界和工业界都产生了广泛影响,他是卡内基梅隆大学计算机科学系和机器人研究所的重要成员。
大卫·福赛斯和让·庞塞
大卫·福赛斯和让·庞塞合著了《计算机视觉:现代方法》,这是计算机视觉领域一本重要的教科书,内容涵盖从基础理论到实际应用的广泛主题。该书被广泛用于计算机视觉的教学和研究,是该领域的经典之作。
杰弗里·辛顿、杨立昆和约书亚·本吉奥
杰弗里·辛顿、杨立昆和约书亚·本吉奥在神经网络和深度学习方面的工作彻底改变了计算机视觉。他们的工作使卷积神经网络(CNN)在图像分类、目标检测和语义分割等任务中取得了成功。特别是,AlexNet 在 2012 年 ImageNet 竞赛中的胜利标志着深度学习在计算机视觉应用中的突破。

计算机视觉发展热潮
自 21 世纪初以来,计算机视觉领域进入了一个繁荣时期。在此期间,计算机视觉取得了许多惊人的成果,如下面时间线所示:
2012 年,AlexNet 在 ImageNet 图像分类竞赛中一鸣惊人,采用深度卷积神经网络(CNN)击败所有其他参赛者,将错误率降低了 10 个百分点。
2014 年,GoogLeNet和 VGGNet(视觉几何组)在 ImageNet 图像分类竞赛中再创佳绩,使用更深、更复杂的 CNN 结构进一步提高分类性能。
2015 年,ResNet(残差网络)在 ImageNet 图像分类竞赛中创下新纪录,利用残差连接解决了深度网络训练困难的问题,将错误率降至人类水平以下。
2016 年,YOLO(你只需看一次)和 SSD(单次多框检测器)在目标检测任务中取得突破,采用单阶段 CNN 结构实现了对图像中多个目标的快速准确检测。
2017 年,Mask R-CNN 在目标分割任务中取得突破,利用两阶段 CNN 结构实现了对图像中多个目标的精确分割。
2018 年,BERT(基于变换器的双向编码器表示)在自然语言处理任务中取得突破,利用双向变换器结构实现了对语言的深度理解,为图像和文本的联合处理提供了强大工具。
2019 年,AlphaStar 在《星际争霸 II》游戏中取得突破,利用强化学习和自我对弈训练出的智能体超越了顶尖人类玩家,展示了计算机视觉与决策的高度集成。
2020 年,GPT-3 在自然语言生成方面取得突破,利用 1750 亿参数的变换器结构生成流畅且逻辑清晰的文本,使得图像和文本之间的相互转换成为可能。

