• 计算机视觉(常缩写为 CV)被定义为一个研究领域,旨在开发帮助计算机“看见”并理解数字图像(如照片和视频)内容的技术。
  • 它使用机器学习,特别是深度学习,以及卷积神经网络来分析数据。

计算机视觉是人工智能的一个领域,利用机器学习和神经网络,使计算机和系统能够从数字图像、视频及其他视觉输入中提取有意义的信息。这使它们能够根据感知到的缺陷或问题提出建议或采取行动。

什么是计算机视觉?

计算机视觉将机器学习应用于图像和视频,以理解媒体并据此做出决策。从本质上讲,它赋予了软件和技术“看见”的能力。

如果说人工智能使计算机能够思考,那么计算机视觉则使它们能够看见、观察和理解。虽然计算机视觉的运作方式与人类视觉相似,但人类拥有上下文经验,能够区分物体、判断距离、检测运动或识别图像异常。

计算机视觉如何工作?

计算机视觉高度依赖数据。它反复分析数据以识别模式,并最终识别图像。例如,要训练计算机识别汽车轮胎,需要向其提供大量轮胎及相关物品的图像,以学习区别并准确识别轮胎,特别是没有缺陷的轮胎。用于此目的的两项关键技术是深度学习和卷积神经网络(CNN)。

机器学习使用算法模型,使计算机能够自主地学习视觉数据的上下文。只要数据足够,计算机就能自己学会区分图像,而不是通过显式编程进行图像识别。

CNN 通过将图像分解为带标签或标记的像素来辅助机器学习或深度学习模型。利用这些标签,CNN 执行卷积(一种将两个函数组合以产生第三个函数的数学运算),并预测其“看到”的内容。神经网络通过迭代卷积不断完善其预测,逐渐提高准确性,直到预测与现实相符。通过这种方式,它就像人类一样感知或识别图像。

另请阅读:通过自动驾驶探索计算机视觉

另请阅读:计算机视觉为何如此困难?

计算机视觉的历史

大约 60 年来,科学家和工程师一直努力开发让机器感知和理解视觉数据的方法。1959 年的最初实验涉及神经生理学家向猫展示一系列图像,以观察相应的大脑反应。

20 世纪 60 年代见证了人工智能作为一门学科的出现,标志着解决人类视觉问题的努力的开端。

1974 年推出了光学字符识别(OCR)技术,能够识别文本,无论字体或字样如何。同样,智能字符识别(ICR)可以利用神经网络解读手写文本。

1982 年,神经科学家大卫·马尔(David Marr)确立了视觉的层次结构,并引入了使机器能够检测边缘、角落、曲线和其他基本形状的算法。

到 2000 年,重点转向物体识别,最终在 2001 年首次推出了实时人脸识别应用。在整个 2000 年代,标注和注释视觉数据集的标准方法变得突出。