- 本文将讨论各种计算机视觉类型,例如图像分类、对象定位、对象检测和图像分割。
- 计算机视觉被广泛应用于改进商业活动、交通、医疗保健等多个领域。
人工智能(AI)是一个广泛的研究和讨论话题。本文将介绍各种计算机视觉类型,包括图像分类、对象定位、对象检测和图像分割。你对哪种特定类型感兴趣?
计算机视觉的类型
计算机视觉是 AI 的一个子领域,它使计算机和系统能够处理视觉数据(如图像和视频),并生成用于检测、跟踪和分类对象的模式。根据机器学习训练的方法,计算机视觉可以属于 AI 的不同子领域。以下是计算机视觉的一些类型:
1. 图像分类
图像分类,又称图像识别,是计算机视觉中的一项基本任务,涉及为给定图像关联一个或多个标签。在单标签分类中,目标是从预定义的类别集合中为图像分配单个标签。在多标签分类中,图像可以同时关联多个标签。
2. 对象定位
对象定位是识别图像或视频中对象位置的过程,通常使用边界框。这是计算机视觉中一项常见任务,其中图像中仅出现单个对象。
3. 对象检测
对象检测扩展了图像分类,不仅对对象进行分类,还检测它们在图像中的位置并绘制边界框。对象检测旨在找到图像中的所有对象及其边界。
4. 图像分割
图像分割涉及将图像划分为片段或区域,以简化对象在其帧内的表示。这是在像素级别完成的,以精确勾勒对象的边界并为每个分割区域分配标签。
另请阅读:计算机视觉是数据科学吗?
另请阅读:什么是 3D 计算机视觉?
人类视觉与计算机视觉
研究人员从人类视觉中汲取灵感来开发计算机视觉。人类视觉系统的结构和功能,如视觉皮层中神经元的排列和对象识别机制,启发了用于图像处理和模式识别的神经网络和算法设计。
人类视觉涉及眼睛捕捉光线并向大脑发送信号进行解释。这是一个复杂的过程,包括视觉信息的感知、识别和解释。相比之下,计算机视觉使计算机能够通过数字图像或视频来解释和理解视觉世界。
计算机视觉应用
尽管计算机视觉技术随着持续的研究而不断发展,但已经建立了一些实际应用:
- 谷歌翻译:通过使用手机摄像头扫描外语标志,谷歌翻译能够即时将内容翻译成用户的语言。截至 2022 年,该应用可以识别并翻译 133 种语言。
- 自动驾驶汽车:计算机视觉使自动驾驶车辆能够解读安装在车辆上的摄像头捕捉到的视觉数据。这些数据帮助车辆识别汽车、交通标志、行人、灯光以及环境中的其他物体。特斯拉的Autopilot功能(新款车型标配)就是该技术实际应用的一个例子。

