什么是深度学习中的计算机视觉？

计算机视觉（CV）是研究机器如何理解图像和视频内容的学科。通过分析视觉数据中的特定元素，计算机视觉算法能够实现预测或决策任务。

深度学习现在是计算机视觉的主要方法。本文探讨了深度学习在计算机视觉中的各种应用，重点关注卷积神经网络（CNNs）的优势。CNNs 提供了一种分层结构，使神经网络能够精确定位图像中最重要的特征，从而提高分析的准确性和效率。

另请阅读： 什么是超级计算机的例子？

什么是计算机视觉？

计算机视觉是机器学习的一个子集，专注于解读和理解图像和视频，使计算机能够“看见”并执行类似于人类的视觉任务。

计算机视觉模型旨在通过识别训练过程中学习到的特征和上下文来分析视觉数据。这种能力使模型能够解读图像和视频，并将其见解应用于预测或决策过程。

虽然两者都处理视觉数据，但区分图像处理和计算机视觉很重要。图像处理涉及修改或增强图像以生成新的输出，例如调整亮度或分辨率、模糊敏感细节或裁剪。与计算机视觉不同，图像处理不一定涉及内容识别。

另请阅读： 英特尔开发出最大的神经形态计算机系统

深度学习是机器学习的一个子集，通过实现更准确、更高效的图像分析，彻底改变了计算机视觉。深度学习的核心是人工神经网络，这是一种由人脑启发的复杂互连节点网络。这些神经网络通过大规模数据集进行训练，直接从原始图像数据中学习复杂的模式和特征，无需显式编程。

深度学习技术的发展使得更准确、更复杂的计算机视觉模型得以创建。随着这些技术的发展，计算机视觉应用的整合变得越来越有用。以下是深度学习用于改进计算机视觉的一些方式。

通过计算机视觉技术进行目标检测通常有两种类型。两步目标检测的第一步需要区域提议网络（RPN），提供一系列可能包含重要对象的候选区域。第二步是将区域提议传递给神经分类架构，通常是基于 RCNN 的层次分组算法，或在 Fast RCNN 中进行感兴趣区域（ROI）池化。这些方法相当准确，但可能非常慢。

出于对实时目标检测的需求，出现了单步目标检测架构，例如 YOLO、SSD 和 RetinaNet。这些架构通过回归边界框预测，将检测和分类步骤合二为一。每个边界框仅用几个坐标表示，从而更容易合并检测和分类步骤，并加快处理速度。

图像定位涉及精确指出图像中对象的位置，通常用边界框表示。目标检测在此基础上不仅定位对象，还对其进行分类。这项任务严重依赖于卷积神经网络（CNNs）。

定位和目标检测对于识别复杂场景中的众多对象至关重要，使其能够应用于解读医学诊断图像等场景。

语义分割，也称为对象分割，与目标检测的不同之处在于，它精确识别与单个对象相关联的像素，无需边界框。这种方法能够更精确地描绘图像对象。

语义分割通常使用全卷积网络（FCN）或 U-Net 来实现。

语义分割的一个普遍应用是训练自动驾驶汽车。该技术使研究人员能够利用具有准确定义对象边界的街道或高速公路图像，从而为自主导航系统提供稳健的训练。

姿态估计是一种用于确定人体或物体图片中关节位置以及这些关节排列所指示信息的方法。它可用于 2D 和 3D 图像。用于姿态估计的主要架构是 PoseNet，它基于 CNNs。

姿态估计用于确定图像中可能出现的人体部位，并可用于生成逼真的人体姿态或动作。通常，这种功能用于增强现实、机器人动作镜像或步态分析。