L'importance de l'apprentissage profond en vision par ordinateur se reflète dans ses puissantes capacités d'apprentissage et de représentation des caractéristiques, son approche d'apprentissage de bout en bout, sa demande de données à grande échelle et de ressources de calcul, ainsi que sa large gamme de scénarios d'application. La classification d'images basée sur l'apprentissage profond améliore les moteurs de recherche, la modération de contenu et la catégorisation de produits sur les plateformes en ligne.
Les techniques d'identification d'objets et de reconnaissance faciale basées sur l'apprentissage profond améliorent la précision et l'efficacité de tâches telles que la détection en temps réel, la surveillance de sécurité, le contrôle d'accès et les systèmes automatisés. L'apprentissage profond et la vision par ordinateur sont deux domaines d'intérêt majeurs dans le domaine de l'intelligence artificielle aujourd'hui.
L'apprentissage profond, en tant que méthode d'apprentissage automatique, a connu un grand succès dans les domaines de l'image, de la parole et du traitement du langage naturel grâce à ses puissantes capacités d'apprentissage et de représentation des caractéristiques. La vision par ordinateur, quant à elle, est une branche importante de l'intelligence artificielle, visant à permettre aux ordinateurs de « lire » les images et les vidéos comme les humains et de répondre en conséquence. Lire aussi: Qui est Demis Hassabis ?
Co-fondateur de DeepMind Importance de l'apprentissage profond dans la vision par ordinateur L'apprentissage profond est une approche de l'apprentissage automatique dont l'idée centrale est d'apprendre des représentations de caractéristiques des données en construisant des modèles de réseaux de neurones à plusieurs niveaux.
Par rapport aux algorithmes d'apprentissage automatique traditionnels, les modèles d'apprentissage profond ont des capacités expressives plus puissantes et peuvent apprendre automatiquement des représentations de caractéristiques complexes à partir des données brutes et utiliser ces représentations pour effectuer des tâches telles que la classification, la régression et le regroupement.
Les modèles d'apprentissage profond comprennent généralement une couche d'entrée, plusieurs couches cachées et une couche de sortie, où les poids de connexion entre les couches cachées sont automatiquement appris à partir des données d'entraînement et les paramètres du modèle sont continuellement ajustés pour minimiser la fonction de perte via un algorithme de rétropropagation. La vision par ordinateur est une branche du domaine de l'intelligence artificielle qui vise à permettre aux ordinateurs d'acquérir, de comprendre et d'interpréter des informations à partir d'images et de vidéos.
L'objectif de la vision par ordinateur est de permettre aux ordinateurs de « voir » les images et les vidéos comme les humains, et d'en obtenir des informations utiles. Les principales tâches de la vision par ordinateur comprennent la classification d'images, la détection de cibles, la segmentation d'images, l'estimation de pose, l'estimation de profondeur, etc. L'apprentissage profond est devenu l'une des technologies clés qui stimulent le développement rapide du domaine de la vision par ordinateur.
Les modèles d'apprentissage profond ont de puissantes capacités d'apprentissage et de représentation des caractéristiques et peuvent apprendre automatiquement des représentations de caractéristiques complexes à partir de données brutes, en particulier les réseaux de neurones convolutifs (CNN), qui peuvent apprendre automatiquement des représentations de caractéristiques adaptées à la tâche, améliorant ainsi considérablement la précision et la généralisation des tâches de vision par ordinateur.
Les modèles d'apprentissage profond peuvent effectuer un apprentissage de bout en bout directement à partir de données brutes, éliminant la nécessité de concevoir manuellement des extracteurs de caractéristiques et simplifiant le processus des tâches de vision par ordinateur. Les modèles d'apprentissage profond nécessitent généralement une grande quantité de données annotées pour l'entraînement et nécessitent généralement des ressources de calcul à grande échelle pour l'entraînement et l'optimisation des modèles.
L'apprentissage profond a connu un grand succès dans les tâches de vision par ordinateur telles que la classification d'images, la détection de cibles et la génération d'images, et a été largement utilisé dans l'analyse d'images médicales, la surveillance intelligente, la conduite autonome et la réalité virtuelle. Lire aussi: Comment utiliser Google DeepMind dans différents domaines Scénarios d'apprentissage profond en vision par ordinateur 1. Classification d'images Le principe de l'application de classification d'images implique trois étapes principales: extraction de caractéristiques, entraînement du modèle et inférence.
Tout d'abord, l'extraction de caractéristiques est l'étape clé, via des modèles tels que le réseau de neurones convolutif (CNN), le réseau peut extraire progressivement les caractéristiques locales et globales de l'image pour obtenir une représentation abstraite du contenu de l'image.
Ensuite, la phase d'entraînement du modèle utilise des données d'entraînement avec des étiquettes, mesure la différence entre la sortie du modèle et les étiquettes réelles en définissant une fonction de perte, et utilise des algorithmes de rétropropagation et des optimiseurs pour ajuster continuellement les paramètres du modèle afin que le modèle puisse apprendre des représentations de caractéristiques et des lois de classification appropriées.
Enfin, dans la phase d'inférence, le modèle entraîné est utilisé pour classer la nouvelle image de contexte documentée publiquement et sélectionner la catégorie avec la probabilité la plus élevée comme résultat de classification de l'image. Les moteurs de recherche tels que Google et Bing utilisent des algorithmes d'apprentissage profond pour fournir des résultats de recherche précis et pertinents basés sur des requêtes d'images. De même, les plateformes de révision de contenu telles que Facebook et YouTube utilisent l'apprentissage profond pour signaler et supprimer automatiquement le contenu inapproprié.
Les plateformes d'achat en ligne utilisent généralement des techniques de classification d'images pour identifier automatiquement les images de produits et les classer dans des catégories de produits appropriées, améliorant ainsi la précision de la recherche de produits et l'expérience utilisateur. Par exemple, la fonction de recherche de produits d'Amazon utilise la technologie de classification d'images pour identifier les objets et les caractéristiques dans les images de produits et recommander automatiquement des produits pertinents aux utilisateurs. Apprentissage profond en vision par ordinateur 2.
Identification d'objets La première étape nécessite un réseau de proposition de régions (RPN), qui fournit plusieurs régions candidates contenant des objets significatifs. La deuxième étape consiste à envoyer les propositions de régions à la structure de classification neuronale, généralement l'algorithme de clustering hiérarchique basé sur RCNN ou le regroupement de région d'intérêt (ROI) dans Fast RCNN. Ces procédures sont très précises mais très lentes. Avec la nécessité de détection d'objets en temps réel, des architectures de détection d'objets en une étape telles que YOLO (you only look once) et RetinaNet ont émergé.
Celles-ci combinent les étapes d'identification et de classification en régressant les hypothèses de délimitation. Chaque boîte englobante est représentée par quelques coordonnées, ce qui facilite la combinaison des étapes de détection et de classification et accélère le traitement. 3. Reconnaissance faciale La première étape de la reconnaissance faciale est la détection de visage, qui consiste à localiser précisément la position d'un visage dans une image à partir d'une image ou d'une vidéo.
Les techniques d'apprentissage profond peuvent réaliser une détection précise des visages dans les images grâce à des modèles tels que les réseaux de neurones convolutifs (CNN). Les modèles de détection de visage typiques incluent R-CNN, Fast R-CNN, Faster R-CNN et YOLO. Ces modèles réalisent une localisation précise de la position du visage en faisant glisser une fenêtre de taille fixe sur l'image, puis en utilisant des réseaux de neurones convolutifs pour l'extraction de caractéristiques et la classification. Après la détection du visage, l'étape suivante est l'extraction de caractéristiques du visage détecté.
Des modèles d'apprentissage profond pré-entraînés (tels que ResNet et MobileNet) sont généralement utilisés comme extracteurs de caractéristiques, et la représentation abstraite des caractéristiques du visage dans l'image est obtenue en alimentant l'image du visage dans ces modèles. Enfin, la correspondance faciale est effectuée pour reconnaître les visages en comparant les représentations de caractéristiques faciales extraites. Les méthodes de correspondance faciale incluent la distance euclidienne et la similarité cosinus.
Habituellement, le système stocke à l'avance certains vecteurs de caractéristiques faciales connus, puis compare les caractéristiques faciales à reconnaître avec les caractéristiques connues, et détermine si la correspondance est réussie en fixant un seuil. En pratique, la technologie de reconnaissance faciale est largement utilisée dans la surveillance de sécurité, les systèmes de contrôle d'accès, le paiement par visage, le déverrouillage par visage et d'autres domaines.

