- La vision par ordinateur, souvent abrégée CV, est définie comme un domaine d’étude visant à développer des techniques pour aider les ordinateurs à « voir » et comprendre le contenu des images numériques telles que les photographies et les vidéos.
- Elle utilise l’apprentissage automatique, en particulier l’apprentissage profond, et les réseaux de neurones convolutifs pour analyser les données.
La vision par ordinateur est un domaine de l’IA qui utilise l’apprentissage automatique et les réseaux de neurones pour permettre aux ordinateurs et aux systèmes d’extraire des informations significatives à partir d’images numériques, de vidéos et d’autres entrées visuelles. Cela leur permet de formuler des recommandations ou de prendre des mesures en réponse aux défauts ou problèmes qu’ils perçoivent.
Qu’est-ce que la vision par ordinateur ?
La vision par ordinateur applique l’apprentissage automatique aux images et aux vidéos pour comprendre les médias et prendre des décisions basées sur eux. En substance, elle confère aux logiciels et à la technologie la capacité de « voir ».
Si l’IA permet aux ordinateurs de penser, la vision par ordinateur leur permet de voir, d’observer et de comprendre. Bien que la vision par ordinateur fonctionne de manière similaire à la vision humaine, les humains ont l’avantage de l’expérience contextuelle pour distinguer les objets, évaluer les distances, détecter les mouvements ou identifier les anomalies d’image.
Comment fonctionne la vision par ordinateur ?
La vision par ordinateur repose fortement sur les données. Elle analyse les données de manière répétée afin de discerner des motifs et, finalement, de reconnaître des images. Par exemple, entraîner un ordinateur à identifier des pneus automobiles nécessite de lui fournir un grand nombre d’images de pneus et d’articles connexes pour qu’il apprenne à faire la distinction et à identifier correctement les pneus, en particulier ceux sans défauts. Deux technologies clés utilisées à cette fin sont l’apprentissage profond et les réseaux de neurones convolutifs (CNN).
L’apprentissage automatique utilise des modèles algorithmiques qui permettent aux ordinateurs d’apprendre de manière autonome le contexte des données visuelles. Avec suffisamment de données, l’ordinateur apprend à différencier les images par lui-même, plutôt que par une programmation explicite pour la reconnaissance d’images.
Un CNN aide les modèles d’apprentissage automatique ou d’apprentissage profond en décomposant les images en pixels étiquetés ou marqués. En utilisant ces étiquettes, le CNN effectue des convolutions — une opération mathématique combinant deux fonctions pour en produire une troisième — et prédit le contenu qu’il « voit ». Le réseau de neurones affine ses prédictions par des convolutions itératives, améliorant progressivement la précision jusqu’à ce que ses prédictions correspondent à la réalité. De cette manière, il perçoit ou reconnaît les images d’une façon similaire à la perception humaine.
À lire aussi: Explorer la vision par ordinateur à travers la conduite autonome
À lire aussi: Pourquoi la vision par ordinateur est-elle si difficile ?
Histoire de la vision par ordinateur
Pendant environ 60 ans, les scientifiques et les ingénieurs se sont efforcés de développer des méthodes permettant aux machines de percevoir et de comprendre les données visuelles. Les premières expériences en 1959 ont consisté à présenter des séries d’images à des chats par des neurophysiologistes afin d’observer les réponses cérébrales correspondantes.
Les années 1960 ont vu l’émergence de l’IA en tant que discipline académique, marquant le début des efforts pour relever les défis de la vision humaine.
En 1974 est apparue la technologie de reconnaissance optique de caractères (OCR) capable d’identifier du texte quelle que soit la police ou la fonte. De même, la reconnaissance intelligente de caractères (ICR) pouvait déchiffrer du texte manuscrit à l’aide de réseaux de neurones.
En 1982, le neuroscientifique David Marr a établi la nature hiérarchique de la vision et a introduit des algorithmes permettant aux machines de détecter les bords, les coins, les courbes et d’autres formes fondamentales.
Vers l’an 2000, l’accent s’est déplacé vers la reconnaissance d’objets, aboutissant au lancement d’applications de reconnaissance faciale en temps réel en 2001. Tout au long des années 2000, la normalisation de l’étiquetage et de l’annotation des ensembles de données visuelles a gagné en importance.

