• La vision par ordinateur est un domaine de l'intelligence artificielle qui permet aux machines d'interpréter et de comprendre les informations visuelles de l'environnement qui les entoure.
  • Elle permet aux ordinateurs de percevoir le monde à travers des images ou vidéos numériques, tout comme les humains le font avec leurs yeux.
  • En exploitant des algorithmes avancés et des modèles d'apprentissage profond, les ordinateurs peuvent reconnaître des objets, détecter des motifs et prendre des décisions intelligentes basées sur des données visuelles.

La vision par ordinateur (CV) est l'étude de la manière dont les machines comprennent le contenu des images et des vidéos. En analysant des éléments spécifiques des données visuelles, les algorithmes de vision par ordinateur permettent des tâches de prédiction ou de prise de décision.

L'apprentissage profond est désormais l'approche prédominante pour la vision par ordinateur. Cet article examine diverses applications de l'apprentissage profond en vision par ordinateur, en mettant l'accent sur les avantages des réseaux de neurones convolutifs (CNN). Les CNN offrent une structure en couches qui permet aux réseaux de neurones d'identifier les caractéristiques les plus significatives d'une image, améliorant ainsi la précision et l'efficacité de l'analyse.

À lire également: Qu'est-ce qu'un exemple de superordinateur ?

Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur, un sous-ensemble de l'apprentissage automatique, se concentre sur l'interprétation et la compréhension des images et des vidéos pour permettre aux ordinateurs de « voir » et d'effectuer des tâches visuelles semblables à celles des humains.

Les modèles de vision par ordinateur sont conçus pour analyser les données visuelles en identifiant les caractéristiques et le contexte appris lors de l'entraînement. Cette capacité permet aux modèles d'interpréter les images et les vidéos, en appliquant leurs connaissances à des processus de prédiction ou de prise de décision.

Bien que les deux traitent de données visuelles, il est important de distinguer le traitement d'images de la vision par ordinateur. Le traitement d'images consiste à modifier ou à améliorer des images pour générer un nouveau résultat, comme ajuster la luminosité ou la résolution, flouter des détails sensibles ou recadrer. Contrairement à la vision par ordinateur, le traitement d'images n'implique pas nécessairement l'identification du contenu.

À lire également: Intel développe le plus grand système informatique neuromorphique

Le rôle de l'apprentissage profond

L'apprentissage profond, un sous-ensemble de l'apprentissage automatique, a révolutionné la vision par ordinateur en permettant une analyse d'images plus précise et plus efficace. Au cœur de l'apprentissage profond se trouvent les réseaux de neurones artificiels, des réseaux complexes de nœuds interconnectés inspirés du cerveau humain. Ces réseaux de neurones sont entraînés sur de grands ensembles de données pour apprendre des motifs et des caractéristiques complexes directement à partir des données brutes des images, sans nécessiter de programmation explicite.

Utilisations de l'apprentissage profond en vision par ordinateur

Le développement des technologies d'apprentissage profond a permis la création de modèles de vision par ordinateur plus précis et plus complexes. À mesure que ces technologies se développent, l'intégration d'applications de vision par ordinateur devient de plus en plus utile. Voici quelques façons dont l'apprentissage profond est utilisé pour améliorer la vision par ordinateur.

Détection d'objets

Il existe deux types courants de détection d'objets effectués par des techniques de vision par ordinateur. La première étape de la détection d'objets en deux étapes nécessite un réseau de propositions de régions (RPN), fournissant un certain nombre de régions candidates pouvant contenir des objets importants. La deuxième étape consiste à transmettre les propositions de régions à une architecture de classification neuronale, généralement un algorithme de regroupement hiérarchique basé sur RCNN, ou un regroupement de régions d'intérêt (ROI) dans Fast RCNN. Ces approches sont assez précises, mais peuvent être très lentes.

Avec le besoin de détection d'objets en temps réel, des architectures de détection d'objets en une étape ont vu le jour, telles que YOLO, SSD, et RetinaNet. Celles-ci combinent les étapes de détection et de classification, en régressant les prédictions de boîtes englobantes. Chaque boîte englobante est représentée avec seulement quelques coordonnées, ce qui facilite la combinaison de l'étape de détection et de classification et accélère le traitement.

Localisation et détection d'objets

La localisation d'images consiste à déterminer l'emplacement des objets dans une image, généralement en les indiquant par des boîtes englobantes. La détection d'objets s'appuie sur cela en non seulement localisant les objets, mais aussi en les classifiant. Cette tâche repose fortement sur les réseaux de neurones convolutifs (CNN).

La localisation et la détection d'objets sont essentielles pour identifier de nombreux objets dans des scènes complexes, permettant des applications telles que l'interprétation d'images de diagnostic médical.

Segmentation sémantique

La segmentation sémantique, également appelée segmentation d'objets, diffère de la détection d'objets en identifiant précisément les pixels associés à des objets individuels, éliminant ainsi le besoin de boîtes englobantes. Cette approche permet une délimitation plus précise des objets dans l'image.

La segmentation sémantique est généralement mise en œuvre à l'aide de réseaux entièrement convolutifs (FCN) ou de U-Nets.

Une application répandue de la segmentation sémantique est l'entraînement des véhicules autonomes. Cette technique permet aux chercheurs d'utiliser des images de rues ou d'autoroutes avec des limites d'objets définies avec précision, facilitant un entraînement robuste pour les systèmes de navigation autonome.

Estimation de pose

L'estimation de pose est une méthode utilisée pour déterminer où se trouvent les articulations dans une image d'une personne ou d'un objet et ce que le placement de ces articulations indique. Elle peut être utilisée avec des images 2D et 3D. L'architecture principale utilisée pour l'estimation de pose est PoseNet, qui est basée sur les CNN.

L'estimation de pose est utilisée pour déterminer où des parties du corps peuvent apparaître dans une image et peut être utilisée pour générer des postures ou des mouvements réalistes de figures humaines. Souvent, cette fonctionnalité est utilisée pour la réalité augmentée, la reproduction de mouvements avec la robotique ou l'analyse de la démarche.