Contacter l'équipe commerciale

Vision par ordinateur (Computer Vision)

Domaine de l'intelligence artificielle qui permet aux ordinateurs d'extraire, d'analyser et de comprendre des informations à partir d'images ou de vidéos

Publié le 22/02/2026

Mis à jour le 01/05/2026

231 vues

5 min de lecture

Sommaire

Définition de la vision par ordinateur
Comment fonctionne la vision par ordinateur ?
Les principales tâches de la vision par ordinateur
Applications concrètes
Défis et limites

La vision par ordinateur, ou computer vision en anglais, est l'un des domaines les plus fascinants et les plus avancés de l'intelligence artificielle. Son objectif est simple à énoncer, mais incroyablement complexe à réaliser : donner aux machines la capacité de "voir" et de comprendre le monde visuel comme le font les humains. Reconnaître un visage, identifier un objet, estimer une distance, détecter un mouvement, analyser une scène... autant de tâches que notre cerveau accomplit en une fraction de seconde, mais qui ont longtemps résisté aux ordinateurs.

Définition de la vision par ordinateur

La vision par ordinateur est un domaine scientifique interdisciplinaire qui traite de la façon dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d'images numériques ou de vidéos. D'un point de vue technique, elle cherche à automatiser les tâches que le système visuel humain peut effectuer .

Le défi est immense. Pour un humain, reconnaître une chaise dans une pièce, quel que soit son angle, sa couleur, sa taille, est immédiat. Pour un ordinateur, une image n'est qu'une grille de pixels, chacun avec une valeur de couleur. Passer de cette matrice de chiffres à la compréhension qu'il s'agit d'une chaise, et pas d'une table ou d'un animal, a nécessité des décennies de recherche.

Comment fonctionne la vision par ordinateur ?

La vision par ordinateur moderne repose presque entièrement sur l'apprentissage profond (deep learning) et les réseaux de neurones convolutifs (CNN). Ces architectures sont spécialement conçues pour traiter des données sous forme de grille, comme les images.

Le processus typique se déroule en plusieurs étapes :

Acquisition : l'image ou la vidéo est capturée par une caméra, un capteur, ou chargée depuis une source.

Prétraitement : on améliore la qualité de l'image (ajustement de la luminosité, réduction du bruit, redimensionnement) pour faciliter l'analyse.

Extraction de caractéristiques : le réseau de neurones identifie des motifs de plus en plus complexes. Les premières couches détectent des contours, des coins, des textures. Les couches intermédiaires combinent ces éléments pour reconnaître des formes (yeux, roues, fenêtres). Les dernières couches identifient des objets complets (visages, voitures, maisons).

Interprétation : à partir des caractéristiques extraites, le système prend une décision : classification (c'est un chat), détection (il y a un chat à ces coordonnées), segmentation (ces pixels appartiennent au chat), etc.

Ces réseaux sont entraînés sur des millions d'images étiquetées, apprenant par essais et erreurs à reconnaître les patterns pertinents. Plus ils voient d'exemples, plus ils deviennent précis.

Les principales tâches de la vision par ordinateur

Le domaine couvre un large éventail de problèmes, de la plus simple à la plus complexe.

Classification d'images : attribuer une étiquette à une image entière. "Cette photo représente un chien".

Détection d'objets : identifier et localiser plusieurs objets dans une image. "Il y a un chien en haut à gauche, un chat au centre, une balle en bas à droite".

Segmentation sémantique : classer chaque pixel de l'image. "Ces pixels appartiennent à la route, ceux-ci au ciel, ceux-là à la voiture". C'est essentiel pour les véhicules autonomes.

Reconnaissance faciale : identifier ou vérifier l'identité d'une personne à partir de son visage.

Estimation de pose : déterminer la position et l'orientation d'un objet ou d'une personne dans l'espace.

Suivi d'objets : suivre un objet en mouvement dans une séquence vidéo.

Applications concrètes

La vision par ordinateur est partout, souvent sans qu'on y pense.

Véhicules autonomes : les voitures qui se conduisent toutes seules analysent en permanence leur environnement pour détecter les autres véhicules, les piétons, les panneaux, les marquages au sol.

Imagerie médicale : les algorithmes aident les radiologues à détecter des tumeurs sur des scanners, des anomalies sur des radiographies, ou à analyser des images de rétine.

Sécurité et surveillance : reconnaissance faciale pour le contrôle d'accès, détection d'intrusion, recherche de personnes disparues.

E-commerce : recherche visuelle de produits ("je prends en photo un sac que j'aime dans la rue, et l'appli me montre où l'acheter").

Agriculture : drones qui survolent les champs et analysent la santé des cultures, détectent les maladies, optimisent l'irrigation.

Industrie : contrôle qualité automatisé sur les chaînes de production, détection de défauts invisibles à l'œil humain.

Défis et limites

Malgré ses progrès spectaculaires, la vision par ordinateur a encore des limites. Elle peut être trompée par des conditions d'éclairage inhabituelles, des angles de vue extrêmes, ou des occlusions (objets partiellement cachés). Les biais dans les données d'entraînement (par exemple, des systèmes de reconnaissance faciale moins précis pour certaines ethnies) sont un problème sérieux. La protection de la vie privée est aussi un enjeu majeur, avec la multiplication des caméras et des systèmes de reconnaissance.

Formation vision par ordinateur

Maîtrisez les techniques de computer vision avec notre formation pratique.

Découvrir

Termes associés

Video interviewing

Méthode de recrutement utilisant la vidéo pour réaliser les entretiens, que ce soit en direct ou ...

22/02/2026

178

Viral (Marketing viral)

Technique marketing visant à encourager les individus à transmettre un message à d'autres, créant...

20/02/2026

286

Visiteur unique

Métrique web mesurant le nombre d'individus distincts ayant visité un site web pendant une périod...

21/02/2026

203