L’année 2021 devrait voir le nombre de caméras de surveillance déployées dans l’espace public mondial dépasser le milliard (la grande majorité étant le fait de la République de Chine). Pourtant, au-delà de la surveillance quotidienne des populations, ces caméras sont une opportunité de voir se développer un concept lié à l’intelligence artificielle : celui de la vision par ordinateur ou computer vision.
Tour d’horizon d’une technologie en pleine essor dont de nombreux secteurs d’activités pourraient bénéficier dans les années à venir.
La vision par ordinateur : définition et marché
La vision par ordinateur peut être définie comme une branche de l’intelligence artificielle qui cherche à traiter, analyser puis comprendre des images captées par le biais de caméras. Pour comparaison, la vision par ordinateur est l’équivalent du système de vision humain depuis les yeux (caméra) jusqu’à la capacité qu’à notre cerveau (intelligence artificielle) de traiter les informations qui en découlent. Le marché est en pleine expansion. Une étude menée par Omdia et relayée en mars 2020 par BusinessWire évalue le marché de la vision par ordinateur à plus de 33 milliards de dollars en 2025 contre à peine 3 milliards en 2018. Selon RIS News Report, 17% des commerçants américains interrogés dans une étude déclarent la volonté de déployer des technologies de vision par ordinateur dans les 12 à 24 prochains mois.
Le fonctionnement de la vision par ordinateur
La vision par ordinateur est une branche de l’intelligence artificielle qui, par l’intermédiaire d’algorithmes de Deep Learning et de Machine Learning, entrainent un ordinateur à interpréter et comprendre le monde qui l’entoure. La combinaison des images et vidéos avec l’intelligence artificielle permet aux machines d’apprendre à reconnaître, identifier et classifier des objets disparates.
Plus précisément, la vision par ordinateur utilise l’apprentissage en profondeur (Deep Learning) pour former les réseaux neuronaux qui guident les systèmes dans le traitement et l’analyse de leurs images. Une fois qu’ils sont totalement formés, les modèles de vision par ordinateur sont capables de reconnaître des objets, de détecter et de reconnaître des personnes et de suivre leurs mouvements. Ils sont également capables d’améliorer, sans intervention humaine, leur précision par les techniques d’apprentissage non-supervisées. C’est en ce sens que la vision par ordinateur se différencie de la reconnaissance d’images (type OCR), technologie plus ancienne mais qui ne requiert pas la capacité d’apprentissage aux ordinateurs.
Un outil bientôt indispensable dans de nombreux secteurs d’activités
La vision par ordinateur est tellement puissante que de très nombreux secteurs d’activités s’intéressent à cette technologie.
La santé
Le secteur de la santé, par exemple, utilise la vision par ordinateur dans différents domaines comme l’imagerie médicale, la détection ou l’analyse de symptômes. Des exemples significatifs montrent que le recours à la vision par ordinateur comme appui aux praticiens se généralisent à mesure que les solutions émergent. L’AP-HP a signé un partenariat avec l’éditeur de logiciels médicaux Median Technologies afin d’aider les médecins à mieux détecter les cancers du foie. Grâce à l’analyse d’images médicales, l’ordinateur va être en mesure de détecter les signes précoces de la maladie, souvent indétectables par l’œil humain, afin d’accélérer la prise en charge du patient. En 2019, l’AP-HP avait déjà entrepris la même démarche avec la start-up Owkin autour des maladies du rein.
De son côté, la branche recherche de Microsoft (Microsoft Research) a développé un outil d’intelligence artificiel capable de détecter directement sur les scans 3D les tissus infectés par un cancer. L’objectif est d’assister le radiologue dans sa prise de décision et d’accélérer le diagnostic gage d’une meilleure prise en charge et d’un taux de guérison plus important.
Le recours à la vision par ordinateur permet également de réduire les erreurs de diagnostics, notamment dans le cadre de la détection du mélanome. Des applications grand public permettent à tout un chacun, par l’intermédiaire d’une photographie, d’analyser la forme des grains de beauté. Grâce à ces applications, il est possible d’accélérer la détection de la maladie mais aussi de réduire les interventions médicales sur des grains de beauté bénins. SkinShot d’Anapix en est un exemple concret.
Tous les domaines de la santé peuvent nécessiter l’utilisation de la vision par ordinateur couplée à l’intelligence artificielle. A titre d’exemple, l’INRIA travaille au développement d’outil de reconnaissance d’images et de sons permettant de détecter de manière objective les symptômes de la maladie mentale. L’équipe MePheSTO de l’INRIA, en partenariat avec DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz), a lancé un projet de recherche autour de l’intelligence artificielle capable d’identifier et de classifier les phénotypes numériques objectifs des troubles mentaux.
Autre exemple, l’ophtalmologie peut aussi recourir aux services de la vision par ordinateur pour anticiper et améliorer la détection des maladies de l’œil. L’INRIA, toujours, vient de conclure un laboratoire commun entre l’entreprise I2S et l’équipe Géostat d’INRIA pour la production d’un logiciel améliorant la qualité et la performance d’acquisition d’images, notamment dans le domaine de la santé.
RetinAI, une start-up suisse de la santé, propose une solution d’intelligence artificielle de collecte, d’analyse des données de santé des patients en ophtalmologie en s’appuyant sur une analyse d’images de l’œil. RetinAI travaille également sur des solutions de diagnostic à distance, via smartphone, permettant de déporter vers le grand public le diagnostic rapide. Enfin, dernier exemple avec la cardiologie.
OrCam MyEye : une solution technologique d’assistance des personnes malvoyantes ou aveugles par activation vocale pour identifier des objets ou personnes, donner l’heure et plus encore.
Deski, start-up bordelaise, développe une solution d’intelligence artificielle (DeepEcho) couplée à l’analyse d’images, permettant de miniaturiser un échographe sur smartphone. DeepEcho est une solution permettant à des médecins non spécialisés de réaliser des échographies avec un simple smartphone et d’obtenir, grâce à l’intelligence artificielle d’analyse d’images, un diagnostic fiable et rapide.
DESKi – DEEP ECHO from DESKi on Vimeo.
Enfin, dernier exemple d’utilisation de la vision par ordinateur dans le domaine de la santé, Lookout est une application permettant aux personnes déficientes visuelles d’utiliser leur smartphone comme un œil virtuel. A l’image de Google Lens, l’application permet de rechercher et d’agir sur les objets autour de soi, simplement en pointant la caméra du téléphone dessus. Elle utilise la vision par ordinateur pour aider les personnes aveugles ou malvoyantes à faire les choses plus rapidement et plus facilement (comme lire les étiquettes alimentaires, décrire l’environnement, lire rapidement un texte, analyser un document et enfin lire les billets de banque (uniquement le dollar américain pour le moment).
Au final, la vision par ordinateur offre des perspectives intéressantes pour la médecine même si nous n’en sommes qu’aux balbutiements. L’œil humain restant encore plus perfectionné que la machine, les marges de progrès sont importantes. Toutefois, la machine ne pourra remplacer l’homme pour ce qui concerne le diagnostic et la décision finale qui reste et restera du ressort du médecin, quoiqu’il arrive.
Le retail
Le retail est également un secteur d’activités friand de computer vision. L’utilisation de cette technologie est plébiscitée dans de nombreux cas d’usage. 30% des commerçants prévoient de se doter d’outils de computer vision dans les 12 prochains mois.
L’un des usages possibles de la vision par ordinateur dans le cadre du commerce défraie la chronique depuis quelques années, depuis que le géant Amazon a lancé ses magasins sans personnel et entièrement automatisés Amazon Go. Arrivé en Europe, via l’Angleterre, en janvier 2021, le principe de ces supermarchés nouvelle génération est basé sur l’algorithmie et sur la vision par ordinateur.
Le magasin, bourré de caméras et de capteurs, est capable, de manière autonome, de tracer le parcours du client entre les rayons et d’enregistrer les produits que celui-ci met dans son panier. Lorsque le client va se présenter à l’une des caisses automatisées (c’est-à-dire sans caissier), il sera automatiquement débité de la somme totale de ses achats.
Cette tendance est à prendre au sérieux tant le nombre d’acteurs sur le marché du magasin autonome sont nombreux : AiFi à Shangaï, QuickEats en Californie, Sensei à Lisbonne ou Trigo en Israël. En France, XXII développe des outils algorithmiques de vision par ordinateur dont celui du panier intelligent, brique technologique importante du magasin autonome. Belive.ai propose également des outils de vision par ordinateur destinés aux retailers. Grâce à ses réseaux neuronaux de vision par ordinateur utilisant la caméra d’un smartphone, la start-up marseillaise Graffiti permet aux machines de reconnaître le monde physique et de l’associer à des bases de données. Sa première application cible le shopping.
Trois questions à Cali intelligences
Cali Intelligences est une jeune start-up bordelaise accompagnée par Unitec dont les bureaux sont situés sur le campus de Talence, au sein de l’Institut d’Optique de Nouvelle-Aquitaine. Spécialisée dans l’intelligence artificielle, elle propose une solution d’analyse des images de vidéosurveillance à des fins de prévention et de protection contre le vol à l’étalage en magasin.
Grâce à des algorithmes de machine learning, Cali offre un moteur de détection d’actions et de mouvements dits suspects aux agents de sécurité pour les aider dans leurs décisions. Les clients visés sont donc les hypermarchés et les commerces d’habillement. Il faut dire que le marché est gigantesque : selon une étude datant de 2019 publiée par Crime & Tech, le marché du vol en Europe représenterait un manque à gagner de près de 49 milliards d’euros pour les professionnels du retail !
#RetailTech
Pourriez-vous rapidement présenter Cali Intelligences ?
Chez Cali Intelligences, nous faisons enfin parler les données des caméras de vidéosurveillance à l’aide de modèles d’apprentissage profond développés par nos soins. Nous utilisons notamment des modèles d’analyse vidéo et de reconnaissance d’actions.
Aujourd’hui, nos deux solutions sont en train de faire leur preuves :
– Notre IAssistant Sécurité : un outil d’alerte pour permettre aux agents de sécurité de prendre des décisions en temps réel face à des actions à risques ; comme la casse, le vol ou les malaises….
– Notre IAssistant Parking : une solution intelligente d’aide à la prise de décision pour les usagers d’un parking cherchant où se garer.
Pourquoi avez-vous choisi la vision par ordinateur appliquée à la vidéosurveillance ?
Aujourd’hui, plus de 99% des données de vidéosurveillance produites ne sont jamais traitées, que ce soit par un humain ou une machine. On peut logiquement se demander pourquoi mettre en place un tel dispositif…
Pourtant, ce marché a connu une croissance annuelle de 10 % par an, au cours des dernières années, et ce n’est pas près de ralentir. Face à cette hausse vertigineuse du volume de données, Cali souhaite relever le défi de pouvoir rendre enfin opérationnel les systèmes de vidéosurveillance, voire de multiplier leurs usages comme nous le faisons avec notre IAssistant Parking.
Pour revenir sur le volet de la sécurité, nous soulageons les agents dans la montagne de données à traiter afin de les recentrer sur leur coeur de métier : la prise de décision et l’intervention efficace et à bon escient. On est bien loin de Big Brother !
En parlant de ça… La surveillance est un sujet controversé, comment vous positionnez-vous par rapport aux critiques qui peuvent être faites face à ces technologies ?
Question qu’on nous pose souvent ! Lorsque nous avons donné vie au projet Cali, ça a été un de nos premiers débats et une de nos plus rapides convergences.
Ces technologies sont développées aujourd’hui et seront de plus en plus présentes dans nos vies demain. Nous préférons que ça le soit avec nos valeurs : éthique, transparence et forte valeurs ajoutée. Nous refusons notamment de faire de la reconnaissance faciale et d’exploiter toute autre donnée biométrique.
Nous sommes convaincus que ces technologies, bien appliquées, n’ont que du positif à apporter, comme : rentabiliser les investissements en sécurité, réduire la pénibilité au travail, et surtout protéger les usagers.
Girard Elliott / Vincent Bonfanti / Khobzi Anass Co-fondateurs de Cali Intelligences
Analyse et reconnaissance des comportements clients
L’utilisation de la technologie de vision par ordinateur permet également de mieux connaître le client, de son parcours dans le magasin jusqu’à ses préférences. Les algorithmes de machine learning couplé aux caméras permettent d’observer le comportement des clients, d’identifier des caractéristiques et répétitions (patterns) afin de prendre des décisions basées sur ces observations. Ainsi, l’implantation des produits dans les rayons peut être rendue plus efficace par l’observation in situ des consommateurs
Dans le même ordre d’idées, il est également possible d’utiliser la vision par ordinateur pour analyser les réactions des consommateurs face à des rayonnages ou à la découverte des étiquettes. En effet, les algorithmes sont aujourd’hui capables d’analyser, instantanément, les émotions des personnes grâce à l’analyse faciale ou vocale de vidéo. En couplant l’analyse vidéos au traitement poussé de la données, les algorithmes sont en mesure de pousser des messages publicitaires ciblés et individualisés sur chacun des clients présents dans un magasin. En reconnaissant un client et en analysant ses préférences (à partir de données d’achats), l’ordinateur est en mesure de lui offrir, sur son téléphone portable par exemple, dès son entrée en magasin, la liste des produits en solde qu’ils a l’habitude de consommer.
Côté client, la vision part ordinateur peut également contribuer à améliorer l’expérience en magasin. Une étude menée par TrustPilot en 2020 montre que 89% des consommateurs ont recours aux avis avant d’acheter un produit. Grâce à la vision par ordinateur, les commerçants pourraient déporter en magasin ces comportements. Ainsi, un client pourrait scanner un produit avec son smartphone et celui-ci lui renverrait directement des informations précises et des avis sur le produit en question. La phygitalisation des commerces (la convergence entre e-commerce et commerce physique) aurait tout à gagner à investir le champ de la vision par ordinateur.
Les problèmes d’approvisionnement des rayons de supermarchés peuvent également être adressés par les technologies de reconnaissance d’image. Selon une étude, les clients de supermarchés font face à des ruptures de stocks toutes les trois visites occasionnant près d’un milliard de dollars de manque à gagner pour les supermarchés tous les ans.
Pour relever ce défi, et toujours selon la même étude, 64% des commerçants s’intéresseraient aux solutions algorithmiques (dont la vision par ordinateur). Plusieurs enseignes françaises utilisent l’intelligence artificielle afin de réduire les ruptures de stocks dans les rayons, comme les supermarchés du groupe Casino. La solution a déjà été déployée dans 10 magasins. Elle va permettre d’éviter la perte de chiffre d’affaires due à l’absence des produits et améliorer la satisfaction client. La totalité du parc supermarchés et hypermarchés de Casino sera concernée par le déploiement de la solution d’ici la fin de 2022, avec une première étape de 100 magasins équipés avant la fin 2021. Système U avait déjà, dès 2020, lancé la même initiative.
Outre la santé et le commerce, on retrouve la technologie de vision par ordinateur dans bon nombre d’autres domaines d’application. Le secteur industriel a tout à gagner à investir massivement dans ces technologies tant pour améliorer et sécuriser le travail des employés que pour augmenter la productivité des usines. La société Atos se lance également dans la vision par ordinateur en proposant une plateforme Computer Vision as A Service (CVAAS) sur laquelle les clients du groupe peuvent personnaliser et entrainer des intelligences artificielles tout en bénéficiant de l’expertise des ingénieurs du groupe. C’est aussi l’offre que propose depuis 2014, Deepomatic qui vient de lever 2,3 millions d’euros pour conquérir le marché des télécoms.
De même, le secteur bancaire et financier s’intéresse de près à ces technologies, notamment dans le but de mieux connaître les clients, leurs comportements et leurs préférences, mais aussi dans celui de réduire la fraude. Le BTP, avec les outils de détection des malfaçons ou ceux de contrôle de l’avancée des travaux, n’est pas en reste non plus. Suez, dans le secteur de l’eau et des déchets, utilise également ces technologies, tout comme la robotique ou la voiture autonome.
______________________
Les défis de la computer vision
À ce jour, la vision par ordinateur ne parvient toujours pas à égaler la vision humaine, le fonctionnement de l’œil humain restant en partie mystérieux. Tant que nous n’aurons pas percé les mystères de la vision humaine, nous ne pourrons faire confiance à des algorithmes encore imparfaits pour nous remplacer.
Avant de relever ces défis, une question reste en suspens : quelle place pour l’éthique dans la vision par ordinateur ? Nous l’avons vu en introduction, certains usages soulèvent questions et polémiques.
Comment intégrer les notions de confidentialité, de respect de la vie privée dans le cadre du déploiement d’une technologie basée sur la captation, le traitement et l’analyse d’images qui sont parfois privées ?
Comment assurer aux consommateurs observés par des dizaines de caméras dans les supermarchés que les images ne seront pas utilisées à d’autres fins que celles qu’ils ont acceptées au moment de pénétrer dans le magasin ?
Comme le souligne Orange : « Clarifier les cadres d’utilisation de la reconnaissance faciale, c’est donner un champ d’action concret et précis aux entreprises. Pour l’instant, les données issues du computer vision peuvent être traitées localement via l’edge computing, afin d’éviter la remontée d’informations personnelles et d’anonymiser la data. La reconnaissance faciale est par ailleurs soumise au RGPD, qui encadre la collecte de données, le consentement des utilisateurs, les informations sur la finalité de traitement et le droit d’accès. Les dispositifs de vidéosurveillance sont aussi encadrés par la CNIL, qui appelle le Gouvernement français à légiférer sur ces questions. »
Une fois que l’intelligence artificielle sera en mesure de concurrencer l’humain en ce qui concerne la vue, sera-t-elle capable de le défier sur le terrain de ses émotions. Le chemin est encore long mais les scientifiques du monde entier sont prêts à relever le défi.
Récapitulatif des entreprises présentes dans la note, accompagnées par Unitec : I2S #Alumni ; Deski et Cali Intelligences #PépitesUnitec