Intelligence artificielle : les risques liés à la mauvaise qualité des données

Dans un monde où l'intelligence artificielle est au coeur de toutes les discussions, la question de la qualité des données qui la sous-tendent est fondamentale. Les GAFAM (Google, Amazon, Facebook devenu Meta, Apple, Microsoft) jouent un rôle central dans ce nouveau paysage, en raison de leurs investissements massifs dans l'IA et de leur accès privilégié à une quantité astronomique de données. Cependant, l'abondance de données ne garantit pas nécessairement leur qualité, ce qui soulève des préoccupations quant à la fiabilité des résultats générés par l'IA. Cela nécessite alors un engagement éthique fort et des mesures juridiques concrètes allant au-delà des seuls impératifs de rentabilité, afin de garantir que l'IA puisse prétendre à être et rester bénéfique.

Sommaire

D'où viennent les données exploitées par l'IA ?
La fiabilité des résultats fournis par l'IA dépend de la qualité des données
La nécessité d'un cadre juridique allant au-delà d'un cadre éthique

1. D'où viennent les données exploitées par l'IA ?

Afin de générer des contenus, les systèmes d'IA exploitent une quantité colossale de données provenant d'une multitude de sources : sites internet, réseaux sociaux, plateformes en tout genre, moteurs de recherches, applications, appareils connectés et j'en passe - car il ne semble pas y avoir de limites !

Afin de bien comprendre la provenance des données exploitées par l'intelligence artificielle, il faut plus spécifiquement s'intéresser aux GAFAM - Google, Amazon, Facebook, Apple, Microsoft. Ces 5 géants de la tech ont en effet la main mise sur la majorité des systèmes d'IA du marché. Pourquoi ? Car les GAFAM investissent en masse dans l'IA depuis de nombreuses années, en développant leurs propres outils ou encore en rachetant des start-up à tour de bras. Résultat : elles sont aujourd'hui propriétaires de la majorité des technologies liées à l'intelligence artificielle.

L'autre avantage des GAFAM, c'est qu'elles ont directement accès (légalement... ou non) à un nombre considérable de données que nous leur fournissons nous-mêmes tous les jours en continue. Si nous envisageons chacune de ces 5 sociétés individuellement, voici un bref aperçu des diverses façons dont nous leur fournissions des données :

Google : via nos recherches en ligne, nos activités sur les services Google tels que Gmail, Google Maps, YouTube, etc.
Amazon : via nos historiques d'achats, nos préférences de produits, nos interactions sur la plateforme d'Amazon, y compris les recherches de produits et les commentaires laissés, etc.
Facebook (Meta) : via nos informations personnelles telles que notre profil, nos likes et commentaires, nos messages privés, nos photos et vidéos partagées, etc.
Apple : via nos données d'utilisation des appareils Apple, nos achats sur l'App Store, notre localisation via les services de géolocalisation, nos interactions avec les services iCloud, etc.
Microsoft : via nos données d'utilisation des produits Microsoft tels que Windows, Office, LinkedIn, ou Skype, nos activités sur les services cloud de Microsoft comme OneDrive, notre historique de navigation sur Internet via Bing, nos données de communication, etc.

Malgré l'abondance des données disponibles pour entraîner les systèmes d'IA et concevoir les outils spectaculaires dont nous disposons aujourd'hui, la simple disponibilité de données en grande quantité ne garantit pas la fiabilité d'une IA. Ce qui importe encore plus pour une IA soit fiable, c'est la qualité des données !

2. La fiabilité des résultats fournis par l'IA dépend de la qualité des données

Vous connaissez sûrement la fameuse expression très imagée "Garbage in, garbage out" qui explique que si les données entrantes (input) d'un système d'IA sont de mauvaise qualité, alors les résultats produits (output) seront également de mauvaise qualité... et ne seront donc pas fiables !

C'est un principe fondamental en informatique, et celui-ci s'applique parfaitement au domaine de l'intelligence artificielle, soulignant alors l'importance de la qualité des données d'entrée pour obtenir des résultats fiables. Lorsque l'on parle de la qualité des données, on fait alors référence à différents éléments, tels que :

L'exactitude : cela implique que les données sont correctes et reflètent fidèlement la réalité ;
La cohérence : qui veut que les données sont compatibles et concordantes avec d'autres données connexes, sans contradiction interne ;
La fiabilité : qui signifie que les données peuvent être exploitées en toute confiance pour prendre des décisions ou effectuer des analyses ;
La pertinence : qui revient à avoir des données appropriées aux objectifs et aux besoins spécifiques du système d'IA ;
La précision : qui nécessite des données sans erreurs significatives ou de distorsions qui pourraient fausser les résultats ;
La mise à jour : qui implique que les données sont régulièrement actualisées pour refléter les informations les plus récentes disponibles.

Une intelligence artificielle qui repose sur des données de mauvaise qualité produira alors des résultats non fiables, principalement en raison de la présence conséquente de divers biais se reflétant dans les décisions et les prédictions de l'IA.

Par exemple, un algorithme de recrutement basé sur les données historiques des précédents candidats pourrait favoriser systématiquement les candidats masculins si ces données reflètent les préjugés existants dans le secteur. Ou encore, si un utilisateur interagit principalement avec des contenus politiques d'une certaine orientation, le système d'IA peut favoriser la recommandation de contenus similaires, créant ainsi des bulles de filtres et renforçant les convictions existantes de l'utilisateur. Les biais peuvent entraîner des conséquences d'autant plus grave s'il s'agit de systèmes d'IA exploitées dans le domaine médical :

« Une étude publiée dans le Lancet Digital Health a révélé une sous-représentation alarmante des peaux foncées dans les jeux de données couramment utilisées pour les IA spécialisées dans la détection des cancers de la peau (Wen et al., 2022). Ils montrent que, parmi les 1000.000 photos utilisées pour entraîner ces IA, seule 2436 indiquaient la couleur de la peau, parmi lesquelles 10 étaient classifiées comme étant de couleur brune et une seule comme étant de couleur noire (Davis, 2021). Or cette sous-représentation conduit inévitablement à des diagnostics erronés ou manqués pour les personnes ayant la peau de couleur foncée. » Kathleen Desveaud, 2024, L'intelligence artificielle decryptée, p.139

3. La nécessité d'un cadre juridique allant au-delà d'un cadre éthique

Afin d'assurer la qualité des données, il est impératif de responsabiliser les entreprises qui conçoivent des systèmes d'IA, et donc principalement les GAFAM. Ce qu'il faut comprendre, c'est qu'il ne suffit pas simplement d'exiger la prise en compte d'une éthique (et on a pu observer de nombreuses initiatives privées comme publiques) car nous savons bien que des géants comme Google, Amazon, Meta, Apple ou Microsoft sont quasiment exclusivement motivés par la recherche de profits. Et cela apparaît clairement lorsque l'on s'intéresse aux pratiques de ces entreprises, ainsi qu'à leur impact sur la société.

Sans un encadrement juridique concret visant directement les entreprises concernées, il y. a fort à parier que les systèmes d'IA finiront même par être entraînées sur les résultats produits par d'autres IA. Et lorsque les IA s'entraînent mutuellement sur les résultats qu'elles produisent, cela crée une boucle de rétroaction qui peut soit renforcer positivement la qualité des modèles, soit amplifier les problèmes existants, en fonction de la qualité des données utilisées.

C'est une tendance qui risque de se développer étant donné la nécessité croissante d'obtenir une quantité massive de données, et le fait que les données actuellement disponibles risques de ne plus être suffisantes. Un exemple concret de cette pratique a été mis en lumière avec l'IA Firefly, entraînée notamment sur des images générées par l'IA Midjourney. (1).

Vous l'avez donc compris : nous risquons de nous retrouver piégés dans un cycle d'amplification des biais et des inexactitudes, où les erreurs perpétuées par les modèles existants seront répétées et amplifiées au fil du temps, exacerbant ainsi les inégalités et les injustices déjà présentes dans nos systèmes.

(1) Adobe Firefly : l’IA “éthique” s’est entraînée sur des images générées par d’autres IA ; Firefly : Adobe aurait entraîné son IA avec son propre stock d'images, mais pas que...

Découvrez ma formation en droit d'auteur spécial Freelances

Je découvre ✨

Découvrez mes formations 100% sur mesure en propriété intellectuelle, nouvelles technologies et IA

Je découvre ✨

Et si vous souhaitez recevoir mes articles directement par mail, ainsi que toutes les actus et infos super utiles 100% dédiées à tous les créateurs de contenus, il suffit de vous abonner à

ma Newsletter Pas de chichi entre nous :

Je m'abonne à la Newsletter 💌