• Le programme « Data Partnerships » d’OpenAI vise à réduire les biais occidentalo-centrés dans l’IA en créant des ensembles de données diversifiés et mondiaux.
  • L’initiative se concentre sur l’incorporation de langues et de données culturelles variées pour remédier aux biais existants dans les modèles d’IA.
  • OpenAI fait face à des critiques et à des problèmes juridiques pour avoir potentiellement utilisé des œuvres personnelles et créatives dans l’entraînement de l’IA sans autorisation.

OpenAI a annoncé une initiative «Data Partnerships» dont l’objectif est d’élargir la diversité des données d’entraînement de l’IA au-delà de la norme occidentalo-centrée. Ce programme novateur est conçu pour collaborer avec diverses organisations afin de développer des ensembles de données publics et privés complets pour l’entraînement des modèles d’IA.

openai-data-partnerships
Partenariats de données OpenAI (https://openai.com/blog/data-partnerships)

S’attaquer aux biais de données dans l’IA

Cette initiative répond au problème répandu des biais de données dans l’IA. Les modèles d’IA traditionnels ont montré un penchant significatif pour les données provenant des pays occidentaux, en particulier dans les bases de données d’images. Ce biais est attribué à la surreprésentation de l’imagerie occidentale sur Internet, ce qui entraîne des modèles d’IA qui amplifient involontairement ces biais, potentiellement avec des conséquences néfastes.

Les Data Partnerships d’OpenAI visent à rectifier cela en rassemblant de vastes ensembles de données qui reflètent plus fidèlement la société humaine mondiale. Ces ensembles de données se concentreront sur la capture de l’intention humaine à travers divers formats tels que des écrits longs ou des dialogues dans diverses langues et sur divers sujets. Cet ensemble de données plus large aidera les modèles d’IA à acquérir une compréhension plus approfondie de divers sujets, industries, cultures et langues.

Lire aussi:OpenAI lance le GPT Store pour des chatbots IA personnels sans codage

Collecte de données publiques et privées

Le programme fonctionnera sur plusieurs modalités, y compris les images, l’audio et la vidéo, en donnant la priorité aux données qui représentent les intentions humaines, comme les écrits longs ou les conversations. Pour garantir l’intégrité des données, OpenAI prévoit d’utiliser des outils tels que la reconnaissance optique de caractères et la reconnaissance automatique de la parole pour la numérisation, tout en veillant à supprimer les informations sensibles ou personnelles. OpenAI prévoit de développer deux types d’ensembles de données.

Le premier type est celui des ensembles de données open source, qui seront disponibles gratuitement à des fins d’entraînement de l’IA. Le deuxième type est celui des ensembles de données privés, adaptés aux organisations souhaitant préserver la confidentialité des données tout en permettant aux modèles d’OpenAI de mieux comprendre leurs domaines spécifiques.

Lire aussi:OpenAI met à jour discrètement ses valeurs fondamentales pour mettre l’accent sur le développement de l’AGI

Collaborations et controverses

L’entreprise a déjà entamé des partenariats pour améliorer ses capacités en IA. Des collaborations avec le gouvernement islandais et Miðeind ehf ont amélioré la maîtrise de la langue islandaise de GPT-4. De même, un partenariat avec le Free Law Project a amélioré la compréhension du modèle des documents juridiques. Malgré la nature apparemment altruiste de cette initiative, OpenAI fait face à des critiques pour des motifs commerciaux potentiels. L’approche consistant à améliorer les modèles d’OpenAI, potentiellement aux dépens des autres sans compensation équitable, a suscité la controverse.

Des poursuites judiciaires récentes contre OpenAI et Microsoft par des créateurs et des auteurs ont mis en lumière des problèmes concernant l’utilisation non autorisée de leurs œuvres pour l’entraînement des modèles d’IA, soulevant des questions sur l’utilisation éthique des données et la compensation dans l’industrie de l’IA.