- Tumblr et WordPress.com sont actuellement en pourparlers pour fournir des données des utilisateurs à des entreprises d'IA comme OpenAI et Midjourney.
- The New York Times poursuit actuellement OpenAI pour avoir prétendument utilisé ses vastes archives sans autorisation pour entraîner des chatbots
L'utilisation de données extraites d'Internet est devenue un sujet controversé, les entreprises exploitant le contenu public pour entraîner leurs puissants modèles génératifs. Cette pratique a déclenché des batailles juridiques, car des organisations comme The New York Times etGetty Imagesont exprimé des préoccupations concernant l'utilisation non autorisée de leur contenu.
Batailles juridiques sur l'utilisation des données
L'une des affaires marquantes concerne OpenAI, qui fait actuellement l'objet d'une poursuite de The New York Times pour avoir prétendument utilisé les archives du journal sans autorisation afin d'entraîner des chatbots. En réponse, OpenAI a accusé le Times de recourir à des tactiques douteuses pour prouver ses allégations. De même, Getty Images a engagé des poursuites contreStable Diffusionpour violation des droits d'auteur liée à l'utilisation de son contenu visuel.
Les implications des systèmes d'IA exploitant le travail des journalistes, musiciens et photographes vont au-delà des litiges juridiques. La quête de grandes quantités de données d'entraînement a suscité des inquiétudes quant à l'exploitation potentielle des créateurs de contenu en ligne. Des plateformes comme Tumblr et WordPress.com auraient été en pourparlers pour vendre des données des utilisateurs à des entreprises d'IA comme OpenAI et Midjourney, soulevant des questions sur la confidentialité des données et la propriété.
À lire aussi:Le chatbot Bard de Google reçoit la mise à jour Gemini Pro au niveau mondial
Partenariats dans le partage des données
Alors que certaines entités ont opté pour le litige, d'autres ont choisi de nouer des partenariats. The Associated Press a accordé une licence sur une partie de ses archives à OpenAI, tandis que Shutterstock a signé un accord de six ans avec l'entreprise d'IA pour fournir un accès à sa vaste bibliothèque de photos, vidéos et musique.
Reddit, connu pour sa richesse en contenu généré par les utilisateurs, a récemment conclu un accord avec Google, accordant au géant technologique l'accès à son API pour l'entraînement de modèles d'IA. Cette démarche souligne la valeur des contributions des utilisateurs aux plateformes et les considérations éthiques entourant l'utilisation des données.
À lire aussi:OpenAI lance le GPT Store pour les chatbots d'IA personnels sans codage
Pratiques répandues d'entraînement des données
La pratique répandue consistant à entraîner des modèles d'IA sur des données publiques d'Internet va au-delà des accords spécifiques mentionnés dans l'article. Une enquête récente du Washington Post a révélé un trésor de données extraites de diverses sources, notamment des forums en ligne, des plateformes de financement participatif et des sites de médias sociaux. Des entreprises comme Meta, anciennement Facebook, ont également exploité les publications publiques de leurs plateformes pour améliorer les capacités d'IA.
Le débat sur la propriété des données et le consentement reste non résolu. Les créateurs de contenu, qu'il s'agisse de blogs de niche ou de plateformes de médias sociaux populaires, sont confrontés à la perspective de voir leur travail être marchandisé à des fins d'entraînement de l'IA. L'équilibre entre innovation et pratiques éthiques en matière de données est crucial pour façonner l'avenir du développement de l'IA et son impact sur les écosystèmes numériques.

