Votre site web peut dire « Non merci » à ChatGPT et Google Bard

Votre site web peut désormais dire « Non merci » à ChatGPT et Google Bard

Alors que les services d’IA générative tels que ChatGPT d’OpenAI, Bing Chat de Microsoft et Google Bard sont de plus en plus utilisés comme alternatives aux moteurs de recherche, ils rencontrent également la résistance de particuliers et d’entreprises qui ne souhaitent pas que les données de leur site web soient utilisées pour l’entraînement de modèles d’IA. Les grands modèles de langage sont entraînés sur une variété de données, dont beaucoup semblent avoir été collectées sans consentement.

Votre site web peut désormais dire « Non merci » à ChatGPT et Google Bard est profilé par BTW Media car des preuves publiées le relient à l'infrastructure Internet, à la gouvernance, aux dépendances opérationnelles ou à la visibilité du marché.

Alors que les services d’IA générative tels queChatGPTd’OpenAI, Bing Chat de Microsoft et Google Bard sont de plus en plus utilisés comme alternatives aux moteurs de recherche, ils rencontrent également la résistance de particuliers et d’entreprises qui ne souhaitent pas que les données de leur site web soient utilisées pour l’entraînement de modèles d’IA.

Les grands modèles de langage sont entraînés sur une variété de données, dont une grande partie semble avoir été collectée à l’insu ou sans le consentement de quiconque. Cette semaine, Google a annoncé une nouvelle méthode permettant aux développeurs de sites web de choisir d’autoriser ses services Bard et Vertex AI à accéder à leur contenu, ou de refuser l’entraînement de ces modèles d’API.

Comment interdire à l’IA d’explorer votre site

Dans un récent article de blog, la vice-présidente de la confiance chez Google, Danielle Romain, a reconnu le désir des éditeurs web d’avoir plus de choix et de contrôle sur la manière dont leur contenu est utilisé pour les cas d’utilisation émergents de l’IA générative. Pour répondre à cette préoccupation, Google permet aux éditeurs web d’interdire “User-Agent: Google-Extended” dans le fichier robots.txt de leur site. Cette simple étape empêchera les robots d’exploration automatisés de Google d’accéder et d’utiliser le contenu de l’éditeur à des fins d’entraînement de l’IA.

Les sites web peuvent actuellement fournir une liste de ceux qui refusent d’être explorés via robots.txt, et Google estime que tous les fournisseurs de modèles d’IA devraient également offrir ce type de transparence et de contrôle. Cependant, à mesure que les applications d’IA se développent, les sites web seront confrontés à la complexité croissante de la gestion de différentes utilisations à grande échelle. Google a déclaré qu’il partagerait plus d’informations dès que possible.

L’intention de Google en question

Bien que Google prétende développer son modèle d’IA de manière éthique et inclusive, il existe une différence fondamentale entre l’indexation du web et l’utilisation des données pour l’entraînement de l’IA. Les données collectées auprès des éditeurs web sont utilisées comme matière première pour entraîner les modèles d’apprentissage automatique, les rendant plus précis et puissants au fil du temps.

Il est important de reconnaître le rôle du consentement dans la collecte de données d’entraînement de l’IA. Donner aux éditeurs web la possibilité de contribuer aux modèles d’IA est une étape positive. Cependant, Google collecte déjà d’énormes quantités de données pour entraîner ses modèles sans le consentement explicite des utilisateurs. Cela soulève des questions sur la véracité de la nouvelle orientation de Google sur le consentement et la collecte éthique des données.

La réalité est que Google a un accès illimité aux données du web et les utilise pour entraîner des modèles d’IA avant de demander la permission aux éditeurs web. Si la collecte éthique de données et le consentement étaient vraiment une priorité absolue pour Google, cette option aurait été disponible il y a des années.

L’approvisionnement éthique des données a peut-être encore un long chemin à parcourir

Il est clair que l’industrie technologique doit aborder les implications éthiques de l’entraînement de l’IA et de la collecte de données. Bien que la décision de Google de donner aux éditeurs web le contrôle sur leur contenu soit un pas dans la bonne direction, il est important de considérer la nécessité d’un contexte plus large et d’une solution plus complète.

Dans l’ensemble, la décision de Google de permettre aux éditeurs web de contrôler comment leur contenu est utilisé pour l’entraînement de l’IA est une évolution positive. Cependant, il est important de reconnaître que ce choix intervient après que Google a déjà collecté et utilisé de vastes quantités de données sans consentement explicite.

L’ensemble de l’industrie technologique doit donner la priorité à la collecte éthique des données et au consentement, et travailler à des solutions plus complètes qui répondent aux préoccupations des éditeurs web et des utilisateurs.

Votre site web peut désormais dire « Non merci » à ChatGPT et Google Bard

Brief signal

Surface opérationnelle

Contexte de marché

À surveiller

Contexte de tendance approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership