A medida que los servicios de IA generativa comoChatGPTde OpenAI, Bing Chat de Microsoft y Google Bard se utilizan cada vez más como alternativas a los motores de búsqueda, también están encontrando resistencia por parte de personas y empresas que no quieren que los datos de sus sitios web se utilicen para el entrenamiento de modelos de IA.
Los grandes modelos de lenguaje se entrenan con una variedad de datos, muchos de los cuales parecen haber sido recopilados sin el conocimiento o consentimiento de nadie. Esta semana, Google anunció una nueva forma para que los desarrolladores de sitios web puedan elegir permitir que sus servicios Bard y Vertex AI accedan a su contenido, o excluirse del entrenamiento de estos modelos API.
Cómo prohibir que la IA rastree tu sitio
En una reciente entrada de blog, la vicepresidenta de Confianza de Google, Danielle Romain, reconoció el deseo de los editores web de tener mayor elección y control sobre cómo se utiliza su contenido para los casos de uso emergentes de IA generativa. Para abordar esta preocupación, Google permite a los editores web desautorizar “User-Agent: Google-Extended” en el archivo robots.txt de su sitio. Este sencillo paso evitará que los rastreadores web automatizados de Google accedan y utilicen el contenido del editor para fines de entrenamiento de IA.
Actualmente, los sitios web pueden proporcionar una lista de aquellos que se niegan a ser rastreados a través de robots.txt, y Google cree que todos los proveedores de modelos de IA también deberían ofrecer este tipo de transparencia y control. Sin embargo, a medida que las aplicaciones de IA se expanden, los sitios web enfrentarán la creciente complejidad de gestionar diferentes usos a escala. Google dijo que compartiría más información tan pronto como sea posible.
La intención de Google, en entredicho
Aunque Google afirma desarrollar su modelo de IA de manera ética e inclusiva, existe una diferencia fundamental entre indexar la web y usar datos para el entrenamiento de IA. Los datos recopilados de los editores web se utilizan como materia prima para entrenar modelos de aprendizaje automático, haciéndolos más precisos y potentes con el tiempo.
Es importante reconocer el papel del consentimiento en la recopilación de datos de entrenamiento de IA. Dar a los editores web la opción de contribuir a los modelos de IA es un paso positivo. Sin embargo, Google ya recopila enormes cantidades de datos para entrenar sus modelos sin el consentimiento explícito de los usuarios. Esto plantea dudas sobre la veracidad del nuevo enfoque de Google en el consentimiento y la recopilación ética de datos.
La realidad es que Google tiene acceso sin restricciones a los datos web y los utiliza para entrenar modelos de IA antes de pedir permiso a los editores web. Si la recopilación ética de datos y el consentimiento fueran realmente una prioridad principal para Google, esta opción habría estado disponible hace años.
El abastecimiento ético de datos aún podría tener un largo camino por recorrer
Claramente, la industria tecnológica necesita abordar las implicaciones éticas del entrenamiento de IA y la recopilación de datos. Aunque la medida de Google de dar a los editores web control sobre su contenido es un paso en la dirección correcta, es importante considerar la necesidad de un contexto más amplio y una solución más integral.
En general, la decisión de Google de permitir que los editores web controlen cómo se utiliza su contenido para el entrenamiento de IA es un avance positivo. Sin embargo, es importante reconocer que esta opción llega después de que Google ya ha recopilado y utilizado enormes cantidades de datos sin consentimiento explícito.
Toda la industria tecnológica necesita priorizar la recopilación ética de datos y el consentimiento, y trabajar hacia soluciones más integrales que aborden las preocupaciones tanto de los editores web como de los usuarios.

