- El programa “Data Partnerships” de OpenAI tiene como objetivo reducir los sesgos occidentalistas en la IA creando conjuntos de datos globales y diversos.
- La iniciativa se centra en incorporar diversos idiomas y datos culturales para abordar los sesgos existentes en los modelos de IA.
- OpenAI enfrenta críticas y problemas legales por usar potencialmente obras personales y creativas en el entrenamiento de IA sin autorización.
OpenAI ha anunciado una iniciativa“Data Partnerships”, cuyo objetivo es ampliar la diversidad de los datos de entrenamiento de IA más allá de la norma occidentalista. Este programa pionero está diseñado para asociarse con varias organizaciones para desarrollar conjuntos de datos públicos y privados integrales para el entrenamiento de modelos de IA.

Abordando el sesgo de datos en la IA
La iniciativa surge en respuesta al problema prevalente del sesgo de datos en la IA. Los modelos de IA tradicionales han mostrado una inclinación significativa hacia los datos de países occidentales, particularmente en las bases de datos de imágenes. Este sesgo se atribuye a la sobrerrepresentación de imágenes occidentales en internet, lo que da como resultado modelos de IA que amplifican inadvertidamente estos sesgos, lo que potencialmente conduce a resultados perjudiciales.
Data Partnerships de OpenAI tiene como objetivo rectificar esto mediante la recopilación de conjuntos de datos extensos que reflejen con mayor precisión la sociedad humana global. Estos conjuntos de datos se centrarán en capturar la intención humana a través de diversos formatos como escritos extensos o diálogos en varios idiomas y temas. Este conjunto de datos más amplio ayudará a los modelos de IA a lograr una comprensión más profunda de diversos temas, industrias, culturas e idiomas.
Lea también:OpenAI lanza GPT Store para chatbots de IA personales sin codificación
Recopilación de datos públicos y privados
El programa trabajará en múltiples modalidades, incluyendo imágenes, audio y video, priorizando datos que representen intenciones humanas, como escritos de formato largo o conversaciones. Para garantizar la integridad de los datos, OpenAI planea utilizar herramientas como el Reconocimiento Óptico de Caracteres y el Reconocimiento Automático de Voz para la digitalización, al mismo tiempo que se preocupa por eliminar información sensible o personal. OpenAI planea desarrollardos tipos de conjuntos de datos. El primer tipo son conjuntos de datos de código abierto, que estarán disponibles gratuitamente para fines de entrenamiento de IA. El segundo tipo son conjuntos de datos privados, diseñados para organizaciones que desean mantener la confidencialidad de los datos al tiempo que permiten que los modelos de OpenAI comprendan mejor sus dominios específicos.
Lea también:OpenAI actualiza discretamente sus 'valores fundamentales' para enfatizar el desarrollo de AGI
Colaboraciones y controversias
La compañía ya ha emprendido asociaciones para mejorar sus capacidades de IA.Las colaboraciones con el gobierno de IslandiayMiðeind ehfhan mejorado la competencia en idioma islandés de GPT-4. De manera similar, una asociación con el Free Law Project ha mejorado la comprensión del modelo de documentos legales. A pesar de la naturaleza aparentemente altruista de esta iniciativa, OpenAI enfrenta críticas por posibles motivos comerciales. El enfoque de mejorar los modelos de OpenAI, potencialmente a expensas de otros sin una compensación justa, ha provocado controversia. Las recientes acciones legales contra OpenAI y Microsoft por parte de creadores y autores han puesto de relieve problemas relacionados con el uso no autorizado de sus obras para entrenar modelos de IA, lo que plantea preguntas sobre el uso ético de los datos y la compensación en la industria de la IA.

