Crise IA causée par l'épuisement des données: comment sauver

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle

La technologie ChatGPT d'OpenAI est devenue virale en moins d'un an, impactant les modes de travail et l'avenir de l'industrie. Déjà, la moitié des employés de grandes entreprises l'utilisent quotidiennement. Cependant, l'IA risque une crise due à l'épuisement des données d'entraînement. Découvrez comment éviter l'effondrement des modèles.

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle est profilée par BTW Media car les preuves publiées la lient à l'infrastructure Internet, à la gouvernance, aux dépendances opérationnelles ou à la visibilité du marché.

La technologie ChatGPT d'OpenAI est devenue virale en moins d'un an et a déjà un impact sur les modes de travail et l'avenir de l'industrie.

La technologie ChatGPT d'OpenAI est devenue virale en moins d'un an et a déjà un impact sur les modes de travail et l'avenir de l'industrie. Dans certaines des plus grandes entreprises mondiales, près de la moitié des employés utilisent déjà ce type de technologie au quotidien. D'innombrables entreprises ont investi dans le domaine de l'IA, se précipitant pour lancer de nouveaux produits, en particulier dans l'Internet, l'éducation, les jeux et d'autres secteurs en croissance.

Il est bien connu que les données utilisées pour entraîner les grands modèles de langage (LLM) et d'autres modèles de transformation qui soutiennent des produits tels que ChatGPT, Stable Diffusion et Midjourney provenaient à l'origine de sources humaines. Ces sources comprennent des livres, des articles, des photographies et d'autres œuvres entièrement originales de l'homme.

La taille des paramètres des modèles à grande échelle ne cesse de croître, passant de milliards à des dizaines de milliards, puis à des centaines de milliards. À cette explosion s'ajoute la quantité de données nécessaires pour entraîner l'IA, qui augmente de façon exponentielle. Prenons l'exemple de GPT d'OpenAI: de GPT-1 à GPT-3, la taille du jeu de données d'entraînement est passée de 4,5 Go à 570 Go.

Il y a peu, lors de la conférence Data+AI organisée par Databricks, Marc Andreessen, fondateur de a16z, estimait que les données massives accumulées par Internet au cours des deux dernières décennies sont une raison importante de l'essor d'une nouvelle vague d'IA. Il considère les données comme d'excellentes sources de matériel d'apprentissage pour l'entraînement de l'IA.

Cependant, malgré l'énorme quantité de données utiles et inutiles laissées par les internautes sur le Web, ces données pourraient bientôt s'épuiser pour l'entraînement de l'IA.

Un article publié par Epoch, une organisation de recherche et de prévision en intelligence artificielle, prédit que les données textuelles de haute qualité seront épuisées entre 2023 et 2027.

Bien que l'équipe de recherche reconnaisse que les méthodes d'analyse présentent de sérieuses limites et que les imprécisions du modèle sont élevées, il est difficile de nier que l'IA consomme des jeux de données à un rythme alarmant.

Récemment, des chercheurs de University of Cambridge, University of Oxford, University of Toronto et d'autres universités ont publié un article soulignant que l'utilisation de contenu généré par l'IA pour entraîner l'IA peut conduire à l'effondrement des nouveaux modèles.

Les chercheurs ont conclu: « L'apprentissage à partir de données générées par d'autres modèles conduit à l'effondrement du modèle – un processus de dégradation dans lequel le modèle oublie la véritable distribution de données sous-jacente au fil du temps. Ce processus est inévitable, même dans une situation d'entraînement idéale sur une longue période. »

Quelle est la raison pour laquelle l'utilisation de « données générées » pour entraîner l'IA provoque l'effondrement du modèle? Existe-t-il un moyen de l'empêcher?

À ce stade, l'IA en est encore à l'imitation primitive de la pensée humaine et son cœur reste un programme statistique. Les chercheurs pensent que l'entraînement de l'IA avec du contenu généré par l'IA produira une « erreur d'approximation statistique ». En effet, au cours du processus statistique, le contenu à probabilité plus élevée est davantage renforcé, et le contenu à probabilité plus faible est continuellement ignoré, ce qui est la principale cause de l'effondrement du modèle.

Cela affecte les performances, la fiabilité et la sécurité du modèle. Les chercheurs avertissent que l'effondrement du modèle est un phénomène grave qui nécessite l'attention des développeurs de LLM et des utilisateurs. « Nous pensons que ce problème deviendra l'un des défis majeurs pour la communauté de l'apprentissage automatique dans les prochaines années », ont-ils déclaré.

Mais tout espoir n'est pas perdu.

La première approche est l'isolement des données. Pour faire face à l'effondrement du modèle, l'équipe de recherche suggère de séparer les sources de données proprement générées par l'homme du contenu généré par l'IA afin d'éviter la contamination des données propres par l'IA générative (AIGC).

La seconde est l'utilisation de données synthétiques. En fait, les données générées spécifiquement pour l'IA sont déjà largement utilisées pour l'entraînement de l'IA. Pour certains praticiens, l'inquiétude actuelle concernant les données générées par l'IA menant à l'effondrement du modèle pourrait être exagérée. Par conséquent, la clé est d'établir un système efficace pour confirmer la partie valide des données générées par l'IA et fournir un retour d'information basé sur l'efficacité du modèle entraîné. L'utilisation par OpenAI de données synthétiques pour l'entraînement des modèles est devenue un consensus au sein de l'industrie de l'IA.

En conclusion, malgré le problème de l'épuisement des données humaines, l'entraînement de l'IA n'est pas sans solutions. Grâce à l'isolement des données et à l'utilisation de données synthétiques, le problème de l'effondrement du modèle peut être efficacement surmonté et le développement continu de l'IA peut être assuré.

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle

Brief signal

Surface opérationnelle

Contexte de marché

À surveiller

Contexte de tendance approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership