Briefing signal / Tendances services cloud mondiales

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle

La technologie ChatGPT d'OpenAI est devenue virale en moins d'un an, impactant les modes de travail et l'avenir de l'industrie. Déjà, la moitié des employés de grandes entreprises l'utilisent quotidiennement. Cependant, l'IA risque une crise due à l'épuisement des données d'entraînement. Découvrez comment éviter l'effondrement des modèles.

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle
CatégorieTendances services cloud mondiales

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle est suivie en tant qu'institution d'infrastructure Internet au sein de l'écosystème de l'infrastructure Internet.

RégionMonde

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle a une pertinence de source publique pour les opérations de réseau, la gouvernance, la cartographie des dépendances ou la structure du marché.

Signal suiviMarché

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle est suivie en tant qu'institution d'infrastructure Internet au sein de l'écosystème de l'infrastructure Internet.

Domaine principalMarché

Marché cadre les preuves de ce dossier.

SujetMarché

La technologie ChatGPT d'OpenAI est devenue virale en moins d'un an, impactant les modes de travail et l'avenir de l'industrie. Déjà, la moitié des employés de grandes entreprises l'utilisent quotidiennement. Cependant, l'IA risque une crise due à l'épuisement des données d'entraînement. Découvrez comment éviter l'effondrement des modèles.

ImpactMoyen

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle porte un impact Moyen dans ce dossier.

ConfianceConfiance limitée (76%)

Plusieurs sources publiques

Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle est profilée par BTW Media car les preuves publiées la lient à l'infrastructure Internet, à la gouvernance, aux dépendances opérationnelles ou à la visibilité du marché.

La technologie ChatGPT d'OpenAI est devenue virale en moins d'un an et a déjà un impact sur les modes de travail et l'avenir de l'industrie.

La technologie ChatGPT d'OpenAI est devenue virale en moins d'un an et a déjà un impact sur les modes de travail et l'avenir de l'industrie. Dans certaines des plus grandes entreprises mondiales, près de la moitié des employés utilisent déjà ce type de technologie au quotidien. D'innombrables entreprises ont investi dans le domaine de l'IA, se précipitant pour lancer de nouveaux produits, en particulier dans l'Internet, l'éducation, les jeux et d'autres secteurs en croissance.

Il est bien connu que les données utilisées pour entraîner les grands modèles de langage (LLM) et d'autres modèles de transformation qui soutiennent des produits tels que ChatGPT, Stable Diffusion et Midjourney provenaient à l'origine de sources humaines. Ces sources comprennent des livres, des articles, des photographies et d'autres œuvres entièrement originales de l'homme.

La taille des paramètres des modèles à grande échelle ne cesse de croître, passant de milliards à des dizaines de milliards, puis à des centaines de milliards. À cette explosion s'ajoute la quantité de données nécessaires pour entraîner l'IA, qui augmente de façon exponentielle. Prenons l'exemple de GPT d'OpenAI: de GPT-1 à GPT-3, la taille du jeu de données d'entraînement est passée de 4,5 Go à 570 Go.

Il y a peu, lors de la conférence Data+AI organisée par Databricks, Marc Andreessen, fondateur de a16z, estimait que les données massives accumulées par Internet au cours des deux dernières décennies sont une raison importante de l'essor d'une nouvelle vague d'IA. Il considère les données comme d'excellentes sources de matériel d'apprentissage pour l'entraînement de l'IA.

Cependant, malgré l'énorme quantité de données utiles et inutiles laissées par les internautes sur le Web, ces données pourraient bientôt s'épuiser pour l'entraînement de l'IA.

Un article publié par Epoch, une organisation de recherche et de prévision en intelligence artificielle, prédit que les données textuelles de haute qualité seront épuisées entre 2023 et 2027.

Bien que l'équipe de recherche reconnaisse que les méthodes d'analyse présentent de sérieuses limites et que les imprécisions du modèle sont élevées, il est difficile de nier que l'IA consomme des jeux de données à un rythme alarmant.

Récemment, des chercheurs de University of Cambridge, University of Oxford, University of Toronto et d'autres universités ont publié un article soulignant que l'utilisation de contenu généré par l'IA pour entraîner l'IA peut conduire à l'effondrement des nouveaux modèles.

Les chercheurs ont conclu: « L'apprentissage à partir de données générées par d'autres modèles conduit à l'effondrement du modèle – un processus de dégradation dans lequel le modèle oublie la véritable distribution de données sous-jacente au fil du temps. Ce processus est inévitable, même dans une situation d'entraînement idéale sur une longue période. »

Quelle est la raison pour laquelle l'utilisation de « données générées » pour entraîner l'IA provoque l'effondrement du modèle? Existe-t-il un moyen de l'empêcher?

À ce stade, l'IA en est encore à l'imitation primitive de la pensée humaine et son cœur reste un programme statistique. Les chercheurs pensent que l'entraînement de l'IA avec du contenu généré par l'IA produira une « erreur d'approximation statistique ». En effet, au cours du processus statistique, le contenu à probabilité plus élevée est davantage renforcé, et le contenu à probabilité plus faible est continuellement ignoré, ce qui est la principale cause de l'effondrement du modèle.

Cela affecte les performances, la fiabilité et la sécurité du modèle. Les chercheurs avertissent que l'effondrement du modèle est un phénomène grave qui nécessite l'attention des développeurs de LLM et des utilisateurs. « Nous pensons que ce problème deviendra l'un des défis majeurs pour la communauté de l'apprentissage automatique dans les prochaines années », ont-ils déclaré.

Mais tout espoir n'est pas perdu.

La première approche est l'isolement des données. Pour faire face à l'effondrement du modèle, l'équipe de recherche suggère de séparer les sources de données proprement générées par l'homme du contenu généré par l'IA afin d'éviter la contamination des données propres par l'IA générative (AIGC).

La seconde est l'utilisation de données synthétiques. En fait, les données générées spécifiquement pour l'IA sont déjà largement utilisées pour l'entraînement de l'IA. Pour certains praticiens, l'inquiétude actuelle concernant les données générées par l'IA menant à l'effondrement du modèle pourrait être exagérée. Par conséquent, la clé est d'établir un système efficace pour confirmer la partie valide des données générées par l'IA et fournir un retour d'information basé sur l'efficacité du modèle entraîné. L'utilisation par OpenAI de données synthétiques pour l'entraînement des modèles est devenue un consensus au sein de l'industrie de l'IA.

En conclusion, malgré le problème de l'épuisement des données humaines, l'entraînement de l'IA n'est pas sans solutions. Grâce à l'isolement des données et à l'utilisation de données synthétiques, le problème de l'effondrement du modèle peut être efficacement surmonté et le développement continu de l'IA peut être assuré.

Brief signal

  • Signal: Crise de l'IA causée par l'épuisement des données: Comment sauver un effondrement imminent du modèle
  • Type de signal: Sujet associé
  • Région: Monde
  • Classe de marché: Tendances services cloud mondiales

Surface opérationnelle

  • Les sources publiées doivent identifier les parties touchées, la surface opérationnelle et l'exposition de marché avant que cette carte de tendance soit considérée comme complète.

Contexte de marché

  • Pertinence opérationnelle: Moyen
  • Horizon: Prochain trimestre

À surveiller

  • Surveiller les déclarations officielles, les évolutions réglementaires, l'exposition clients ou partenaires et les publications de suivi.

Briefing membre

Contexte de tendance approfondi

Connectez-vous avec le bon niveau d'adhésion pour débloquer le briefing complet et les notes de source.

Réservé au Cercle stratégique

Cercle stratégique

Ouvert à tous les lecteurs. Débloquez les briefings de tendance après adhésion et connexion.

Rejoindre le Cercle stratégique

Réservé à l'Alliance de leadership

Alliance de leadership

Pour les opérateurs, investisseurs et équipes politiques qui ont besoin de preuves relationnelles, de scénarios d'échec et de notes de source. Connectez-vous pour débloquer.

Rejoindre l'Alliance de leadership
RetourPlus de couverture: Tendances services cloud mondiales