GPT-4o Mini: OpenAI contre l'astuce d'ignorer les instructions

Le dernier modèle d’OpenAI contrecarre l’astuce « ignorer toutes les instructions précédentes »

OpenAI a présenté GPT-4o Mini, qui utilise la technique de sécurité de la « hiérarchie des instructions » pour protéger les chatbots contre les commandes trompeuses. La mise à jour de GPT-4o Mini par OpenAI arrive à point nommé, compte tenu des débats en cours sur la sécurité et la transparence de l’IA, avec des appels internes et externes à l’amélioration des pratiques.

OpenAI a présenté GPT-4o Mini, qui utilise la technique de sécurité de la « hiérarchie des instructions » pour protéger les chatbots contre les commandes trompeuses.
La mise à jour de GPT-4o Mini par OpenAI arrive à point nommé, compte tenu des débats en cours sur la sécurité et la transparence de l’IA, avec des appels internes et externes à l’amélioration des pratiques.

NOTRE AVIS
Dans le contexte du développement rapide de l’IA, la question de la sécurité et de la fiabilité est au cœur des préoccupations du secteur. Récemment, OpenAI a lancé son dernier modèle, GPT-4o Mini, qui vise à relever un défi technique de longue date: empêcher les chatbots d’être manipulés par des commandes malveillantes. Cette innovation démontre non seulement les progrès de l’IA en matière d’autoprotection, mais reflète également les efforts des entreprises technologiques pour améliorer l’expérience utilisateur et sécuriser les données.
–Elodie Qian, journaliste BTW

Que s’est-il passé

OpenAI a présenté GPT-4o Mini, un nouveau modèle qui s’attaque à l’astuce « ignorer toutes les instructions précédentes ». Ce modèle utilise une technique de sécurité appelée « hiérarchie des instructions », qui renforce les défenses d’un modèle contre les abus et les instructions non autorisées. Les modèles dotés de cette technique priorisent les invites du développeur d’origine par rapport à toute tentative de l’utilisateur de le tromper.

Olivier Godement, qui dirige le produit de la plateforme API chez OpenAI, a expliqué que la hiérarchie des instructions empêchera les injections de prompt devenues virales (c’est-à-dire tromper l’IA avec des commandes sournoises) que l’on voit partout sur Internet.

« Cela apprend essentiellement au modèle à suivre et à se conformer réellement au message système du développeur », a déclaré Godement. Lorsqu’on lui a demandé si cela signifiait que cela devrait arrêter l’attaque « ignorer toutes les instructions précédentes », Godement a répondu: « C’est exactement cela. »

« En cas de conflit, vous devez d’abord suivre le message système. Nous avons donc mené [des évaluations], et nous nous attendons à ce que cette nouvelle technique rende le modèle encore plus sûr qu’auparavant », a-t-il ajouté.

Cette innovation s’aligne sur l’objectif d’OpenAI de développer des agents numériques entièrement automatisés. L’entreprise a récemment annoncé qu’elle était sur le point de créer de tels agents. La méthode de hiérarchie des instructions est jugée essentielle pour garantir la sécurité avant le déploiement à grande échelle de ces agents. Sans de telles mesures, un agent, destiné à des tâches bénignes comme la rédaction d’e-mails, risque d’être manipulé pour effectuer des actions nuisibles, telles que la fuite d’informations sensibles.

Pourquoi c’est important

Les grands modèles de langage existants, comme l’explique l’article de recherche, ne font pas la distinction entre les invites de l’utilisateur et les instructions du système. La hiérarchie des instructions de GPT-4o Mini élève les instructions du système, leur donnant la priorité la plus élevée, tandis que les invites mal alignées sont rétrogradées. Le modèle est entraîné à identifier et à ignorer les invites nuisibles, répondant par une incapacité à aider.

« Nous envisageons que d’autres types de garde-fous plus complexes devraient exister à l’avenir, en particulier pour les cas d’utilisation agentiques, par exemple, l’Internet moderne est chargé de dispositifs de sécurité allant des navigateurs web qui détectent les sites dangereux aux classificateurs de spam basés sur l’apprentissage automatique pour les tentatives d’hameçonnage », indique l’article de recherche.

La mise à jour de GPT-4o Mini par OpenAI est une étape importante vers l’amélioration de la sécurité de l’IA. Cette initiative arrive à point nommé, compte tenu des débats en cours sur la sécurité et la transparence de l’IA, avec des appels internes et externes à l’amélioration des pratiques.

Il y a eu une lettre ouverte d’employés actuels et anciens d’OpenAI exigeant de meilleures pratiques de sécurité et de transparence, l’équipe responsable de maintenir les systèmes alignés sur les intérêts humains (comme la sécurité) a été dissoute, et Jan Leike, un chercheur clé d’OpenAI qui a démissionné, a écrit dans un post que « la culture et les processus de sécurité sont passés au second plan derrière les produits brillants » dans l’entreprise.

Étant donné que la confiance dans la fiabilité de l’IA est primordiale, l’accent mis par OpenAI sur les fonctionnalités de sécurité est essentiel pour rétablir la confiance et permettre à l’IA d’assumer des rôles plus critiques dans la gestion de notre vie numérique. Cet engagement en faveur de la sécurité est une étape cruciale vers une IA à la fois fiable et digne de confiance.

Le dernier modèle d’OpenAI contrecarre l’astuce « ignorer toutes les instructions précédentes »

Que s’est-il passé

Pourquoi c’est important

Brief signal

Surface opérationnelle

Contexte de marché

À surveiller

Contexte de tendance approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership