- OpenAI organise un événement ce lundi qui pourrait voir l'annonce d'un nouvel assistant numérique multimodal,
- Être multimodal permettrait à l'assistant d'utiliser des indices visuels, comme reconnaître et interpréter un panneau à l'extérieur, comme invites.
- Cela constitue une menace directe pour Google Assistant et le récemment lancé Gemini, les assistants numériques de l'entreprise.
OpenAI a présenté à certains de ses clients un nouveau modèle d'IA multimodal capable de reconnaître des objets et de converser avec vous, selon un récent rapport du site d'information The Information. Le média affirme l'avoir vu de sources anonymes et spécule qu'il pourrait s'agir d'un aperçu de ce que l'entreprise dévoilera plus tard aujourd'hui.
Nouveau modèle d'IA multimodal
Multimodal fait référence à la capacité de l'IA à traiter plus que du texte comme entrée. Cet assistant numérique supposé serait capable de se connecter à une caméra, de traiter les données du monde extérieur, puis de vous répondre avec des détails supplémentaires sur ce qu'il a observé. Par exemple, vous pourriez demander à ChatGPT de reconnaître et de traduire un panneau pour vous lorsque vous pointez une caméra vers un panneau écrit dans une langue autre que la vôtre. L'IA converserait alors avec vous.
Si cela vous semble familier, c'est parce que Google Lens, Google Assistant et, plus récemment, Google Gemini ont tous déjà accompli cela. ChatGPT est déjà capable de le faire, bien que pas via une interface unique.
Selon les rapports, le nouveau modèle peut interpréter les images et l'audio plus rapidement et avec plus de précision que ses modèles séparés de transcription et de synthèse vocale. The Information affirme que le modèle peut « théoriquement » aider les étudiants en mathématiques ou traduire des panneaux du monde réel et qu'il serait capable d'aider les représentants du service client à « mieux comprendre l'intonation de la voix des appelants ou s'ils sont sarcastiques ».
En d'autres termes, un concurrent direct de Gemini (et, par la suite, de Google Assistant et de Siri d'Apple).
Le modèle peut « répondre à certains types de questions » mieux que le GPT-4 Turbo, mais il peut encore commettre des erreurs assurées, selon des sources proches du média.
Lire aussi: Comment fonctionnent les véhicules autonomes ?
Lire aussi: OpenAI lutte contre la désinformation grâce à une collaboration technologique
Spéculations sur OpenAI
Le développeur Ananay Arora a partagé une capture d'écran du code lié aux appels mentionné ci-dessus, suggérant qu'OpenAI pourrait également préparer une nouvelle fonctionnalité ChatGPT intégrée. Arora a également découvert la preuve qu'OpenAI avait mis en place des serveurs destinés au chat audio et vidéo en temps réel.
De plus, Altman a déclaré que l'entreprise ne sortait pas un nouveau moteur de recherche alimenté par l'IA. Cependant, si le rapport de The Information est exact, cela pourrait tout de même décevoir les attentes de la conférence des développeurs Google I/O.

