OpenAI est désormais capable de reconnaissance vocale et d'image est profilé par BTW Media car des preuves publiées le lient à l'infrastructure Internet, à la gouvernance, aux dépendances opérationnelles ou à la visibilité du marché.
OpenAI est désormais capable de reconnaissance vocale et d'image est suivi en tant qu'institution d'infrastructure Internet au sein de l'écosystème d'infrastructure Internet.
OpenAI est désormais capable de reconnaissance vocale et d'image a une pertinence de source publique pour les opérations de réseau, la gouvernance, la cartographie des dépendances ou la structure du marché.
OpenAI est désormais capable de reconnaissance vocale et d'image est suivi en tant qu'institution d'infrastructure Internet au sein de l'écosystème d'infrastructure Internet.
Marché cadre les preuves de ce dossier.
Crédit image: Rawpixel via Freepik OpenAI a introduit une série d'améliorations révolutionnaires, dont deux fonctionnalités phares: l'interaction vocale et la reconnaissance d'image. Dialoguer littéralement avec ChatGPT L'une des améliorations les plus significatives est l'ajout de l'interaction vocale à ChatGPT qui permet…
OpenAI est désormais capable de reconnaissance vocale et d'image porte un impact Moyen dans ce dossier.
Plusieurs sources publiques
Crédit image: Rawpixel via Freepik
OpenAI a lancé une série d'améliorations révolutionnaires, dont deux fonctionnalités phares: l'interaction vocale et la reconnaissance d'image.
Dialoguer littéralement avec ChatGPT
L'une des améliorations les plus importantes est l'ajout de l'interaction vocale à ChatGPT, qui permet aux utilisateurs d'avoir des conversations parlées avec l'IA. Choisissez parmi une sélection de cinq voix synthétiques réalistes, chacune conçue pour offrir une expérience conversationnelle naturelle. C'est comme avoir une conversation téléphonique en temps réel avec un chatbot, ChatGPT répondant rapidement à vos questions orales.
La technologie sous-jacente repose sur deux modèles distincts. Whisper d'OpenAI, un modèle de reconnaissance vocale préexistant, convertit les paroles en texte, qui est ensuite transmis à ChatGPT. Inversement, un nouveau modèle de synthèse vocale transforme les réponses de ChatGPT en langage parlé.
Lors d'une démonstration récente, Joanne Jang, chef de produit chez OpenAI, a présenté la gamme de voix synthétiques. Ces voix ont été minutieusement conçues en entraînant le modèle de synthèse vocale sur les voix d'acteurs engagés. OpenAI envisage même un avenir où les utilisateurs pourront créer leurs propres voix personnalisées. Le critère principal pour la création de ces voix était de s'assurer qu'elles soient agréables et faciles à écouter.
Cette avancée s'étend au-delà de ChatGPT, car OpenAI partage son modèle de synthèse vocale avec d'autres entreprises, dont Spotify. Spotify, par exemple, utilise cette technologie de voix synthétique pour traduire des podcasts de célébrités en plusieurs langues en utilisant des versions synthétiques des voix des podcasteurs.
La reconnaissance d'image désormais possible
Un autre ajout révolutionnaire à ChatGPT est la reconnaissance d'image. Cette fonctionnalité, qu'OpenAI avait annoncée avec l'introduction de GPT-4, permet désormais aux utilisateurs de télécharger des images dans l'application et de l'interroger sur le contenu de ces images. Cela signifie que vous pouvez poser des questions à ChatGPT sur du contenu visuel.
Dans une démonstration pratique, Raul Puri, un scientifique travaillant sur GPT-4, a téléchargé une photo d'un problème de mathématiques et a demandé à ChatGPT une solution. De manière impressionnante, ChatGPT a fourni les étapes correctes. Les utilisateurs ont également utilisé cette fonctionnalité pour résoudre des problèmes techniques en téléchargeant des captures d'écran et en demandant des conseils.
De plus, la capacité de reconnaissance d'image de ChatGPT a été utilisée par Be My Eyes, une application conçue pour aider les personnes ayant une déficience visuelle. Les utilisateurs peuvent télécharger des images et demander au chatbot de les décrire, offrant un nouveau niveau d'indépendance.
Cependant, OpenAI est parfaitement conscient des risques potentiels de ces mises à jour, surtout lorsqu'on combine différents modèles d'IA. Par exemple, les utilisateurs ne peuvent pas poser de questions sur des photos contenant des personnes privées. L'entreprise reconnaît la nécessité de faire preuve de vigilance pour éviter les abus et s'engage à protéger à la fois les utilisateurs et les non-utilisateurs contre tout préjudice.
Défis à venir pour ChatGPT
Ces mises à jour marquent l'évolution rapide des modèles expérimentaux d'OpenAI en produits pratiques. ChatGPT Plus, la version premium de l'application, combine GPT-4 et DALL-E, ce qui en fait un concurrent redoutable pour les assistants vocaux comme Siri, Google Assistant et Alexa. Ce qui était autrefois accessible uniquement à certains développeurs de logiciels est désormais disponible pour tous pour un abonnement mensuel de 20 $.
Alors que ChatGPT étend ses capacités à « voir, entendre et parler », il y a des défis à prendre en compte. La reconnaissance vocale peut poser des problèmes d'accessibilité pour les personnes ayant des accents non traditionnels. De plus, les voix synthétiques ont des implications sociales et culturelles qui nécessitent une exploration plus approfondie.
OpenAI affirme toutefois avoir résolu les principales préoccupations et estime que ces mises à jour peuvent être publiées en toute sécurité. Le voyage pour affiner et étendre les capacités de l'IA se poursuit, avec ChatGPT en tête. Bien qu'il y ait certainement des défis et des questions à résoudre, cette dernière mise à jour représente une étape importante vers la création d'assistants IA plus puissants et interactifs.
Brief signal
- Signal: OpenAI est désormais capable de reconnaissance vocale et d'image
- Type de signal: Sujet associé
- Région: Monde
- Classe de marché: Tendances services cloud mondiales
Surface opérationnelle
- Les sources publiées doivent identifier les parties touchées, la surface opérationnelle et l'exposition de marché avant que cette carte de tendance soit considérée comme complète.
Contexte de marché
- Pertinence opérationnelle: Moyen
- Horizon: Prochain trimestre
À surveiller
- Surveiller les déclarations officielles, les évolutions réglementaires, l'exposition clients ou partenaires et les publications de suivi.
Briefing membre
Contexte de tendance approfondi
Connectez-vous avec le bon niveau d'adhésion pour débloquer le briefing complet et les notes de source.
Réservé au Cercle stratégique
Cercle stratégique
Ouvert à tous les lecteurs. Débloquez les briefings de tendance après adhésion et connexion.
Rejoindre le Cercle stratégiqueRéservé à l'Alliance de leadership
Alliance de leadership
Pour les opérateurs, investisseurs et équipes politiques qui ont besoin de preuves relationnelles, de scénarios d'échec et de notes de source. Connectez-vous pour débloquer.
Rejoindre l'Alliance de leadership
