Gemini 1.5 Pro de Google peut désormais entendre

La mise à jour de Google pour Gemini 1.5 Pro permet au modèle d’écouter. Le modèle peut désormais écouter des fichiers audio téléchargés et générer des informations à partir de contenus tels que des appels de résultats ou de l'audio vidéo, sans avoir à se référer à une transcription écrite. Google rend également Gemini 1.5 Pro disponible en avant-première publique pour les utilisateurs ayant accès à Vertex AI.

Capable de traiter du texte, du code, de la vidéo, et désormais des flux audio téléchargés, y compris l'audio de vidéos, Gemini 1.5 Pro peut écouter, analyser et extraire des informations sans avoir besoin d'un enregistrement écrit correspondant. Gemini 1.5 Pro est le robot renommé de Google, précédemment appelé Bard, et Gemini 1.5 Pro est la dernière itération du modèle, mise à disposition d'un nombre limité de développeurs en février de cette année. Google a également annoncé qu'il mettrait Gemini 1.5 Pro à la disposition du public pour la première fois via sa plateforme de création d'applications d'IA, Vertex AI.

Gemini 1.5 Pro a été annoncé pour la première fois en février. Google a partagé les détails de la mise à jour lors de sa conférence Cloud Next à Las Vegas. Après avoir qualifié Gemini Ultra LLM, qui alimente son chatbot avancé Gemini, de modèle le plus puissant de la famille Gemini, Google désigne désormais Gemini 1.5 Pro comme son modèle génératif le plus puissant. L'entreprise ajoute que cette version a de meilleures capacités d'apprentissage et ne nécessite aucun ajustement supplémentaire du modèle. Gemini 1.5 Pro est documenté publiquement pour les utilisateurs qui n'ont pas accès à Vertex AI.

À lire aussi: L'outil de clonage vocal d'OpenAI imite votre voix avec un échantillon de 15 secondes. Modèle de génération texte-image Imagen 2. Gemini 1.5 Pro n'est pas le seul grand modèle d'IA à recevoir une mise à jour de Google. Imagen 2 est un modèle de génération texte-image qui contribuera à améliorer les capacités de génération d'images de Gemini, et ajoutera également des corrections et des réparations qui permettront aux utilisateurs d'ajouter ou de supprimer des éléments d'une image.

De nombreuses nouvelles fonctionnalités d'Imagen, en particulier en inpainting et outpainting, font partie d'autres modèles de génération texte-image comme Stable Cascade de Stability AI et Generative AI by iStock de Getty, sans oublier une disponibilité grand public plus large sur les nouveaux téléphones Samsung Galaxy.

Gemini 1.5 Pro de Google peut désormais entendre

Brief signal

Empreinte opérationnelle

Contexte de marché

À surveiller

Contexte de tendance approfondi

Cercle stratégique

Alliance de leadership

Briefing Cercle stratégique

Briefing Alliance de leadership