• Tous les modèles Gemini sont capables de traiter et d'utiliser plus que de simples mots. Ils ont été pré-entraînés et affinés sur une variété de fichiers audio, d'images et de vidéos, une vaste base de code et du texte dans différentes langues.
  • Les applications et modèles de Gemini sont également totalement indépendants d'Imagen 2 et peuvent être utilisés dans certains outils et environnements de développement de l'entreprise.
  • Comme les modèles Gemini sont multimodaux, ils peuvent théoriquement effectuer une gamme de tâches multimodales.

Google essaie de faire sensation avec Gemini, une suite phare de modèles, applications et services d'IA générative. Mais bien que Gemini semble prometteur à certains égards, comme le révèle notre examen informel, il a donné de mauvais résultats dans d'autres domaines. Alors, qu'est-ce que Gemini ? Comment l'utiliser ? Comment se compare-t-il à ses concurrents ?


Qu'est-ce que Gemini ?

Gemini est la famille tant attendue de modèles GenAI de nouvelle génération, développée par le laboratoire de recherche en IA de Google, DeepMind, et Google Research. Elle se décline en trois versions:

  • Gemini Ultra, le modèle phare de Gemini
  • Gemini Pro, un modèle Gemini « vivant »
  • Gemini Nano, un modèle plus petit et « allégé » qui fonctionne sur des appareils mobiles comme le Pixel 8 Pro
    Tous les modèles Gemini sont entraînés pour être « naturellement multimodaux » – autrement dit, capables de traiter et d'utiliser plus que de simples mots. Ils ont été pré-entraînés et affinés sur une variété de fichiers audio, d'images et de vidéos, une vaste base de code et du texte dans différentes langues. Cela distingue Gemini de modèles comme LaMDA, le modèle de Google spécifiquement entraîné sur des données textuelles. LaMDA ne peut comprendre ou générer autre chose que du texte (par exemple, des articles, des brouillons d'e-mails), mais les modèles Gemini le peuvent.

Quelle est la différence entre l'application Gemini et le modèle Gemini ?

Une fois de plus, Google a montré son manque de compétence en matière de stratégie de marque en ne précisant pas clairement dès le départ que Gemini était distinct de l'application Gemini (anciennement Bard) sur les plateformes web et mobiles. L'application Gemini n'est qu'une interface permettant d'accéder à un certain modèle – on peut l'imaginer comme un client Google GenAI.

En passant, les applications et modèles de Gemini sont également totalement distincts d'Imagen 2, le modèle de génération d'images à partir de texte de Google qui peut être utilisé dans certains outils et environnements de développement de l'entreprise. Ne vous inquiétez pas, vous n'êtes pas les seuls à être confus.

Que peut faire Gemini ?

Comme les modèles Gemini sont multimodaux, ils peuvent théoriquement effectuer une gamme de tâches multimodales, de la transcription vocale à l'ajout de légendes sur des images et des vidéos, en passant par la création d'œuvres d'art. Ces fonctionnalités ne sont pas encore au stade de la production (nous en parlerons plus tard), mais Google les promet toutes, et plus encore, dans un avenir proche. Google a largement déçu lors du lancement initial de Bard. Récemment, l'entreprise a également publié une vidéo censée démontrer les capacités de Gemini, pour finalement s'avérer largement trafiquée et plus ou moins aspirationnelle.

À lire aussi: Le chatbot Bard de Google reçoit la mise à jour Gemini Pro à l'échelle mondiale