• Le projet Ellmann de Google utilise Gemini AI pour des histoires de vie personnalisées à partir des photos des utilisateurs.
  • Google concède sous licence Gemini AI à Google Cloud, permettant un traitement multimodal des informations.
  • Google souligne l'équilibre entre innovation et confidentialité des utilisateurs dans le développement d'Ellmann.

Google a dévoilé « Project Ellmann, » une initiative visionnaire visant à utiliser la technologie de l'IA pour traiter les photos des utilisateurs et les requêtes de recherche. Le projet, qui envisage la création d'un « conteur de vie personnel », s'appuie sur de grands modèles de langage (LLM) tels que Gemini AI pour extraire des informations des photos des utilisateurs et générer un chatbot capable de fournir des réponses précises aux questions des utilisateurs.

L'objectif principal du projet Ellmann est d'offrir aux utilisateurs un aperçu unique et détaillé de leur vie en analysant les modèles dans leurs photos et en transformant ces informations en une expérience d'IA conversationnelle. Bien que l'intégration d'Ellmann dans Google Photos, qui compte plus d'un milliard d'utilisateurs et stocke des billions de photos et de vidéos, reste incertaine, Google explore activement des moyens d'optimiser sa gamme de produits en utilisant les technologies de l'IA.

Gemini AI: une percée multimodale

L'une des récentes additions à la gamme d'IA de Google est Gemini, un modèle qui, dans certains scénarios, a surpassé OpenAI GPT-4. Google a l'intention de concéder sous licence Gemini aux utilisateurs de Google Cloud, leur permettant de développer des fonctionnalités personnalisées. La caractéristique remarquable de Gemini réside dans ses capacités « multimodales », lui permettant de comprendre le texte, les images, les vidéos, l'audio, et plus encore.

Lors d'une réunion interne, un cadre supérieur de Google Photos a présenté le projet Ellmann, soulignant le potentiel des grands modèles de langage pour offrir une « vue d'ensemble » des expériences réelles d'un utilisateur. Ellmann vise à acquérir une compréhension approfondie du contexte grâce à des biographies, des enregistrements antérieurs et des photos. Par exemple, en analysant une série d'extraits, Ellmann peut discerner des thèmes tels que la vie universitaire.

Gemini-AREAs-OF-EXPERTISE
Domaines d'expertise de Gemini (https://gemini-ai.com/)

Lire aussi: Un aperçu de Gemini d'Alphabet, le modèle d'IA visant à défier ChatGPT-4

Ellmann Chat

Selon des documents internes, Google envisage Ellmann Chat, un chatbot qui, lorsqu'il est ouvert, possède déjà une compréhension globale de la vie d'un individu. Les utilisateurs pourraient poser des questions telles que « Est-ce que j'ai un chien ? » et recevoir des réponses détaillées, y compris le nom de l'animal et des informations sur les membres de la famille qui apprécient la compagnie du chien. Ellmann peut également aider avec des questions sur le déménagement en suggérant des villes similaires à l'environnement de vie actuel de l'utilisateur.

Lire aussi: Google lance NotebookLM piloté par l'IA pour une prise de notes améliorée

Équilibrer innovation et considérations éthiques

Google souligne qu'Ellmann est encore en phase d'exploration précoce, et son lancement officiel dépend de la garantie de son utilité pour les utilisateurs tout en répondant aux préoccupations de confidentialité et de sécurité. De nombreuses entreprises technologiques s'efforcent de tirer parti des nouvelles technologies pour créer des souvenirs d'utilisateurs plus personnalisés, le projet Ellmann n'étant qu'un parmi eux.

Que ce soit Google Photos ou les albums d'Apple, les deux plateformes analysent activement les photos pour identifier des modèles et créer des albums automatiquement. Bien que la perspective de souvenirs personnalisés pilotés par l'IA semble prometteuse, les imperfections des technologies de Google et d'Apple, mises en évidence par des incidents passés comme l'identification erronée d'individus, nous rappellent que les défis dans ce domaine persistent.

Le projet Ellmann représente une avancée significative vers une narration personnalisée pilotée par l'IA, redéfinissant potentiellement la manière dont les utilisateurs interagissent avec leurs souvenirs numériques. Alors que la technologie continue de progresser, l'équilibre entre l'innovation et la prise en compte des considérations éthiques reste un aspect critique de ces développements. La direction du développement de l'IA n'a jamais été de remplacer les humains, ni d'effacer l'individualité avec des données « moyennes ».

Les progrès du big data et des algorithmes peuvent aider à raconter des histoires personnalisées, ce qui est une tendance très positive.