- Apple s'est associée à l'UC Santa Barbara pour lancer MGIE, qui permet aux utilisateurs de retoucher des photos en les décrivant par texte.
- MGIE est plus efficace et flexible en utilisant les invites textuelles de l'utilisateur et en générant des retouches visuelles.
- Mais les applications futures de MGIE sont encore incertaines.
Des chercheurs d'Apple ont dévoilé un nouveau modèle permettant aux utilisateurs de décrire comment ils souhaitent modifier leurs photos en langage simple, sans avoir à toucher à un logiciel de retouche photo.
Un nouveau modèle
Des chercheurs d'Apple, en collaboration avec l'UC Santa Barbara, ont présenté MGIE, un modèle novateur qui permet de décrire les retouches photo par texte sans utiliser directement de logiciel de retouche. Ce modèle d'édition guidé par MLLM peut être recadré, redimensionné, retourné et des filtres peuvent lui être appliqués pour s'adapter aussi bien aux tâches de base qu'aux tâches complexes. En interprétant les invites des utilisateurs et en générant des retouches visuelles, MGIE permet aux utilisateurs de simplement saisir les modifications souhaitées.
Lire aussi: Apple s'apprête à dévoiler des innovations en IA générative plus tard cette année
Une réponse plus intelligente
Pour retoucher une photo avec MGIE, il suffit de fournir l'image à modifier. L'article prend l'exemple de la retouche d'une photo de pizza pepperoni. Saisir l'invite « Rendez-la plus saine » ajoutera des garnitures de légumes. Une photo d'un tigre dans le désert du Sahara semble sombre, mais après avoir demandé au modèle d'« ajouter plus de contraste pour simuler plus de lumière », la photo devient plus lumineuse.
Encore incertain
Apple a annoncé MGIE sur GitHub et a publié une démo web sur Hugging Face Spaces, mais son application future reste incertaine. Cette avancée est similaire à d'autres plateformes telles que DALL-E 3 d'OpenAI, qui utilisent également des entrées textuelles pour la retouche d'image.

