• Google está incorporando Gemini Nano, el más pequeño de sus modelos de IA, directamente en el cliente de escritorio de Chrome, a partir de Chrome 126.
  • Google está haciendo posible que muchas de las API avanzadas de Chrome puedan traducir, añadir subtítulos y transcribir texto en el navegador utilizando su modelo Gemini.

En la conferencia de desarrolladores Google I/O 2024 del martes, Google anunció que está incorporando su modelo de IA más pequeño,Gemini Nano, directamente en el cliente de escritorio de Chrome, a partir de Chrome 126.

El modelo de IA Gemini Nano en Chrome para escritorio

Gemini, que se presenta en 3 tipos como Gemini Ultra, Gemini Pro y Gemini Nano, es lalargamente prometidafamilia de modelos GenAI de próxima generación de Google, desarrollada por los laboratorios de investigación de IA de Google, DeepMind y Google Research. Gemini Nano, un modelo “destilado” más pequeño, se ejecuta en dispositivos móviles como el Pixel 8 Pro. La compañía afirma que es el trabajo reciente en soporte WebGPU y WASM en Chrome lo que permite que estos modelos se ejecuten a una velocidad razonable en una amplia gama de hardware.

Durante una sesión informativa previa al anuncio del martes, Jon Dahlke, director de gestión de productos de Chrome de Google, mencionó que estaban en curso conversaciones con otros proveedores de navegadores para implementar esta capacidad —u otra comparable— también en sus respectivos navegadores.

“Hemos comenzado a interactuar con otros navegadores y abriremos un programa de vista previa anticipada para desarrolladores”, escribió Dahlke en el anuncio del martes. “Con WebGPU, WASM y Gemini integrados en Chrome, creemos que la web ESTÁ lista para la IA”.

Lea también:Se espera que Gemini de Google llegue a los teléfonos Android el próximo año

Lea también:Un vistazo a Gemini de Alphabet, el modelo de IA que aspira a desafiar a ChatGPT-4

Asistente de escritura

Google está habilitando numerosas API avanzadas dentro de Chrome para utilizar su modelo Gemini en tareas como traducción, subtitulado y transcripción de texto directamente en el navegador. Según la compañía, esto permitirá a los desarrolladores aprovechar el modelo en el dispositivo para sus propias funcionalidades de IA. Google tiene la intención de utilizar esta capacidad mejorada para admitir funciones como la herramienta actual “ayúdame a escribir” de Workspace Lab en Gmail.

Hasta ahora, impulsa un par de funciones en el Pixel 8 Pro, Pixel 8 y Samsung Galaxy S24, incluidas Resumir en Grabadora y Respuesta inteligente en Gboard. La aplicación Grabadora, que permite a los usuarios simplemente presionar un botón para grabar y transcribir audio, ahora presenta un resumen impulsado por Gemini de sus discusiones, entrevistas, presentaciones y otros segmentos grabados.

Dahlke dijo durante la conferencia magistral para desarrolladores en I/O: “Ahora queremos darles acceso a los modelos Gemini en Chrome. Nuestra visión es ofrecer los modelos de IA más potentes en Chrome para llegar a miles de millones de usuarios sin tener que preocuparse por la ingeniería de prompts, el ajuste fino, la capacidad y el costo. Todo lo que tienen que hacer es llamar a unas pocas API de alto nivel: traducir, subtitular, transcribir. Este es un gran cambio para la web y queremos hacerlo bien”.