Google está mejorando Gemini Live con superposiciones visuales que resaltan objetos en la alimentación de su cámara y un nuevo modelo de audio para conversaciones más expresivas. La función de superposición visual lo ayuda a identificar elementos o obtener consejos colocando un rectángulo de bordado blanco alrededor de los objetos a la vista de su cámara. El nuevo modelo de audio nativo está diseñado para conversaciones más receptivas y expresivas.
En el evento realizado por Google del año pasado, Google presentó Gemini Live, una característica diseñada para conversaciones más naturales y manos libres con su chatbot de IA. Desde su debut, Google ha introducido numerosas actualizaciones en Gemini Live, sobre todo la capacidad de compartir la alimentación y la pantalla de su cámara.
Google anunció una mejora importante en las capacidades de intercambio de cámara de Gemini Live y un nuevo modelo de audio para hacer que las interacciones sean aún más naturales.
Durante su presentación en la nueva serie Google Pixel 10, Google detalló varias mejoras en Gemini Live en Android. Primero, cuando comparta la alimentación de su cámara, Gemini Live podrá mostrar superposiciones visuales para resaltar objetos específicos. Estos aspectos destacados aparecen como un rectángulo con bordes blancos alrededor de un objeto, mientras que el resto de la vista está ligeramente atenuada para que se destaque.
Esta característica de “guía visual” está diseñada para ayudarlo a localizar e identificar rápidamente elementos a la vista de su cámara. Por ejemplo, puede usarlo para resaltar el botón correcto en una máquina, señalar un pájaro específico en un rebaño o identificar la herramienta adecuada para un proyecto. También puede usarlo para obtener consejos, como pedirle a Gemini que le recomiende el par de zapatos adecuados para una ocasión.
La característica también puede manejar escenarios más complejos. En una sesión informativa, un gerente de producto de Google compartió un ejemplo personal de un reciente viaje internacional. Estaba luchando por descubrir si podía estacionar en cierto lugar, incapaz de dar sentido a los letreros en idioma extranjero, las marcas de la carretera y las regulaciones locales. Después de sacar su teléfono y abrir Gemini Live, señaló su cámara en la escena y preguntó si estaba permitido estacionamiento. Géminis buscó las reglas locales, tradujo los letreros y luego destacó un lugar en la calle donde podía estacionar gratis durante las próximas dos horas.
La orientación visual en Gemini Live estará disponible fuera de la caja en la serie Google Pixel 10 y comenzará a llegar a otros dispositivos Android la próxima semana. La característica se expandirá a los dispositivos iOS en las próximas semanas. No se requerirá una suscripción de Google AI Pro o Ultra.
Junto con las superposiciones visuales, Google está actualizando Gemini Live con un nuevo modelo de audio nativo diseñado para conversaciones más receptivas y expresivas.
Primero, este nuevo modelo responderá más apropiadamente a lo que usted dice. Por ejemplo, si estás charlando sobre un tema estresante, responderá con una voz más tranquila y “medida”.
Google dice que también podrá controlar cómo le habla el nuevo modelo de audio. Si tiene problemas para mantenerse al día con lo que Gemini está diciendo, por ejemplo, puede pedirle que hable más lentamente. O si tienes prisa, puedes pedirle que acelere las cosas.
Por último, incluso puedes conseguir que te cuente una historia dramática desde la perspectiva de una figura histórica. “Pídale a Gemini que le cuente sobre el Imperio Romano desde la perspectiva del propio Julius Caesar, y obtenga una narrativa rica y atractiva con acentos de personajes”, dice Google en su publicación de blog.
La nueva función visual de Gemini Live es más adecuada para las gafas de Android XR, pero es bueno tenerla disponible ahora en el móvil ya que todavía estamos bastante lejos de tener nuestras manos en esas gafas.
Este artículo se actualizó a las 7:50 pm ET para corregir la sección sobre el modelo de audio natural, así como agregar activos de demostración de la publicación de blog de Google.
Source: Google Gemini Live agrega superposiciones visuales y un nuevo modelo de audio

