El asistente Gemini AI de Google ahora admite la carga de archivos de audio, lo que permite a los usuarios transcribir, resumir y extraer información clave de las grabaciones. Esta nueva característica transforma hasta 10 minutos de notas de voz, reuniones, conferencias y entrevistas en documentos con capacidad de búsqueda.

La capacidad de carga de audio está disponible tanto en la web como a través de las aplicaciones móviles, a las que se puede acceder a través de la interfaz estándar de carga de archivos. Según el vicepresidente de Gemini de Google, Josh Woodward, la función de carga de archivos de audio fue la más solicitada por los usuarios.

Esta funcionalidad difiere de Gemini Live, que se centra en comandos de voz en tiempo real, mientras que la nueva función está diseñada para procesar datos de archivos de audio cargados. Durante las pruebas, Gemini transcribió con precisión bocetos de álbumes de comedia y conversaciones telefónicas, con solo errores menores relacionados con el reconocimiento de nombres. La IA también identificó eficazmente elementos clave y elementos adecuados para crear listas de tareas pendientes.

La incorporación del procesamiento de audio se alinea con las mejoras recientes de Gemini, incluida la integración de aplicaciones, una interfaz visual basada en tarjetas y opciones de personalización ampliadas. Esta característica permite a los usuarios convertir notas y registros de audio guardados en contenido con capacidad de búsqueda, agilizando un proceso que anteriormente requería un software de transcripción externo.

  Desafíos antrópicos Lovable con la nueva herramienta de codificación Claude Vibe

Mientras que otros asistentes de IA como ChatGPT (que usa Whisper), Claude de Anthropic y Perplexity también ofrecen capacidades de procesamiento de audio, la implementación de Gemini está orientada a casos de uso cotidianos. Los usuarios pueden aprovechar Gemini para simplificar el lenguaje, aislar comentarios específicos del orador, generar preguntas y crear guías de estudio a partir de contenido de audio.

Sin embargo, el límite de audio de 10 minutos y los límites de uso diario para los usuarios de la capa gratuita pueden restringir la frecuencia de uso. Google aún no ha publicado el precio formal para el procesamiento de audio de alto volumen, ya que actualmente se encuentra dentro de la cuota regular de Gemini. Los usuarios que planeen procesar contenido de audio extenso deben administrar su uso en consecuencia.

En esencia, la nueva función de audio de Gemini proporciona una forma simplificada de procesar y extraer información valiosa de archivos de audio, lo que la convierte en una herramienta útil para diversas aplicaciones personales y profesionales.

  Anthropic lanza Claude Sonnet 4.5 con actualizaciones de codificación