El Asistente de AI Gemini de Google ahora admite cargas de archivos de audio, lo que permite a los usuarios transcribir, resumir y extraer información clave de las grabaciones. Esta nueva característica transforma hasta 10 minutos de memorandos de voz, reuniones, conferencias y entrevistas en documentos de búsqueda. La capacidad de carga de audio está disponible tanto en la web como a través de las aplicaciones móviles, accesible a través de la interfaz estándar de archivos-sopload. Según el vicepresidente de Gemini de Google, Josh Woodward, la función de carga de archivos de audio fue la más solicitada por los usuarios. Esta funcionalidad difiere de Gemini Live, que se centra en los comandos de voz en tiempo real, mientras que la nueva función está diseñada para procesar datos de archivos de audio cargados. Durante las pruebas, Gemini transcribió con precisión bocetos de álbumes de comedia y conversaciones telefónicas, con solo errores menores relacionados con el reconocimiento de nombres. La IA también identificó efectivamente elementos y elementos clave adecuados para crear listas de tareas pendientes. La adición de procesamiento de audio se alinea con mejoras recientes de Gemini, incluida la integración de aplicaciones, una interfaz visual basada en tarjetas y opciones de personalización ampliada. Esta característica permite a los usuarios convertir registros de audio guardados y notas en contenido de búsqueda, agilizando un proceso que previamente requería un software de transcripción externa. Mientras que otros asistentes de IA como ChatGPT (usando Whisper), Claude de Anthrope y la perplejidad también ofrecen capacidades de procesamiento de audio, la implementación de Gemini está orientada a los casos de uso cotidiano. Los usuarios pueden aprovechar Gemini para simplificar el lenguaje, aislar los comentarios específicos del hablante, generar preguntas y crear guías de estudio a partir del contenido de audio. Sin embargo, el límite de audio de 10 minutos y los límites de uso diario para usuarios de nivel libre pueden restringir la frecuencia de uso. Google aún no ha publicado precios formales para el procesamiento de audio de alto volumen, ya que actualmente cae bajo la cuota regular de Géminis. Los usuarios que planean procesar contenido de audio extenso deben administrar su uso en consecuencia. En esencia, la nueva función de audio de Gemini proporciona una forma simplificada de procesar y extraer información valiosa de archivos de audio, lo que lo convierte en una herramienta útil para varias aplicaciones personales y profesionales.
Source: Google Gemini ahora admite cargas de archivos de audio
