OpenAI anunció nuevas funciones de inteligencia de voz para su API diseñadas para ayudar a los desarrolladores a crear aplicaciones interactivas capaces de conversar, transcribir y traducir en tiempo real. El modelo GPT‑Realtime‑2 recientemente lanzado, basado en el razonamiento de clase GPT‑5, tiene como objetivo manejar solicitudes de usuarios más complejas en comparación con su predecesor, GPT-Realtime-1.5.
Además, OpenAI presentó GPT‑Realtime‑Translate, que proporciona servicios de traducción en tiempo real para más de 70 idiomas de entrada y 13 idiomas de salida. Esta función está diseñada para seguir el ritmo de los usuarios durante las conversaciones.
Otra actualización importante es la capacidad GPT-Realtime-Whisper, que ofrece transcripción de voz a texto en vivo para interacciones en tiempo real. “Juntos, los modelos que estamos lanzando trasladan el audio en tiempo real desde una simple llamada y respuesta hacia interfaces de voz que realmente pueden funcionar: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación”, afirmó OpenAI.
Según OpenAI, estas actualizaciones están dirigidas a varias industrias, incluida la atención al cliente, la educación, los medios y los eventos. La compañía señaló que las nuevas funciones también podrían presentar riesgos de uso indebido, como la creación de spam o fraude. Para mitigar esto, OpenAI ha implementado medidas de seguridad diseñadas para detener conversaciones que violan las pautas de contenido dañino.
Todos los nuevos modelos de voz son parte de la API en tiempo real de OpenAI. La estructura de facturación varía: GPT-Realtime-Translate y GPT-Realtime-Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura según el consumo de tokens.








