Apple ha puesto a disposición su FastVLM (modelo de lenguaje visual) para probar directamente en un navegador web, lo que permite a los usuarios con Mac con Silicon Apple experimentar sus capacidades de procesamiento de imágenes de alta resolución casi instantánea. El modelo, lanzado inicialmente hace unos meses, aprovecha MLX, el marco de aprendizaje automático abierto de Apple optimizado para Apple Silicon, para lograr un subtítulos de video significativamente más rápido y un tamaño de modelo más pequeño en comparación con sus contrapartes. Se informa que FastVLM es hasta 85 veces más rápido en el subtítulos de video y más de tres veces más pequeño que los modelos comparables. Apple ha ampliado la disponibilidad del proyecto, lo que la hace accesible en la cara de abrazo además de GitHub. Los usuarios ahora pueden cargar el modelo liviano FastVLM-0.5B directamente en su navegador para evaluar su rendimiento. Según las pruebas, la carga del modelo lleva un par de minutos en un MacBook Pro de 16 GB M2 Pro. Una vez cargado, el modelo describe con precisión la apariencia del usuario, el entorno circundante, las expresiones y los objetos a la vista. Los usuarios pueden interactuar con el modelo ajustando el mensaje o seleccionando de opciones preestablecidas como “Describa lo que ve en una oración”, “¿Cuál es el color de mi camisa?”, “Identifique cualquier texto o contenido escrito visible” “¿Qué emociones o acciones están siendo retratadas?” y “Nombra el objeto que tengo en mi mano”. Esto permite una experiencia personalizada e interactiva. Además, los usuarios pueden emplear una aplicación de cámara virtual para alimentar el video en vivo a la herramienta, lo que le permite describir instantáneamente múltiples escenas en detalle. Esto resalta la velocidad y precisión del modelo. Una característica clave de esta implementación es que se ejecuta localmente en el navegador, asegurando la privacidad de los datos ya que no hay datos del dispositivo. El modelo también puede operar fuera de línea, lo que lo hace adecuado para aplicaciones en wearables y tecnología de asistencia, donde la baja latencia y la eficiencia son cruciales. La demostración basada en el navegador utiliza la versión de 0.5 mil millones de parámetros de FastVLM. La familia FastVLM incluye variantes más grandes con 1,5 mil millones y 7 mil millones de parámetros. Si bien estos modelos más grandes podrían ofrecer un rendimiento y velocidad mejorados, ejecutarlos directamente en el navegador es poco probable debido a las limitaciones de recursos. Apple alienta a los usuarios a probar el modelo y compartir sus comentarios.
Source: Apple FastVLM Demo ahora se ejecuta en el navegador en Apple Silicon





