Los investigadores del MIT CSAIL han desarrollado PDDL-Instructo, un marco de ajuste de instrucciones diseñado para mejorar las capacidades de planificación de varios pasos de modelos de idiomas grandes (LLM). El método combina el razonamiento lógico de la cadena de pensamiento con un validador del plan externo para aumentar la generación de planes lógicamente válidos sobre salidas plausibles pero incorrectas. El marco entrena modelos para reconocer y explicar por qué un plan candidato ha fallado. Estas fallas pueden incluir condiciones previas insatisfechas, efectos incorrectos, violaciones de marco o un objetivo insatisfecho. Este proceso se combina con indicaciones lógicas de la cadena de pensamiento que guían a la LLM a realizar una inferencia paso a paso sobre las transiciones de estado y de acción. Esto produce secuencias de estado rastreables → Acción → Estado, escritas como ⟨Sᵢ, Aᵢ₊₁, Sᵢ₊₁⟩. Para la validación externa, PDDL-Instructo integra el validador del plan Val, que verifica cada paso del plan generado. El validador proporciona retroalimentación que es binaria (válida/inválida) o detallada, con la retroalimentación detallada que resulta en un rendimiento superior. El sistema utiliza un proceso de optimización de dos etapas. La primera etapa penaliza los errores en las cadenas de razonamiento, y la segunda etapa optimiza la precisión de la planificación final. El sistema se evaluó utilizando el punto de referencia de PlanBench, que incluye dominios de planificación conocidos por desafiar a LLM, como Blocksworld, Mystery Blocksworld y Logistics. En el dominio Blocksworld, un modelo Tuned Llama-3-8B logró una tasa del 94% de generación de planes válidos. Los modelos anteriores tenían una validez cercana a cero en Mystery Blocksworld, un dominio donde los nombres de predicados se ofusen para evitar la coincidencia de patrones. PDDL-Instructo logró una mejora de 64 veces en este dominio. También se registraron ganancias de rendimiento significativas en el dominio logístico. En todos los dominios de prueba, el marco se entregó hasta una mejora absoluta del 66% en comparación con los modelos de referencia sintonizados. Los investigadores también señalaron que el rendimiento mejoró con presupuestos de retroalimentación más largos y una producción más detallada del validador. La implementación actual de PDDL-Instructo se aplica a los dominios PDDL clásicos y depende del validador de Val como un oráculo externo. Los resultados muestran un método para el razonamiento LLM en la semántica formal para su uso en sistemas de agentes que pueden incluir un verificador durante la planificación. Extender el marco para manejar tareas de planificación de horario largo, temporal, numérico y sensible a los costos sigue siendo un área para trabajos adicionales.
Source: MIT CSAIL presenta PDDL-Instructo para la planificación de LLM





