Investigadores del MIT CSAIL han desarrollado PDDL-INSTRUCT, un marco de ajuste de instrucciones diseñado para mejorar las capacidades de planificación de varios pasos de los modelos de lenguaje grandes (LLM). El método combina el razonamiento lógico en cadena de pensamiento con un validador de planes externo para aumentar la generación de planes lógicamente válidos sobre resultados plausibles pero incorrectos.
El marco entrena modelos para reconocer y explicar por qué un plan candidato ha fracasado. Estas fallas pueden incluir condiciones previas insatisfechas, efectos incorrectos, violaciones del marco o un objetivo no cumplido. Este proceso se combina con indicaciones lógicas de cadena de pensamiento que guían al LLM a realizar inferencias paso a paso sobre transiciones de estado y acción. Esto produce secuencias rastreables de estado→acción→estado, escritas como ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.
Para la validación externa, PDDL-INSTRUCT integra el validador de planes VAL, que verifica cada paso del plan generado. El validador proporciona comentarios que son binarios (válidos/no válidos) o detallados, y los comentarios detallados dan como resultado un rendimiento superior. El sistema utiliza un proceso de optimización de dos etapas. La primera etapa penaliza los errores en las cadenas de razonamiento y la segunda etapa optimiza la precisión de la planificación final.
El sistema se evaluó utilizando el punto de referencia PlanBench, que incluye dominios de planificación que se sabe que desafían a los LLM, como Blocksworld, Mystery Blocksworld y Logistics. En el dominio Blocksworld, un modelo Llama-3-8B sintonizado logró una tasa del 94% de generación de planes válidos. Los modelos anteriores tenían una validez casi nula en Mystery Blocksworld, un dominio donde los nombres de los predicados se ofuscan para evitar la coincidencia de patrones. PDDL-INSTRUCT logró una mejora de hasta 64 veces en este dominio.
También se registraron importantes mejoras de rendimiento en el ámbito de Logística. En todos los dominios de prueba, el marco generó una mejora absoluta de hasta el 66 % en comparación con los modelos de referencia no ajustados. Los investigadores también notaron que el rendimiento mejoró con presupuestos de retroalimentación más largos y resultados más detallados del validador.
La implementación actual de PDDL-INSTRUCT se aplica a dominios PDDL clásicos y depende del validador VAL como un oráculo externo. Los resultados muestran un método para fundamentar el razonamiento LLM en semántica formal para su uso en sistemas de agentes que pueden incluir un verificador durante la planificación. Ampliar el marco para manejar tareas de planificación a largo plazo, temporales, numéricas y sensibles a los costos sigue siendo un área de trabajo adicional.








