TechBriefly ES
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us
No Result
View All Result
TechBriefly ES
No Result
View All Result
Home Tech
MIT CSAIL presenta PDDL-Instructo para la planificación de LLM

MIT CSAIL presenta PDDL-Instructo para la planificación de LLM

byAytun Çelebi
22/09/2025
in Tech
Reading Time: 2 mins read
Share on FacebookShare on Twitter

Los investigadores del MIT CSAIL han desarrollado PDDL-Instructo, un marco de ajuste de instrucciones diseñado para mejorar las capacidades de planificación de varios pasos de modelos de idiomas grandes (LLM). El método combina el razonamiento lógico de la cadena de pensamiento con un validador del plan externo para aumentar la generación de planes lógicamente válidos sobre salidas plausibles pero incorrectas. El marco entrena modelos para reconocer y explicar por qué un plan candidato ha fallado. Estas fallas pueden incluir condiciones previas insatisfechas, efectos incorrectos, violaciones de marco o un objetivo insatisfecho. Este proceso se combina con indicaciones lógicas de la cadena de pensamiento que guían a la LLM a realizar una inferencia paso a paso sobre las transiciones de estado y de acción. Esto produce secuencias de estado rastreables → Acción → Estado, escritas como ⟨Sᵢ, Aᵢ₊₁, Sᵢ₊₁⟩. Para la validación externa, PDDL-Instructo integra el validador del plan Val, que verifica cada paso del plan generado. El validador proporciona retroalimentación que es binaria (válida/inválida) o detallada, con la retroalimentación detallada que resulta en un rendimiento superior. El sistema utiliza un proceso de optimización de dos etapas. La primera etapa penaliza los errores en las cadenas de razonamiento, y la segunda etapa optimiza la precisión de la planificación final. El sistema se evaluó utilizando el punto de referencia de PlanBench, que incluye dominios de planificación conocidos por desafiar a LLM, como Blocksworld, Mystery Blocksworld y Logistics. En el dominio Blocksworld, un modelo Tuned Llama-3-8B logró una tasa del 94% de generación de planes válidos. Los modelos anteriores tenían una validez cercana a cero en Mystery Blocksworld, un dominio donde los nombres de predicados se ofusen para evitar la coincidencia de patrones. PDDL-Instructo logró una mejora de 64 veces en este dominio. También se registraron ganancias de rendimiento significativas en el dominio logístico. En todos los dominios de prueba, el marco se entregó hasta una mejora absoluta del 66% en comparación con los modelos de referencia sintonizados. Los investigadores también señalaron que el rendimiento mejoró con presupuestos de retroalimentación más largos y una producción más detallada del validador. La implementación actual de PDDL-Instructo se aplica a los dominios PDDL clásicos y depende del validador de Val como un oráculo externo. Los resultados muestran un método para el razonamiento LLM en la semántica formal para su uso en sistemas de agentes que pueden incluir un verificador durante la planificación. Extender el marco para manejar tareas de planificación de horario largo, temporal, numérico y sensible a los costos sigue siendo un área para trabajos adicionales.

  Puedes mejorar GPT-4 con OpenAI Evals

Source: MIT CSAIL presenta PDDL-Instructo para la planificación de LLM

Related Posts

ASUS detiene la producción de RTX 5070 Ti tras un grave cuello de botella en el suministro de memoria

ASUS detiene la producción de RTX 5070 Ti tras un grave cuello de botella en el suministro de memoria

Una guía para ver el historial de cálculos en iOS 18

Una guía para ver el historial de cálculos en iOS 18

Cómo comprobar si alguien leyó tu mensaje en iPhone o iPad

Cómo comprobar si alguien leyó tu mensaje en iPhone o iPad

Netflix se asegura los primeros derechos de transmisión de Sony Pictures

Netflix se asegura los primeros derechos de transmisión de Sony Pictures

ASUS detiene la producción de RTX 5070 Ti tras un grave cuello de botella en el suministro de memoria
Tech

ASUS detiene la producción de RTX 5070 Ti tras un grave cuello de botella en el suministro de memoria

Una guía para ver el historial de cálculos en iOS 18
Tech

Una guía para ver el historial de cálculos en iOS 18

Cómo comprobar si alguien leyó tu mensaje en iPhone o iPad
Tech

Cómo comprobar si alguien leyó tu mensaje en iPhone o iPad

Netflix se asegura los primeros derechos de transmisión de Sony Pictures
Tech

Netflix se asegura los primeros derechos de transmisión de Sony Pictures

Samsung lanza transmisión en la nube de reproducción instantánea en la actualización de Mobile Gaming Hub
Tech

Samsung lanza transmisión en la nube de reproducción instantánea en la actualización de Mobile Gaming Hub

TechBriefly ES

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • About Tech Briefly
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Privacy Policy
  • TechBriefly
  • Terms and Conditions

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.