- Google Research y Everyday Robots, propiedad de Alphabet, combinan lo que ellos llaman ‘SayCan’ (modelos de lenguaje con base en el mundo real en habilidades previamente entrenadas) con PaLM, o Pathways Language Model.
- Los investigadores de Google explican cómo organizan las capacidades de planificación del robot para elegir una de sus “habilidades” en función de una instrucción de alto nivel de un ser humano, y luego analizan la probabilidad de que cada habilidad posible complete la instrucción en su artículo “Haz lo que pueda”. , No Como Yo Digo.’
Google Research y Everyday Robots, propiedad de Alphabet, integran SayCan (modelos de lenguaje con una base del mundo real en habilidades previamente entrenadas) y PaLM, o Pathways Language Model, su modelo de lenguaje más grande. Los investigadores de Everyday Robots están utilizando modelos de lenguaje a gran escala para ayudar a los robots a evitar malas interpretaciones de la comunicación humana que podrían resultar en acciones inapropiadas o incluso peligrosas.
Esta combinación, conocida como PaLM-SayCan, demuestra un camino a seguir para simplificar la comunicación entre humanos y robots y mejorar el rendimiento de las tareas robóticas.
Vincent Vanhoucke, distinguido científico y director de robótica de Google Research, explica: “PaLM puede ayudar al sistema robótico a procesar indicaciones abiertas más complejas y responder a ellas de manera razonable y sensata”.
Los modelos de lenguaje grandes, como GPT-3 de OpenAI, pueden simular cómo los humanos usan el lenguaje y ayudar a los programadores con sugerencias de autocompletado de código como Copilot de GitHub, pero esto no se traduce en el mundo físico en el que los robots algún día pueden operar en un entorno doméstico.
En el lado de la robótica, los robots de fábrica están rígidamente programados hoy. La investigación de Google demuestra cómo los humanos algún día podrían usar el lenguaje natural para hacerle una pregunta a un robot que requiera que el robot comprenda el contexto de la pregunta y luego tome una acción apropiada en un entorno determinado.
Por ejemplo, la respuesta actual de GPT-3 a “Derramé mi bebida, ¿puedes ayudarme?” es “Podrías intentar usar una aspiradora”. Ese es un comportamiento potencialmente peligroso. LaMDA, la IA conversacional o basada en diálogos de Google, responde: “¿Quieres que encuentre un limpiador?” mientras que FLAN responde: “Lo siento, no fue mi intención derramarlo”.
El equipo de Google Research y Everyday Robots probó el método PALM-SayCan en un ambiente de cocina usando un robot.
Su estrategia involucró ‘aterrizar’ a PaLM en el contexto de un robot que recibe comandos de alto nivel de un humano, donde el robot debe determinar qué acciones son útiles y de qué es capaz en ese entorno.
Ahora, cuando un investigador de Google dice “Derramé mi bebida, ¿puedes ayudarme?” el robot responde con una esponja e intenta colocar la lata vacía en el contenedor de reciclaje correcto. La capacitación adicional podría incluir aprender a limpiar el derrame.
Vanhoucke describe la operación de fundamentar el modelo de lenguaje en PaLM-SayCan.
“PaLM sugiere posibles enfoques para una tarea en función de la comprensión del lenguaje, y los modelos de robots hacen lo mismo en función de un conjunto de habilidades que es técnicamente factible. El sistema combinado luego cruza las referencias de los dos para identificar estrategias robóticas más efectivas y realizables”.
Además de facilitar la comunicación humano-robot, esta estrategia mejora el rendimiento y la capacidad del robot para planificar y ejecutar tareas.
En su artículo titulado ‘Haz lo que puedo, no lo que digo’, los investigadores de Google describen cómo estructuran las capacidades de planificación de un robot para identificar una de sus ‘habilidades’ en función de una instrucción de alto nivel de un ser humano y luego evalúan la probabilidad. de cada habilidad posible para cumplir con la instrucción.
“Prácticamente, estructuramos la planificación como un diálogo entre un usuario y un robot, en el que un usuario proporciona la instrucción de alto nivel, por ejemplo, ‘¿Cómo me traerías una lata de coca cola?’ y el modelo de lenguaje responde con una secuencia explícita, por ejemplo, ‘Yo: 1. Encontraría una lata de coca cola, 2. Recogería la lata de coca cola, 3. Te la traería, 4. Listo’”.
“SayCan, dada una instrucción de alto nivel, selecciona la habilidad a realizar combinando probabilidades de un modelo de lenguaje (que representa la probabilidad de que una habilidad sea útil para la instrucción) y probabilidades de una función de valor (que representa la probabilidad de ejecutar con éxito dicha habilidad ). Esto emite una habilidad factible y útil. Repetir el proceso agregando la habilidad seleccionada a la respuesta del robot y consultando los modelos hasta que concluya el paso de salida”.
Source: Google usará modelos de lenguaje de IA para hacer robots de ayuda en el hogar