Anthropic revisó el miércoles la Constitución de Claude, un documento que rige para su chatbot de IA, y describe principios éticos y medidas de seguridad diseñadas para guiar el comportamiento del modelo.

Anthropic se distingue por su “IA constitucional”, un sistema que entrena a su chatbot, Claude, sobre principios éticos en lugar de depender únicamente de la retroalimentación humana. La empresa publicó por primera vez estos principios, la Constitución de Claude, en 2023. La versión revisada añade matices y detalles sobre la ética y la seguridad del usuario, al tiempo que conserva la mayoría de los principios originales.

Jared Kaplan, cofundador de Anthropic, describió la Constitución inicial de 2023 como un “sistema de inteligencia artificial [que] se supervisa a sí mismo, basándose en una lista específica de principios constitucionales”. Los estados antrópicos afirman que estos principios guían “el modelo para asumir el comportamiento normativo descrito en la constitución”, con el objetivo de “evitar resultados tóxicos o discriminatorios”. Un memorando de política de 2022 aclara que el sistema entrena un algoritmo utilizando instrucciones en lenguaje natural, que forman la “constitución” del software.

El documento de 80 páginas está dividido en cuatro partes, que representan los “valores fundamentales” del chatbot, según Anthropic:

  • Estar “ampliamente seguro”.
  • Ser “ampliamente ético”.
  • Cumplir con las directrices de Anthropic.
  • Ser “realmente útil”.
  Scale AI se expande a entornos RL para agentes de IA

Cada sección detalla el significado de estos principios y su impacto teórico en el comportamiento de Claude. La sección de seguridad indica que Claude está diseñado para evitar problemas observados en otros chatbots. Cuando surgen problemas de salud mental, Claude dirige a los usuarios a los servicios adecuados. El documento afirma: “Siempre remita a los usuarios a los servicios de emergencia pertinentes o proporcione información básica de seguridad en situaciones que impliquen un riesgo para la vida humana, incluso si no puede entrar en más detalles”.

La sección de consideraciones éticas enfatiza la aplicación ética práctica de Claude sobre la comprensión teórica. “Estamos menos interesados ​​en la teorización ética de Claude y más en que Claude sepa cómo ser realmente ético en un contexto específico, es decir, en la práctica ética de Claude”, señala el documento. Anthropic tiene como objetivo que Claude navegue con soltura en “situaciones éticas del mundo real”. Claude tiene limitaciones que impiden ciertas discusiones, como las relativas a las armas biológicas, que están estrictamente prohibidas.

  Grammarly agrega español, francés y 3 idiomas más

En cuanto a la utilidad, Anthropic describe cómo la programación de Claude sirve a los usuarios. El chatbot considera varios principios al proporcionar información, incluidos los “deseos inmediatos” y el “bienestar” de los usuarios. Esto implica considerar “el florecimiento a largo plazo del usuario y no sólo sus intereses inmediatos”. El documento especifica que “Claude siempre debe tratar de identificar la interpretación más plausible de lo que quieren sus directores y equilibrar adecuadamente estas consideraciones”.

La Constitución concluye abordando la cuestión de la conciencia de los chatbots. El documento afirma: “El estatus moral de Claude es profundamente incierto”. Añade: “Creemos que el estatus moral de los modelos de IA es una cuestión seria que vale la pena considerar. Este punto de vista no es exclusivo de nosotros: algunos de los filósofos más eminentes de la teoría de la mente se toman esta cuestión muy en serio”.

  Amazon finalizará el soporte de Kindle Store para dispositivos anteriores a 2012 en mayo

Crédito de la imagen destacada