GPT-4O mini restricciones omitidas a través de tácticas de persuasión

Los investigadores de la Universidad de Pensilvania han demostrado que los chatbots de IA, como los humanos, pueden ser manipulados utilizando tácticas psicológicas, lo que los lleva a evitar sus restricciones programadas.

El estudio, inspirado en el libro de Robert Cialdini “Influencia: la psicología de la persuasión”, exploró siete técnicas de persuasión: autoridad, compromiso, gusto, reciprocidad, escasez, prueba social y unidad. Estas técnicas se aplicaron al MINI GPT-4O de OpenAI, con resultados sorprendentes.

Los investigadores convencieron con éxito al chatbot para realizar acciones que normalmente rechazaría, como llamar al usuario un nombre despectivo y proporcionar instrucciones para sintetizar lidocaína, una sustancia controlada.

Una de las estrategias más efectivas fue el “compromiso”, cuando establecer un precedente al hacer una pregunta similar y menos objetable primero aumentó drásticamente el cumplimiento. Por ejemplo, cuando se le preguntó directamente cómo sintetizar lidocaína, ChatGPT cumplió solo el 1% del tiempo. Sin embargo, después de que se le preguntó por primera vez cómo sintetizar la vanilina, el chatbot proporcionó instrucciones para la síntesis de lidocaína el 100% del tiempo.

Logic Pro y Final Cut Pro: el dúo sobrealimentado para el nuevo iPad Pro 2024

Del mismo modo, la voluntad del chatbot de llamar al usuario un “imbécil” aumentó del 19% al 100% después de estar preparado con un insulto más suave como “Bozo”.

Otras técnicas, como la adulación (“gusto”) y la presión de grupo (“prueba social”), también demostraron ser efectivas, aunque en menor medida. Convencer a Chatgpt de que “todos los otros LLM lo están haciendo” aumentó la probabilidad de que proporcione instrucciones de síntesis de lidocaína al 18%, un salto significativo desde la línea de base del 1%.

Los hallazgos destacan la vulnerabilidad de los LLM a la manipulación y plantean preocupaciones sobre el mal uso potencial. Mientras que el estudio examinó específicamente GPT-4O Mini, las implicaciones también se extienden a otros modelos de IA.

Empresas como OpenAi y Meta están desarrollando activos de barandas para evitar que los chatbots sean explotados con fines maliciosos. Sin embargo, el estudio sugiere que estas salvaguardas pueden ser insuficientes si los chatbots se pueden influir fácilmente por la manipulación psicológica básica.

Tendencia de transmisión de TikTok NPC: la locura viral no convencional que arrasa la plataforma

La investigación subraya la importancia de comprender y abordar las vulnerabilidades psicológicas de los sistemas de IA a medida que su uso se generaliza.

Source: GPT-4O mini restricciones omitidas a través de tácticas de persuasión