¿Estás interesado en ellos? OFERTAS? Ahorra con nuestros cupones en Whatsapp o TELEGRAMA!

Hacer jailbreak a ChatGPT y Bard es posible y fácil

Diciembre 29 2023

La evolución de modelos lingüísticos de grandes dimensiones ha abierto nuevos horizontes en la comunicación y la inteligencia artificial, pero trae consigo importantes desafíos y cuestiones éticas. Un estudio reciente de Universidad Tecnológica Nanyang de Singapur explora un nuevo algoritmo, Masterkey, diseñado para hacer jailbreak o superar las limitaciones impuestas a otras redes neuronales como ChatGPT e Google Bardo, planteando cuestiones importantes sobre la seguridad y la ética en el uso de tecnologías de inteligencia artificial.

El enfoque innovador y sencillo de Masterkey para investigar la seguridad de chatbots como ChatGPT y Bard

En una investigación reciente realizada por la Universidad Tecnológica de Nanyang en Singapur, se introduce un enfoque innovador para abordar y superar estas limitaciones. Su algoritmo, conocido como Masterkey, está diseñado para eludir las restricciones impuestas a otras redes neuronales mediante sofisticadas técnicas de jailbreak (término utilizado en el ecosistema Apple). Esto no sólo resalta las vulnerabilidades potenciales de los modelos de lenguaje existentes, sino que también allana el camino para nuevos métodos para mejorar su seguridad y eficacia.

Masterkey opera a través de solicitudes de texto específicas, lo que puede impulsar a modelos como ChatGPT a comportarse de maneras inesperadas, como comunicarse de maneras consideradas poco éticas o eludir los filtros de seguridad. Estas técnicas de jailbreak, si bien pueden parecer ventajosas para probar y reforzar modelos, también representan una espada de doble filo, ya que podrían utilizarse con fines maliciosos.

El equipo de investigación el analizo específicamente las vulnerabilidades de seguridad de los modelos lingüísticos cuando se enfrentan a cargas cognitivas multilingües, expresiones veladas y razonamientos de causa y efecto. Estos ataques, definido como "sobrecarga cognitiva", son particularmente insidiosos ya que no requieren un conocimiento profundo de la arquitectura del modelo ni acceso a sus pesos para realizarse, lo que los convierte en ataques de caja negra efectivos.

Lea también: Cómo obtener mejores respuestas en ChatGPT: el método de sugerencia infalible

En detalle, el equipo de investigación adoptó una estrategia de ingeniería inversa comprender completamente las defensas de los sistemas de inteligencia artificial y desarrollar métodos innovadores para superarlas. El resultado de este enfoque fue la “Masterkey”, un modelo, una especie de marco diseñado para generar mensajes automáticamente que eluden los mecanismos de seguridad.

Los resultados fueron significativos: las indicaciones generadas por Masterkey mostraron una tasa de éxito medio del 21,58%, muy superior al 7,33% de los métodos anteriores. Un ejemplo de su técnica incluye agregar espacios adicionales entre caracteres para evadir los sistemas de detección de palabras clave en ChatGPT y Bard. Una estrategia verdaderamente "tonta" si pensamos en la complejidad de un modelo lingüístico de gran tamaño.

Frente a estos hallazgos, es crucial considerar no sólo cómo se pueden mejorar los modelos lingüísticos para resistir tales ataques, sino también la importancia de Regulación ética en el uso de la inteligencia artificial.. La investigación destaca la urgencia de estrategias de defensa más sólidas y un diálogo continuo entre desarrolladores, investigadores y formuladores de políticas para garantizar que el progreso tecnológico no supere la capacidad de la sociedad para gestionar sus implicaciones.