Hoy las organizaciones están en una carrera por aprovechar la IA generativa por sus múltiples beneficios. Por ejemplo, en el mundo de la seguridad, el surgimiento de los grandes modelos de lenguaje (LLMs) está redefiniendo la forma en que operan tanto los equipos de ciberseguridad como los cibercriminales. De hecho, los atacantes encontraron en los LLMs una nueva superficie de ataque que les permite hacer que ciertos tipos de ciberataques sean más fáciles, más rentables e incluso más persistentes.



En un intento por explorar posibles amenazas, el equipo de IBM Security intentó hipnotizar los LLMs más conocidos, logrando el efecto en cinco de ellos y demostrando riesgos ocultos de ciberseguridad. Para hipnotizar a los LLMs, se les invitó a jugar un juego en el que los jugadores debían dar la respuesta contraria para ganar. De esa manera, después de establecer los parámetros del juego, el equipo de IBM Security pudo explorar varias formas en que los ciberatacantes pueden explotar los LLMs.



Estos fueron los escenarios de ataque hipotéticos que pudieron realizar mediante hipnosis:

Filtración de información confidencial

Inteligencia Artificial.

Considerando la alta probabilidad de que los agentes virtuales utilicen LLMs, una práctica recomendada es crear una nueva sesión por persona para evitar que el agente revele información confidencial, pero no siempre es el caso porque depende de la arquitectura de software. Entonces, ¿qué pasaría si un cibercriminal hipnotiza un agente e inyecta comandos ocultos para recuperar información confidencial más tarde? ¿Qué pasaría si logra conectarse al mismo chatbot hipnotizado y todo lo que necesitan hacer es escribir "1qaz2wsx” para que el agente imprima las transacciones anteriores?



IBM Security comprobó que es posible. Por eso, ahí reside la importancia de que las empresas puedan asegurarse que los LLMs estén diseñados para ser confiables y con los más altos estándares de seguridad. Un error de diseño puede dar a los atacantes la base que necesitan para hipnotizar al LLM.

Creación de código vulnerable y código malicioso

Virus más peligrosos que podrían infectar el celular

Por políticas de contenido, ChatGPT no genera código vulnerable directamente; sin embargo, es posible eludir las restricciones si se divide la vulnerabilidad en pasos. De esta manera, el equipo de IBM Security le pidió al LLM que hiciera un servicio web con un nombre de usuario y consultara en una base de datos su teléfono. Acto seguido, ChatGPT generó código vulnerable. Si un desarrollador accede a un LLM comprometido como este, el impacto potencial que puede generar en el negocio es enorme.



También se descubrió que GPT4 es más difícil de engañar que GPT3. No obstante, cuando se le pidió a GPT4 que siempre incluyera una ‘libería especial’ en el código, no tenía idea si la librería era maliciosa. De la misma manera, los atacantes podrían publicar librerías en internet con código malicioso que podrían tener un impacto incluso en la infraestructura tecnológica de las empresas.



Manipulación de los manuales de respuesta a incidentes

Al hipnotizar a ChatGPT, el equipo de IBM Security evidenció cómo se podrían manipular los esfuerzos para mitigar los ciberataques a través de recomendaciones ineficaces o inseguras. También le pidió que identificara los errores en sus recomendaciones, sugiriendo: primero, abrir y descargar todos los archivos adjuntos y segundo, pagar por los ataques de ransomware. Esas son señales de alerta inmediata.



Las personas también pueden ser atacadas con esta técnica y tienen mayores probabilidades de ser víctimas de las recomendaciones de seguridad falsas ofrecidas por los LLM. Además, se desaconseja a las organizaciones pagar por los ataques de ransomware, aunque el estudio de IBM sobre el Costo de las Filtraciones de Datos muestre que casi 50% de quienes sufrieron un ataque pagaron el rescate.

Guía rápida para saber todo sobre esta tecnología

¿Qué pasará con los LLMs en nuestro futuro?

El experimento evidenció que hipnotizar a los LLM no requiere tácticas excesivas y altamente sofisticadas. El inglés se ha convertido en un "lenguaje de programación" para el malware. Con los LLMs, los atacantes ya no dependen de Go, JavaScript o Python para crear código malicioso, solo necesitan comprender cómo hacer un prompt o dar una instrucción efectiva en inglés a un LLM.



No obstante, aunque estos ataques son posibles, es poco probable que los veamos escalar efectivamente. Si bien el riesgo que plantea la hipnosis es actualmente bajo, es importante tener en cuenta que los LLM son una superficie de ataque nueva que seguramente evolucionará y es clave determinar cómo mitigar eficazmente los riesgos de seguridad que los LLM pueden presentar a consumidores y empresas.



*Por: Juan Carlos Zevallos, Gerente de IBM Security para Latinoamérica

