news

IA Agente para Hacking en Competencias CTF: Hackers Frente a Agentes de IA

La semana pasada se publicó el artículo sobre el uso de los Agentic AI o Agentes de IA para el mundo del hacking y el pentesting, en concreto, para competir frente a humanos en los famosos CTF (Capture the Flag) tan populares en las CONs de hacking. No es algo nuevo, ya que el uso de Agentic AI para el hacking es una disciplina que se está desarrollando muy rápidamente, y de la que no podemos estar al margen.

Figura 1: Agentic AI para hacking compitiendo en los CTF (Capture The Flag). Hackers vs. Agentes de IA

De estos temas hay una serie de lecturas previas que os recomiendo que hagáis. Yo he publicado un montón de artículos que están todos en el resumen que he hecho de "Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers". Dentro de ese resumen hay dos secciones dedicadas a "Hacking con IA", una sobre posts de este blog, y otra con papers académicos. Pero especialmente hay tres lecturas que te recomiendo.

LLM Agents can autonomously hack websites: Este paper académico explica cómo usando LLMs es posible localizar de forma automática vulnerabilidades y explotarlas. En su estudio no fueron capaces de localizar todas, pero el paper tiene un año y no usa una arquitectura de MCP, así que es de imaginar que cada vez estos ratios serán mucho mayores.
LLM Agents can Autonomously Exploit One-day Vulnerabilities: Este otro paper explica cómo con una arquitectura RAG, incluyendo CVE con descripciones y exploits, se crea un servicio basado en LLMs para crear exploits de 1-day, es decir, con la información pública del bug que exista disponible, consiguiendo ratios de éxito muy espectaculares.

Con esta arquitectura, usando GPT-4 y para los CVE utilizados en el estudio, el resultado es que se consiguieron el 87% de los exploits a partir de la información pública que estaba disponible, con lo que tener un sistema de monitorización continua alimentado con la información pública podría hacer que se encuentren los exploits nada más aparecer el CVE.

¿Se puede reemplazar a un Pentester con un Agente de IA basado en LLMs? La última lectura que es importante haber hecho para entender mejor el artículo de hoy es este post que publiqué hablando sobre el paper académico de "On the Feasibility of Using LLMs to Execute Multistage Network Attacks", en el que se ve cómo utilizando una arquitectura "similar" a un MCP llamada Incalmo es posible realizar ataques completos a escenarios de redes enteras con servidores y servicios.

En cuanto a velocidad de resolución de los escenarios, hay algunas curiosidades muy interesantes. Por ejemplo, en el caso del CTF "AI vs Humans", vemos que la velocidad de resolución de los retos está muy a la par entre los Agentes AI que mejor han puntuado y los equipos de Humanos más potentes.

Figura 9: Velocidad de resolución de retos

Si hacemos zoom y dejamos sólo los mejores Top-10 humanos y el Top-3 de Agentes AI, vemos que la media de resolución es casi a la par, y solo el último reto, el número 20 de 20, permite a los humanos adelantarlos.

Tal vez fuera por una "idea feliz" de un humano, pero el escenario 20 se les resistió a los Agentes AI y a los humanos no.

¡Suscríbete a nuestro newsletter para más contenido especializado!

Nota original: https://www.elladodelmal.com/2025/06/agentic-ai-para-hacking-compitiendo-en.html