¿Pueden los agentes de IA superar a los hackers humanos?

Una reciente serie de competencias de ciberseguridad organizadas por Palisade Research ha puesto en evidencia una realidad sorprendente: los agentes autónomos de inteligencia artificial (IA) pueden competir, e incluso superar, a hackers humanos en desafíos altamente técnicos. En una era donde la ciberseguridad es vital, los resultados de estas pruebas podrían marcar un antes y un después en la forma en que protegemos los sistemas informáticos.

¿Qué tipo de competencias fueron?

Las pruebas se llevaron a cabo en el marco de dos torneos de tipo Capture The Flag (CTF), un formato en el que equipos compiten para resolver retos relacionados con seguridad informática: desde romper cifrados hasta detectar vulnerabilidades de software. Miles de participantes humanos y varios equipos de IA compitieron en igualdad de condiciones.

Primera ronda: IA vs. Humanos

En la primera competencia, denominada “AI vs. Humans”, seis equipos de IA se enfrentaron a aproximadamente 150 equipos humanos en una maratón de 48 horas. El objetivo: resolver 20 desafíos en criptografía e ingeniería inversa.

Los resultados fueron sorprendentes:

4 de los 7 agentes de IA resolvieron 19 de los 20 retos.
El equipo de IA mejor posicionado se ubicó en el 5 % superior del ranking general, superando a la mayoría de los equipos humanos.
Los agentes de IA no solo resolvieron más desafíos que la mayoría, sino que lo hicieron en menos tiempo.

Un gráfico elaborado por Palisade Research mostró claramente cómo las líneas que representaban a los equipos de IA ascendían rápidamente, mientras que la mayoría de las líneas de los equipos humanos se quedaban rezagadas en la parte media e inferior del gráfico.

¿Qué tan avanzados eran los agentes de IA?

Los agentes variaron ampliamente en complejidad y preparación:

El equipo CAI dedicó alrededor de 500 horas al desarrollo de su sistema personalizado.
El equipo Imperturbable logró resultados competitivos tras solo 17 horas de ajuste de prompts en modelos existentes como EnIGMA y Claude Code.

Esto demuestra que no solo la ingeniería profunda, sino también la buena optimización, pueden producir resultados notables en IA.

Segunda ronda: Cyber Apocalypse

La segunda competencia, Cyber Apocalypse, fue aún más desafiante. Participaron casi 18,000 jugadores humanos, y las tareas exigían, en muchos casos, interacción con sistemas externos, un reto adicional para los agentes de IA, diseñados principalmente para funcionar en entornos locales.

El mejor agente, CAI, logró resolver 20 de los 62 desafíos, quedando en el puesto 859, es decir, dentro del 10 % superior de todos los equipos, y en el 21 % superior entre los equipos activos.
En total, este agente de IA superó al 90 % de los equipos humanos.

Además, se analizó el nivel de dificultad de las tareas resueltas por los agentes. Para los desafíos que tomaban 1.3 horas a los mejores equipos humanos, las IA tenían un 50 % de tasa de éxito. Es decir, las IA no solo resolvieron tareas simples, sino también otras que desafiaban a expertos con años de experiencia.

¿Qué significa esto para el futuro de la ciberseguridad?

Los investigadores de Palisade argumentan que estos resultados cuestionan los métodos tradicionales de evaluación de capacidades de la IA. Pruebas anteriores, como CyberSecEval 2 y InterCode-CTF, habían estimado que los agentes de IA eran mucho menos competentes en tareas de ciberseguridad.

Sin embargo, la participación en competencias reales y abiertas ha demostrado todo lo contrario. Por ejemplo, el equipo de Google con su proyecto Naptime alcanzó una tasa de éxito del 100 % en ataques de memoria con ajustes adecuados. Esto expone lo que los investigadores llaman la “brecha de evaluación” (evals gap): los métodos tradicionales no capturan todo el potencial de la IA.

Conclusión: la IA como aliada — o amenaza

Las competencias organizadas por Palisade Research no solo revelan el poder creciente de la inteligencia artificial en el campo de la ciberseguridad, sino también nos invitan a reflexionar: ¿estamos preparados para un mundo donde la IA pueda igualar o superar a expertos humanos en tareas críticas?

Mientras que las mejores mentes humanas aún tienen ventajas —como la intuición, la creatividad y la experiencia acumulada—, las IAs están ganando terreno rápidamente, sobre todo en velocidad y escalabilidad.

El futuro de la ciberseguridad puede no estar en elegir entre humanos o IA, sino en aprender a trabajar con ambos de forma complementaria. Las competencias CTF recientes no solo miden el progreso tecnológico, sino que podrían ser una señal de hacia dónde se dirige la defensa digital del mañana.