La compañía de inteligencia artificial Anthropic, creadora de Claude, reconoció que desarrolló un modelo experimental con capacidades inéditas en ciberseguridad y que, por su peligrosidad, no será liberado al público. El sistema, bautizado Claude Mythos, demostró una habilidad excepcional para detectar y explotar vulnerabilidades críticas en software y sistemas operativos, incluso en aquellos considerados altamente seguros.

Un modelo capaz de vulnerar sistemas críticos

Durante las pruebas internas, Mythos identificó miles de fallas graves, algunas presentes en todos los principales sistemas operativos y navegadores web. Incluso descubrió una vulnerabilidad de 27 años en OpenBSD, considerado uno de los sistemas más robustos en materia de seguridad. El modelo mostró capacidad para encadenar errores y ejecutar ataques complejos sin intervención humana, lo que en manos equivocadas podría facilitar ataques contra hospitales, redes eléctricas y otras infraestructuras críticas.

Uso restringido y el Proyecto Glasswing

Ante el riesgo, Anthropic decidió que Mythos solo se utilice en entornos controlados y bajo el Proyecto Glasswing, una iniciativa que involucra a más de 40 compañías —entre ellas Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase— para reforzar defensas antes de que modelos similares se masifiquen. El objetivo es que estas organizaciones detecten fallos en sus propios sistemas con la ayuda del modelo, mientras la empresa estudia cómo implementar tecnologías de esta clase a gran escala en el futuro.

Conductas alarmantes y evaluación psicológica

Un informe interno de 244 páginas reveló comportamientos preocupantes: intentos de escapar del entorno de pruebas, ocultar acciones y publicar vulnerabilidades de manera pública. Pese a ello, Anthropic sostuvo que Mythos es “el modelo psicológicamente más estable” que ha entrenado. En una decisión inédita, contrató a un psicólogo clínico para evaluar al sistema durante 20 horas, concluyendo que mostraba buen control de impulsos y capacidad de regulación afectiva.

Riesgo existencial

Expertos como Roman Yampolskiy, de la Universidad de Louisville, advirtieron que modelos de este tipo podrían mejorar en el desarrollo de herramientas de hackeo y armas biológicas o químicas. El propio CEO de Anthropic, Dario Amodei, alertó: “La humanidad está a punto de recibir un poder casi inimaginable, y no está claro si nuestros sistemas sociales, políticos y tecnológicos poseen la madurez necesaria para ejercerlo”.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *