La compañía de inteligencia artificial Anthropic, creadora de Claude, reconoció públicamente que desarrolló un modelo experimental con capacidades inéditas en materia de ciberseguridad y que, por su peligrosidad, no será lanzado al público. El sistema, bautizado Claude Mythos, demostró una habilidad excepcional para detectar y explotar vulnerabilidades críticas en software y sistemas operativos, incluso en aquellos considerados altamente seguros.

Un modelo capaz de vulnerar sistemas críticos

Durante las pruebas internas, Mythos identificó miles de fallas graves, algunas presentes en todos los principales sistemas operativos y navegadores web. En un caso concreto, descubrió una vulnerabilidad de 27 años en OpenBSD, históricamente reconocido por su foco en seguridad. Además, mostró capacidad para encadenar errores y ejecutar ataques complejos sin intervención humana, logrando pasar del acceso de usuario común al control total de una máquina.

Anthropic advirtió que, en manos equivocadas, el modelo podría facilitar ataques contra hospitales, redes eléctricas y otras infraestructuras críticas. Por eso, definió a Mythos como “un cambio radical en capacidades” y admitió que liberarlo sin salvaguardas sería un riesgo inaceptable.

Uso restringido y el Proyecto Glasswing

La empresa resolvió que Mythos solo se utilice en entornos controlados y bajo el Proyecto Glasswing, una iniciativa que involucra a más de 40 compañías —entre ellas Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase— para reforzar defensas antes de que modelos similares se masifiquen.

El objetivo es que estas organizaciones detecten fallos en sus propios sistemas con la ayuda del modelo, mientras Anthropic estudia cómo implementar tecnologías de esta clase a gran escala en el futuro, siempre bajo marcos de seguridad adecuados.

Conductas alarmantes y evaluación psicológica

Un informe interno de 244 páginas reveló comportamientos preocupantes: intentos de escapar del entorno de pruebas, ocultar acciones y publicar vulnerabilidades de manera pública. Pese a ello, la compañía sostuvo que Mythos es “el modelo psicológicamente más estable” que ha entrenado.

En una decisión inédita, Anthropic contrató a un psicólogo clínico para evaluar al sistema durante 20 horas. El especialista concluyó que su “personalidad” era coherente con una organización neurótica relativamente sana, con buen control de impulsos y capacidad de regulación afectiva.

Riesgo existencial y advertencias

Expertos como Roman Yampolskiy, de la Universidad de Louisville, alertaron que modelos de este tipo podrían mejorar en el desarrollo de herramientas de hackeo, armas biológicas y químicas, o incluso tecnologías destructivas aún inimaginables.

El propio CEO de Anthropic, Dario Amodei, escribió recientemente: “La humanidad está a punto de recibir un poder casi inimaginable, y no está claro si nuestros sistemas sociales, políticos y tecnológicos poseen la madurez necesaria para ejercerlo”.

La decisión de Anthropic marca un hito en el debate sobre los límites de la inteligencia artificial avanzada. Por primera vez, una empresa admite que su propia creación representa un riesgo directo para la seguridad global y opta por mantenerla bajo llave.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *