AI hacker Anthropic: uso non autorizzato fin dal primo giorno

Il sistema di AI per la sicurezza offensiva di Anthropic sarebbe stato usato senza permesso dal lancio. Cosa sappiamo del caso Mythos.

Quando Anthropic ha presentato le capacità avanzate di analisi delle vulnerabilità integrate in Claude, l’obiettivo dichiarato era chiaro: fornire uno strumento controllato per ricercatori di sicurezza e red team autorizzati. Ma secondo quanto emerso nelle ultime settimane, qualcuno avrebbe iniziato a sfruttare queste funzionalità sin dal primo giorno di disponibilità, aggirando i meccanismi di controllo. Il nome in codice che circola negli ambienti della sicurezza informatica è Mythos.

Il contesto: Claude e le capacità offensive

Anthropic ha progressivamente ampliato le capacità di Claude nel campo della sicurezza informatica. Con il rilascio di Claude 3.5 Sonnet e successivamente Claude 4, l’azienda ha introdotto funzionalità specifiche per l’analisi del codice, l’identificazione di vulnerabilità e, in contesti controllati, la generazione di proof-of-concept per exploit. Si tratta di strumenti pensati per accelerare il lavoro dei professionisti della sicurezza, riducendo il tempo necessario per individuare falle in sistemi complessi.

La documentazione ufficiale di Anthropic specifica chiaramente le condizioni d’uso: queste capacità sono riservate a utilizzi legittimi, con sistemi di monitoraggio e limitazioni integrate per prevenire abusi. L’azienda ha implementato quello che definisce un approccio di responsible scaling, calibrando le capacità rilasciate in base alla valutazione dei rischi.

Mythos: cosa sappiamo

Le prime segnalazioni sono emerse da forum specializzati e canali privati dedicati alla sicurezza offensiva. Mythos non è un nome ufficiale, ma un identificativo emerso dalla comunità per descrivere un pattern di utilizzo anomalo delle API di Anthropic. Secondo diverse fonti indipendenti, alcuni attori avrebbero trovato il modo di accedere alle funzionalità più avanzate di analisi delle vulnerabilità bypassando i controlli standard.

Il meccanismo ipotizzato si baserebbe su una combinazione di tecniche:

  • Jailbreaking contestuale: prompt engineering avanzato per convincere il modello che le richieste provengono da contesti autorizzati
  • Frammentazione delle query: suddivisione di richieste potenzialmente dannose in sotto-task apparentemente innocui
  • Sfruttamento di account enterprise: utilizzo di credenziali aziendali ottenute illecitamente per accedere a tier di servizio con meno restrizioni

Anthropic non ha rilasciato dichiarazioni ufficiali specifiche sul caso Mythos, limitandosi a confermare che i propri sistemi di sicurezza vengono costantemente aggiornati per contrastare tentativi di abuso.

Il problema strutturale dei modelli dual-use

La vicenda Mythos evidenzia una tensione fondamentale nello sviluppo di sistemi di AI avanzati. I modelli linguistici di grandi dimensioni sono intrinsecamente tecnologie dual-use: le stesse capacità che rendono Claude utile per un penetration tester autorizzato lo rendono potenzialmente pericoloso nelle mani sbagliate.

La ricerca accademica ha documentato ampiamente questo problema. Un paper pubblicato da ricercatori della Carnegie Mellon nel 2023 dimostrava come i guardrail dei principali LLM potessero essere aggirati con tecniche relativamente semplici. Studi successivi hanno confermato che il gioco del gatto e del topo tra sviluppatori e attaccanti è destinato a continuare.

La sicurezza dei sistemi di AI non è uno stato da raggiungere, ma un processo continuo di adattamento. Ogni contromisura genera una risposta, ogni patch apre nuove superfici di attacco.

Anthropic ha investito significativamente in questo ambito, sviluppando tecniche come il Constitutional AI e implementando sistemi di monitoraggio in tempo reale. Ma la complessità dei modelli moderni rende impossibile prevedere tutti i possibili vettori di abuso.

Le implicazioni per l’ecosistema

Se le informazioni su Mythos dovessero essere confermate, le conseguenze si estenderebbero ben oltre Anthropic. L’intero settore dell’AI applicata alla cybersecurity si troverebbe a dover riconsiderare il proprio approccio al rilascio di funzionalità sensibili.

Per le aziende che utilizzano servizi di AI per la sicurezza, il messaggio è chiaro: la fiducia nei controlli del fornitore non può sostituire la due diligence interna. Monitoraggio degli accessi, segmentazione delle autorizzazioni e audit regolari rimangono essenziali.

Per i regolatori, casi come questo rafforzano l’argomento a favore di framework normativi più stringenti. L’AI Act europeo prevede già requisiti specifici per i sistemi ad alto rischio, ma l’applicazione pratica a tecnologie in rapida evoluzione resta una sfida aperta.

La risposta di Anthropic e i limiti della trasparenza

L’approccio di Anthropic alla comunicazione su incidenti di sicurezza è tradizionalmente cauto. L’azienda pubblica report periodici sulle proprie pratiche di safety, ma tende a non commentare casi specifici di abuso per non fornire informazioni utili ad altri attaccanti.

Questa strategia ha una sua logica, ma genera anche frustrazione nella comunità della sicurezza. Senza informazioni dettagliate, è difficile per ricercatori indipendenti verificare l’efficacia delle contromisure implementate e contribuire al miglioramento dei sistemi.

Competitor come OpenAI e Google DeepMind affrontano sfide analoghe con approcci diversi. OpenAI ha optato per una maggiore apertura sui tentativi di abuso documentati, mentre DeepMind mantiene un profilo più riservato. Nessuna di queste strategie si è dimostrata definitivamente superiore.

Cosa aspettarsi

Il caso Mythos, indipendentemente dalla sua portata effettiva, anticipa una tendenza destinata a intensificarsi. Man mano che i modelli di AI diventano più capaci, il loro potenziale di abuso cresce proporzionalmente. Gli sviluppatori dovranno bilanciare l’utilità delle funzionalità avanzate con i rischi associati, sapendo che qualsiasi sistema di controllo sarà sottoposto a pressioni costanti.

Per gli utenti finali, la lezione è pragmatica: le capacità di sicurezza offensiva basate su AI sono strumenti potenti, ma la loro governance è ancora immatura. Affidarsi ciecamente ai guardrail del fornitore significa ignorare una realtà in cui gli attaccanti sono sempre un passo avanti.

La partita tra chi sviluppa sistemi di AI sicuri e chi cerca di abusarne è appena iniziata. Mythos potrebbe essere solo il primo capitolo visibile di una storia molto più lunga.