Microsoft e l’evoluzione di attacchi informatici: come rilevare e neutralizzare le minacce emergenti

Sistemi basati sull’intelligenza artificiale e le grandi sfide relative alla cyber security. Analisi dell’approccio di Microsoft per far fronte agli attacchi.

Nell’era dell’intelligenza artificiale (AI), le potenziali minacce derivanti dal suo uso sono motivo di grande preoccupazione. Il fenomeno è tanto più significativo se si considera l’impiego sempre più diffuso di questi sofisticati sistemi nella vita quotidiana. Microsoft, rivolgendosi agli sviluppatori di applicazioni generative AI, ha recentemente annunciato nuovi strumenti per garantire la sicurezza di questi sistemi, ponendo al centro della propria azione l’importanza della privacy e dell’affidabilità delle grandi piattaforme linguistiche.

Tra le principali preoccupazioni relative all’AI vi è l’uso potenzialmente dannoso per scopi illeciti. Per prevenire ciò, i sistemi AI di Microsoft sono costruiti con diversi livelli di difese in tutta la loro architettura. L’obiettivo di queste difese è quello di limitare ciò che l’AI farà, per allinearla ai valori e agli obiettivi dell’utente. Tuttavia, potrebbero esserci attori dannosi che tentano di bypassare queste salvaguardie con l’intento di raggiungere azioni non autorizzate, il che potrebbe culminare in un “jailbreak”. Le conseguenze possono variare dal non approvato ma meno nocivo – come far parlare l’interfaccia dell’AI come un pirata – fino a problemi molto seri, come indurre l’AI a fornire istruzioni dettagliate su come realizzare attività illegali.

Una parte significativa degli sforzi si concentra sulla rafforzamento di queste difese “anti-jailbreak” per proteggere le applicazioni integrate con AI da questi comportamenti. Mentre le applicazioni integrate con AI possono essere attaccate come un software tradizionale (con metodi come buffer overflows e cross-site scripting), possono anche essere vulnerabili a attacchi più specializzati che sfruttano le loro caratteristiche uniche. Questi includono la manipolazione o l’iniezione di istruzioni dannose semplicemente dialogando con il modello di AI attraverso il prompt dell’utente.

Il team di Microsoft ha recentemente condiviso due preziosi avanzamenti in questo campo: la scoperta di un’efficace tecnica per neutralizzare i contenuti velenosi e la scoperta di una nuova famiglia di attacchi con prompt dannosi, e come difendersi da essi con vari strati di mitigazione.

La tecnica denominata “Spotlighting” si è rivelata particolarmente efficace nel ridurre la percentuale di successo di questi attacchi dal 20% al di sotto della soglia di rilevazione, con un minimo impatto sull’intero sistema AI. Introduce uno strato di sicurezza supplementare, rendendo i dati esterni chiaramente separabili dalle istruzioni del LLM (true LLM, Large Language Models).

Il team di ricerca ha inoltre portato alla luce un’inedita generalizzazione degli attacchi “jailbreak”, che ha chiamato “Crescendo”. Questo attacco può essere descritto come un “jailbreak multiturn LLM”, è in grado di realizzare una vasta gamma di obiettivi dannosi contro i più noti LLM utilizzati oggi. Crescendo può anche bypassare molti dei filtri di sicurezza dei contenuti esistenti, se non affrontati adeguatamente.

A fronte della scoperta di questa tecnica, Microsoft ha rapidamente condiviso le proprie scoperte tecniche con altri produttori di AI, affinché potessero determinare se fossero stati colpiti e prendere le azioni che ritenevano opportune. I fornitori contattati sono consapevoli dell’impatto potenziale degli attacchi Crescendo e si concentrano sulla protezione delle loro rispettive piattaforme, in base alle loro implementazioni e salvaguardie AI.

Di fronte a queste minacce emergenti, il lavoro di ricerca su tali problematiche è costante, con lo scopo di garantire un funzionamento e una performance sicuri dei sistemi AI per tutti. In particolare, nel caso di Crescendo, i team Microsoft hanno effettuato aggiornamenti software sulla tecnologia LLM alla base delle offerte AI di Microsoft, compreso il nostro assistente AI Copilot, per mitigare l’impatto di questo bypass multiturno delle protezioni AI.