AI Jailbreak: Cosa Sono e Come Mitigarli

Scopri cosa sono gli AI jailbreak, perché i modelli di AI generativa sono vulnerabili e come mitigare i rischi associati.

I sistemi di intelligenza artificiale generativa sono composti da molteplici componenti che interagiscono per offrire un’esperienza utente ricca tra l’umano e il modello di AI. Come parte di un approccio responsabile all’AI, i modelli di AI sono protetti da strati di meccanismi di difesa per prevenire la produzione di contenuti dannosi o l’uso per scopi non previsti. Questo articolo fornirà una comprensione di cosa sono gli AI jailbreak, perché l’AI generativa è suscettibile a essi e come è possibile mitigare i rischi e i danni.

Cos’è un AI Jailbreak?

Un AI jailbreak è una tecnica che può causare il fallimento dei guardrail (mitigazioni). Il danno risultante deriva da qualunque guardrail sia stato aggirato: ad esempio, far sì che il sistema violi le politiche dei suoi operatori, prenda decisioni indebitamente influenzate da un utente o esegua istruzioni dannose. Questa tecnica può essere associata ad ulteriori tecniche di attacco come l’iniezione di prompt, l’evasione e la manipolazione del modello.

Un esempio di tentativo di chiedere a un assistente AI di fornire informazioni su come costruire una bomba Molotov. Sappiamo che questa conoscenza è integrata nella maggior parte dei modelli di AI generativa disponibili oggi, ma è impedita di essere fornita all’utente attraverso filtri e altre tecniche per negare questa richiesta. Utilizzando una tecnica come Crescendo, tuttavia, l’assistente AI può produrre il contenuto dannoso che altrimenti sarebbe stato evitato. Questo problema è stato affrontato nei filtri di sicurezza di Microsoft; tuttavia, i modelli di AI sono ancora suscettibili a esso.

Perché l’AI Generativa è Suscettibile a Questo Problema?

Quando si integra l’AI nelle applicazioni, è importante considerare le caratteristiche dell’AI e come potrebbero influenzare i risultati e le decisioni prese da questa tecnologia. Senza antropomorfizzare l’AI, le interazioni sono molto simili ai problemi che si potrebbero incontrare quando si ha a che fare con le persone. Si possono considerare gli attributi di un modello di linguaggio AI simili a quelli di un dipendente entusiasta ma inesperto:

Troppo sicuro di sé: Potrebbe presentare idee o soluzioni che sembrano impressionanti ma non sono fondate sulla realtà.
Credulone: Può essere facilmente influenzato da come vengono assegnati i compiti o da come vengono poste le domande.
Desideroso di impressionare: Sebbene segua generalmente le politiche aziendali, può essere persuaso a piegare le regole o bypassare le salvaguardie.
Mancanza di applicazione nel mondo reale: Nonostante la vasta conoscenza, potrebbe avere difficoltà ad applicarla efficacemente in situazioni reali.

In sostanza, i modelli di linguaggio AI possono essere paragonati a dipendenti entusiasti e competenti ma privi del giudizio, della comprensione del contesto e dell’aderenza ai limiti che derivano dall’esperienza e dalla maturità.

Qual è la Portata del Problema?

Quando si verifica un AI jailbreak, la gravità dell’impatto è determinata dal guardrail che è stato aggirato. La risposta al problema dipenderà dalla situazione specifica e se il jailbreak può portare a un accesso non autorizzato ai contenuti o attivare azioni automatizzate. Ad esempio, se il contenuto dannoso viene generato e presentato a un singolo utente, si tratta di un incidente isolato che, sebbene dannoso, è limitato. Tuttavia, se il jailbreak potrebbe portare il sistema a eseguire azioni automatizzate o a produrre contenuti visibili a più di un singolo utente, allora diventa un incidente più grave.

Come si Verificano gli AI Jailbreak?

Le due famiglie di base di jailbreak dipendono da chi li esegue:

Un jailbreak “classico” avviene quando un operatore autorizzato del sistema crea input di jailbreak per estendere i propri poteri sul sistema.
L’iniezione di prompt indiretta avviene quando un sistema elabora dati controllati da una terza parte che inserisce un payload dannoso in quei dati, portando a un jailbreak del sistema.

Esistono una vasta gamma di attacchi simili ai jailbreak noti. Alcuni di essi funzionano aggiungendo istruzioni a un singolo input dell’utente, mentre altri agiscono su più turni, spostando gradualmente la conversazione verso un determinato fine. I jailbreak possono utilizzare tecniche molto “umane” come la psicologia sociale o tecniche molto “artificiali” che iniettano stringhe senza un significato umano ovvio, ma che comunque potrebbero confondere i sistemi di AI.

Guida alla Mitigazione e Protezione

Per mitigare il potenziale degli AI jailbreak, Microsoft adotta un approccio di difesa in profondità quando protegge i propri sistemi di AI. Quando si costruiscono soluzioni AI all’interno di Azure, le seguenti sono alcune delle tecnologie chiave che è possibile utilizzare per implementare le mitigazioni dei jailbreak:

Filtraggio dei prompt: Prompt Shields in Azure AI Content Safety
Gestione delle identità: Managed identities for Azure resources
Controlli di accesso ai dati: Microsoft Purview data security for generative AI apps
Metaprompt di sistema: System message framework and template recommendations for large language models (LLMs)
Filtraggio dei contenuti: Azure OpenAI Service content filtering
Monitoraggio degli abusi: Azure OpenAI Service abuse monitoring
Allineamento del modello durante l’addestramento: Microsoft Azure AI Fundamentals: Generative AI – Training
Protezione dalle minacce: Microsoft Defender for Cloud threat protection for AI workloads

Con difese stratificate, ci sono maggiori possibilità di mitigare, rilevare e rispondere adeguatamente a qualsiasi potenziale jailbreak.

Guida al Rilevamento

Per rilevare tentativi di jailbreak nei propri sistemi di AI, è necessario assicurarsi di aver abilitato la registrazione e di monitorare le interazioni in ogni componente, specialmente le trascrizioni delle conversazioni, il metaprompt del sistema e i completamenti dei prompt generati dal modello di AI. Microsoft raccomanda di impostare la soglia di severità del filtro di sicurezza dei contenuti di Azure AI alle opzioni più restrittive, adatte alla propria applicazione.

Conclusione

Questo articolo fornisce una guida fondamentale e una comprensione degli AI jailbreak. In futuri articoli, verranno spiegate le specifiche di eventuali nuove tecniche di jailbreak scoperte. Ogni articolo descriverà la tecnica di jailbreak scoperta e come funziona, con risultati di test evidenti, e fornirà informazioni su come i sistemi di AI di Microsoft sono stati aggiornati per implementare le mitigazioni al jailbreak.