L’intelligenza artificiale è sempre più presente nella nostra vita quotidiana, e aziende di tutto il mondo continuano a investire in modo massiccio in questo settore. Tuttavia, con la crescente diffusione degli LLM (Large Language Models) come ChatGPT e Gemini, crescono anche le preoccupazioni etiche e di sicurezza. Un nuovo studio condotto da ricercatori di Intel, Boise State University e University of Illinois ha rivelato una potenziale falla nei sistemi di protezione di questi chatbot: sarebbe possibile aggirare i filtri di sicurezza semplicemente sovraccaricando il modello con troppe informazioni.
Il metodo “InfoFlood”: il sovraccarico cognitivo diventa un’arma contro l’IA
La tecnica individuata, soprannominata “Information Overload” o “InfoFlood”, si basa sul principio che una quantità eccessiva di dati testuali può confondere il modello linguistico fino a indurlo a rispondere a richieste dannose che normalmente verrebbero bloccate dai sistemi di sicurezza. I ricercatori hanno creato uno strumento automatico per testare questa vulnerabilità e sono riusciti a ottenere risultati allarmanti: anche modelli avanzati e protetti possono perdere il controllo del contesto se esposti a un carico informativo troppo elevato.
Secondo lo studio, gli LLM tendono a basarsi su segnali linguistici superficiali, senza riuscire a cogliere l’intenzione reale dietro un messaggio. Questo li rende vulnerabili a richieste pericolose nascoste all’interno di messaggi lunghi e complessi, che riescono a eludere i filtri e ottenere una risposta da parte del chatbot. In pratica, la confusione generata dal sovraccarico impedisce al modello di attivare i suoi meccanismi di difesa.
Le aziende IA saranno informate con una segnalazione tecnica
I ricercatori hanno fatto sapere che invieranno un pacchetto di divulgazione tecnica alle principali aziende attive nello sviluppo di modelli di intelligenza artificiale, affinché i loro team di sicurezza possano prendere provvedimenti. La pubblicazione del paper sottolinea però quanto sia difficile mantenere filtri di sicurezza realmente efficaci, soprattutto di fronte a metodi sempre più sofisticati per aggirare le protezioni.
Questa scoperta mette in luce i limiti attuali della sicurezza nei modelli linguistici avanzati, e rappresenta un monito importante: anche i sistemi più protetti possono essere manipolati attraverso l’inganno linguistico. Il rischio non è solo teorico, ma concreto, e apre nuove domande sull’uso responsabile dell’IA e sulla necessità di meccanismi più profondi e adattivi di comprensione semantica.