“Attacco acustico del canale laterale”: di cosa si tratta e come è possibile

Moige
Foto di Glenn Carstens-Peters su Unsplash

Secondo un recente studio condotto da ricercatori delle università di Durham e Surrey e della Royal Holloway University di Londra, le parole e le frasi digitate la tastiera possono essere decodificati dal semplice suono delle dita che battono sui tasti. I ricercatori hanno addestrato due modelli di apprendimento automatico e intelligenza artificiale a riconoscere i clic distintivi di ciascun tasto sulla tastiera di un laptop Apple. I modelli sono stati addestrati sull’audio raccolto da due fonti: uno smartphone posizionato nelle vicinanze e una videochiamata collegata al famoso software videochiamate Zoom. I risultati raccolti raggiungono una precisione del 95% per il modello audio dello smartphone e del 93% per il modello di Zoom. Questi modelli potrebbero rendere possibile il cosiddetto “attacco acustico del canale laterale”.

Sebbene la procedura minuziosamente descritta nello studio si basi su tecniche contemporanee di apprendimento automatico, tali attacchi risalgono almeno agli anni ’50, quando i servizi di intelligence britannici registrarono di nascosto i dispositivi di crittografia meccanica utilizzati dal governo egiziano nelle sue sessioni di comunicazione criptata. Un attacco acustico al canale laterale di un laptop indica, con buona precisione, quali tasti sono stati premuti e in quale ordine, sulla base delle registrazioni audio raccolte mentre una persona sta utilizzando il laptop. Questi attacchi possono rivelare informazioni sensibili dell’utente, come PIN bancari, password di account o credenziali governative…Questi modelli sono costruiti attorno a reti neurali convoluzionali, o CNN. Proprio come tali reti possono riconoscere i volti in mezzo alla folla, così possono riconoscere altri tipi di modelli utilizzando uno spettrogramma e analizzandone il grafico di un segnale audio. L’intelligenza artificiale, quindi, isola l’audio di ogni pressione di un tasto, trasforma la sua forma d’onda in uno spettrogramma, estrae da esso i modelli di frequenza di ogni clic e calcola la probabilità relativa che un dato tasto sia stato premuto. “Un attacco acustico del canale laterale si basa sulla stima di quali tasti sono stati premuti e in quale ordine per ricostruire informazioni sensibili. Penso che questo sia il motivo principale per cui il nostro metodo funziona così bene”, afferma Ehsan Toreini, coautore del rapporto.

L’attacco presentato nello studio ha, però, una portata limitata. I due modelli di decodifica audio sono stati addestrati e valutati sui dati raccolti dallo stesso utente che digitava su un singolo laptop. Inoltre, il processo di apprendimento utilizzato richiede che i suoni chiave siano abbinati a etichette chiave sempre diverse. Resta da vedere quanto questo metodo possa essere efficace se utilizzato su altri modelli di laptop in ambienti audio diversi e con utenti diversi. Inoltre, la necessità di dati di addestramento etichettati (definiti e con esseri umani conosciuti) pone limiti all’ampiezza di implementazione del modello. Tuttavia, esistono scenari plausibili in cui un utente malintenzionato potrebbe avere accesso ai dati audio etichettati di una persona che digita… Sebbene tali dati possano essere difficili da raccogliere di nascosto, una persona potrebbe essere costretta a fornirli. In un recente episodio, i conduttori del podcast “Smashing Security” hanno commentato lo studio e ipotizzato uno scenario in cui un’azienda richieda ai nuovi dipendenti di fornire tali dati in modo che possano essere monitorati in seguito.

Il gruppo di ricerca indica già diversi modi per mitigare i rischi di questo attacco. Per prima cosa, si potrebbe semplicemente digitare velocemente i propri dati: la digitazione a tocco può combinare la pressione di singoli tasti e complicare l’isolamento e la decodifica della pressione dei tasti. Anche i cambiamenti sistemici aiuterebbero. I servizi di videochiamata come Zoom potrebbero introdurre profili di rumore o distorsione audio nelle registrazioni che impedirebbero ai modelli di apprendimento automatico di abbinare facilmente l’audio ai caratteri digitati. “La comunità della sicurezza informatica e della privacy dovrebbe già pensare ed elaborare soluzioni più sicure e rispettose della privacy che consentano alle persone di utilizzare le tecnologie moderne senza rischi e paure”, afferma la coautrice Maryam Mehrnezhad. “Crediamo che nei prossimi anni ci sia abbastanza spazio affinché l’industria e i politici trovino soluzioni migliori per proteggere l’utente in diversi contesti e applicazioni”.