Intelligenza artificiale generativa e privacy: cosa bisogna sapere

L’11 marzo 2023, la divisione Device Solutions di Samsung ha consentito ai dipendenti di utilizzare ChatGPT, al momento il più grande e sviluppato motore di intelligenza artificiale scritta. Un rapporto su The Economist Korea, pubblicato meno di tre settimane dopo, ha identificato tre casi di “fuga di dati”. Due ingegneri hanno utilizzato ChatGPT per risolvere i problemi relativi a codici di programmazione top secret e un dirigente lo ha utilizzato per la trascrizione di una riunione. Pochi giorni dopo, Samsung ha cambiato rotta vietando l’uso ai dipendenti, non solo di ChatGPT ma di tutta l’intelligenza artificiale (AI) generativa esterna. Quanto successo in Samsung illustra un problema che dovrà affrontare chiunque utilizzi strumenti di intelligenza artificiale generativa di terze parti, basati su un modello di linguaggio di grandi dimensioni (LLM).

Gli strumenti di intelligenza artificiale più potenti possono importare grandi porzioni di testo e produrre rapidamente risultati utili, ma questa funzione può facilmente portare a fughe di dati. “Potrebbe andare bene per uso personale, ma per quanto riguarda l’uso aziendale? […] Non puoi semplicemente inviare tutti i tuoi dati a OpenAI, ai loro server perché, a questo punto, diventa una questione anche di privacy”, afferma Taleb Alashkar, chief technology officer della società di computer vision AlgoFace e MIT Research Affiliate. L’intelligenza artificiale è vincolata dalle stesse normative sulla privacy di altre tecnologie. Il divieto temporaneo di ChatGPT in Italia si è verificato dopo un incidente di sicurezza, nel marzo 2023, che ha consentito ad alcuni utenti di vedere le cronologie chat di altri utenti. Questo problema potrebbe interessare qualsiasi tecnologia che memorizza i dati personali. L’Italia ha revocato il divieto dopo che OpenAI ha aggiunto funzionalità per offrire agli utenti un maggiore controllo su come i loro dati vengono archiviati e utilizzati. Questo sembra non essere l’unico problema con cui doversi approcciare.

I modelli di intelligenza artificiale generativa, come ad esempio Stable Diffusion, un modello di apprendimento automatico profondo, usato generalmente per generare immagini dettagliate, partendo da una descrizione testuale, sembra che possano generare immagini simili alle immagini utilizzate nei dati di training. È diventata virale la fotografia di una donna di nome Ann Graham Lotz accanto a un’immagine generata dall’intelligenza artificiale, creata con Stable Diffusion. Il confronto mostra che l’immagine del generatore AI è significativamente simile all’immagine originale, inclusa nei dati di addestramento del modello AI. I ricercatori hanno scoperto che Stable Diffusion, a volte, riesca autonomamente a generare immagini simili a quelle fornite in fase di addestramento. Ciò porta a temere che l’IA generativa controllata da una terza parte possa far trapelare involontariamente dati sensibili, in parte o per intero. Alcuni strumenti di intelligenza artificiale generativa, tra cui ChatGPT, peggiorano questa paura, includendo i dati degli utenti nel loro set di formazione. I governi, preoccupati per la privacy dei dati non avranno altra scelta che vietarne l’uso.

“Pensa a una compagnia di assicurazioni, o a grandi banche, o ai dipartimenti della difesa o ai servizi segreti”, afferma Alashkar, aggiungendo che “ogni CIO, CTO, responsabile della sicurezza o manager di un’azienda è impegnato a esaminare tali politiche e le migliori pratiche. Penso che la maggior parte delle aziende responsabili sia molto impegnata ora a cercare di trovare la soluzione giusta a questo problema”. I problemi di privacy dei dati di AI hanno una soluzione ovvia. Un’azienda potrebbe addestrarsi utilizzando i propri dati (o i dati che ha ottenuto tramite mezzi che soddisfano le normative sulla privacy dei dati) e distribuire il modello sull’hardware che possiede e controlla. Ma la soluzione ovvia arriva con un problema ovvio: è inefficiente. Il processo di formazione e implementazione di un modello di intelligenza artificiale generativa è costoso e difficile da gestire per tutti, tranne che per le aziende più esperte e ben finanziate. “Quando inizi ad allenare il tuo strumento utilizzando oltre 500 unità di superprocessori ad alte prestazioni, le cose possono andare male… Devi davvero sapere cosa stai facendo, ed è quello che abbiamo fatto noi, e l’abbiamo impacchettato insieme in un’interfaccia”, afferma Naveen Rao, cofondatore e CEO di MosaicML, azienda che offre una terza opzione: un modello di intelligenza artificiale ospitato che viene eseguito all’interno dell’ambiente sicuro di MosaicML. Il modello può essere controllato tramite un client Web, un’interfaccia a riga di comando o Python.

“Ecco la piattaforma, ecco il modello e tu conservi i tuoi dati. Allena il tuo modello e mantieni i pesi del modello. I dati rimangono nella tua rete”, spiega Julie Choi, chief marketing and community officer di MosaicML. Choi afferma che l’azienda lavora con clienti nel settore finanziario e altri che sono “davvero attenti alla propria proprietà intellettuale”.
L’approccio “ospitato” è una tendenza in crescita. Intel, ad esempio, sta collaborando a un modello di AI privato per Boston Consulting Group, IBM prevede di entrare nell’arena con Watsonx AI e servizi esistenti come Sagemaker di Amazon e Azure ML di Microsoft si stanno evolvendo in risposta alla domanda. L’addestramento di un modello di IA ospitato rimane costoso, difficile e richiede molto tempo, ma drasticamente meno che farlo da solo. Il 5 maggio 2023, MosaicML ha annunciato di aver addestrato un modello LLM, chiamato MPT-7B, per meno di 200.000 dollari in nove giorni e mezzo e senza intervento umano. OpenAI, che rilascia modelli “aperti”, non rivela il costo per il loro addestramento, ma stima che il costo dell’addestramento di GPT-3 sia stato almeno di 4,6 milioni di dollari. “Crediamo davvero che la sicurezza e la privacy dei dati siano fondamentali quando si creano sistemi di intelligenza artificiale. Perché alla fine della giornata, l’intelligenza artificiale è un accelerante e verrà addestrata sui tuoi dati per aiutarti a prendere le tue decisioni, sia su sistemi aperti che su sistemi ospitati…”, afferma Choi. Noi continueremo a monitorare.

Paolo Berro