I diversi tipi di modelli linguistici elaborati con l’intelligenza artificiale

I sistemi di intelligenza artificiale in grado di comprendere e generare testo, noti come modelli linguistici, sono molto studiati in campo aziendale. Un recente sondaggio ha rilevato che il 60% delle aziende tecnologiche leader nel settore ha affermato che i propri budget per le tecnologie linguistiche, basati sull’intelligenza artificiale, sono aumentati di almeno il 10% nel 2020, mentre il 33% ha riportato un aumento del 30%. Ma non tutti i modelli linguistici sono uguali. Diversi tipi stanno emergendo come dominanti, inclusi modelli di grandi dimensioni e generici, come il già citato GPT-3 di OpenAI e modelli ottimizzati per particolari compiti. Ai margini esiste una terza categoria di modelli linguistici, che tende a essere di dimensioni molto compresse e limitata a poche capacità, progettata specificamente per funzionare su dispositivi e workstation Internet of Things. Questi diversi approcci presentano grandi differenze in termini di punti di forza, carenze e requisiti: ecco le differenze e dove possiamo aspettarci di vederli implementati nei prossimi anni.

Grandi modelli linguistici

I modelli linguistici di grandi dimensioni vengono addestrati con enormi quantità di dati di testo, a volte su scala Petabyte (migliaia e migliaia di Terabyte). Sono anche tra i modelli più grandi in termini di conteggio dei parametri, dove un “parametro” si riferisce al valore che il modello può cambiare indipendentemente, man mano che apprende. I parametri sono le parti apprese del modello dai dati di addestramento storici e definiscono essenzialmente l’abilità del modello su un problema, come la generazione di testo. “I modelli di grandi dimensioni vengono utilizzati per scenari a scatto zero o scenari a scatto limitato in cui sono disponibili pochi dati di addestramento di dominio [su misura] e di solito funzionano bene generando qualcosa basato su pochi prompt”, ha dichiarato Fangzheng Xu, studente della Carnegie Mellon specializzato in elaborazione del linguaggio naturale. Nell’apprendimento automatico, “pochi scatti” si riferisce alla pratica di addestrare un modello con dati minimi, mentre “scatto zero” implica che un modello può imparare a riconoscere cose che non ha mai visto durante l’addestramento. “Un unico modello di grandi dimensioni potrebbe potenzialmente abilitare molte attività a valle con pochi dati di addestramento”, ha continuato Xu. “Uno dei motivi per cui questi modelli linguistici di grandi dimensioni rimangono così straordinari è che un unico modello può essere utilizzato per compiti, tra cui la risposta alle domande, il riepilogo dei documenti, la generazione di testi, il completamento delle frasi, la traduzione e altro”, ha detto Bernard Koch, uno scienziato sociale computazionale dell’UCLA. “Un secondo motivo è che le loro prestazioni continuano a crescere man mano che si aggiungono più parametri al modello linguistico… Il terzo motivo per cui i modelli linguistici pre-addestrati sono di dimensioni notevoli è che sembrano essere in grado di fare previsioni decenti quando viene fornito solo un una manciata di esempi etichettati. I modelli linguistici di grandi dimensioni, open source o meno, hanno tutti in comune costi di sviluppo elevati. Uno studio del 2020 di AI21 Labs ha fissato le spese per lo sviluppo di un modello di generazione di testo con solo 1,5 miliardi di parametri fino a 1,6 milioni di dollari. Continueranno a essere lo standard per i servizi cloud e le API, dove la versatilità e l’accesso aziendale sono più importanti della latenza. Ma nonostante le recenti innovazioni architettoniche, questi tipi di modelli linguistici rimarranno poco accessibili per la maggior parte delle organizzazioni, siano esse accademiche, pubbliche o private.

Modelli linguistici perfezionati

I modelli perfezionati (o ottimizzati) sono generalmente più piccoli delle loro controparti di modelli linguistici di grandi dimensioni. Gli esempi includono il Codex di OpenAI, un discendente diretto di GPT-3 messo a punto per le attività di programmazione. Pur contenendo ancora miliardi di parametri, Codex è più piccolo di OpenAI sia nel generare che nel completare stringhe di codice del computer. La messa a punto può migliorare la capacità di quel modello di svolgere un’attività, ad esempio rispondere a domande o generare sequenze proteiche in ambito farmaceutico (ProGen di Salesforce). Ma può anche rafforzare la comprensione di un modello di determinati argomenti, come la ricerca clinica. “I modelli perfezionati sono ideali per attività mature con molti dati di addestramento”, ha affermato Xu. “Gli esempi includono la traduzione automatica, la risposta a domande, il riconoscimento di entità nominative, il collegamento di entità [e] il recupero di informazioni”. I vantaggi non si fermano qui. Poiché i modelli ottimizzati derivano da modelli linguistici esistenti, i modelli ottimizzati non richiedono tanto tempo (o calcolo) per l’addestramento o l’esecuzione. Inoltre, non richiedono tanti dati quanto i modelli linguistici di grandi dimensioni. GPT-3 è stato addestrato su 45 terabyte di testo contro i 159 gigabyte su cui è stato addestrato Codex. La messa a punto è stata applicata a molti domini, ma un esempio recente e particolarmente forte è InstructGPT di OpenAI. In una dimostrazione del potere della messa a punto, i ricercatori di Google, a febbraio, hanno pubblicato uno studio in cui si afferma che un modello molto più piccolo di GPT-3, fine-tuned language net (FLAN), supera GPT-3 “di un ampio margine” su un numero elevato di analisi. FLAN, che ha 137 miliardi di parametri, ha superato GPT-3 in 19 delle 25 attività su cui i ricercatori lo hanno testato e ha persino superato le prestazioni di GPT-3 in 10 attività. “Penso che la messa a punto sia probabilmente l’approccio più utilizzato nell’industria in questo momento e non vedo che cambierà a breve termine. Per ora, la messa a punto di modelli linguistici più piccoli consente agli utenti un maggiore controllo per risolvere i loro problemi specializzati utilizzando i propri dati specifici del dominio”, ha affermato Koch. “Invece di distribuire modelli [in linguaggio molto ampio] che gli utenti possono mettere a punto da soli, le aziende stanno commercializzando l’apprendimento a poche riprese tramite prompt API in cui è possibile fornire al modello brevi suggerimenti ed esempi”.

Modelli linguistici perimetrali

I modelli Edge, che sono volutamente di piccole dimensioni, possono assumere la forma di modelli perfezionati, ma non sempre. A volte, vengono addestrati da zero su piccoli set di dati per soddisfare specifici vincoli hardware (ad es. Telefono o hardware del server Web locale). In ogni caso, i modelli edge, sebbene limitati per alcuni aspetti, offrono una serie di vantaggi che i modelli linguistici di grandi dimensioni non possono eguagliare. Il costo è il principale vantaggio. Con un modello perimetrale che funziona offline e sul dispositivo, non ci sono costi di utilizzo del cloud da pagare. (Anche i modelli perfezionati sono spesso troppo grandi per essere eseguiti su macchine locali.

I modelli Edge offrono anche una maggiore privacy rispetto alle loro controparti legate a Internet, in teoria, perché non hanno bisogno di trasmettere o analizzare i dati nel cloud. Sono anche più veloce: un vantaggio fondamentale per applicazioni come la traduzione. App come Google Translate si basano su modelli edge per fornire traduzioni offline. “È probabile che l’edge computing venga implementato in contesti in cui è necessario un feedback immediato… In generale, penso che questi siano scenari in cui gli esseri umani interagiscono in modo colloquiale con l’intelligenza artificiale o i robot o qualcosa come le auto a guida autonoma che leggono i segnali stradali”, ha affermato Koch. “Come esempio ipotetico, Nvidia ha una demo in cui un chatbot edge ha una conversazione con i clienti in un fast food. Un caso d’uso finale potrebbe essere l’acquisizione automatizzata di note nelle cartelle cliniche elettroniche. L’elaborazione rapida della conversazione in queste situazioni è essenziale”. Naturalmente, i modelli piccoli non possono realizzare tutto ciò che possono fare i modelli grandi. Sono vincolati dall’hardware e alcune ricerche suggeriscono che le tecniche utilizzate per svilupparli possono amplificare caratteristiche indesiderate, come il bias algoritmico. “[Di solito c’è un] compromesso tra consumo di energia e potere predittivo. Inoltre, il calcolo dei dispositivi mobili non sta realmente aumentando allo stesso ritmo dei cluster di calcolo distribuito ad alte prestazioni, quindi le prestazioni potrebbero essere sempre più indietro”, ha affermato Xu.

Guardando al futuro

Poiché i modelli linguistici ampi, perfezionati e marginali continuano ad evolversi con la nuova ricerca, è probabile che incontreranno ostacoli sulla strada per un’adozione più ampia. “Lo svantaggio della messa a punto è che richiede ancora una discreta quantità di dati. Lo svantaggio dell’apprendimento a scatti è che non funziona così come la messa a punto e che i data scientist e gli ingegneri dell’apprendimento automatico hanno meno controllo sul modello perché interagiscono con esso solo tramite un’API”, ha continuato Koch. “E gli svantaggi dell’intelligenza artificiale perimetrale sono che i modelli complessi non possono adattarsi a dispositivi di piccole dimensioni, quindi le prestazioni sono rigorosamente peggiori dei modelli che possono adattarsi a una singola GPU desktop, molto meno modelli di linguaggio di grandi dimensioni basati su cloud distribuiti su decine di migliaia di GPU”. Xu osserva che tutti i modelli linguistici, indipendentemente dalle dimensioni, rimangono poco studiati in alcuni aspetti importanti. Spera che aree come la spiegabilità e l’interpretabilità, che mirano a capire come e perché un modello funziona ed esporre queste informazioni agli utenti, ricevano maggiore attenzione e investimenti in futuro, in particolare in settori “ad alto rischio” come la medicina. “La provenienza è davvero un importante passo successivo che questi modelli dovrebbero avere”, ha detto Xu. “In futuro, ci saranno tecniche di messa a punto sempre più efficienti per far fronte al costo crescente della messa a punto di un modello più grande nel suo complesso. I modelli edge continueranno a essere importanti, poiché più grande è il modello, più ricerca e sviluppo sono necessari per distillare o comprimere il modello per adattarlo ai dispositivi di uso quotidiano”.