Il mistero dell'in-context learning

Articolo originale: Solving a machine-learning mystery
A new study shows how large language models like GPT-3 can learn a new task from just a few examples, without the need for any new training data.
Adam Zewe | MIT News

I modelli linguistici di grandi dimensioni, come il GPT-3 di OpenAI, sono reti neurali massive in grado di generare testi simili a quelli umani, dalle poesie al codice di programmazione. Addestrati utilizzando una marea di dati internet, questi modelli di machine learning prendono un piccolo testo in ingresso e prevedono il testo che probabilmente seguirà.

Ma questo non è tutto ciò che questi modelli possono fare. I ricercatori stanno esplorando un curioso fenomeno noto come in-context learning, in cui un modello linguistico di grandi dimensioni impara a svolgere un compito dopo aver visto solo pochi esempi, nonostante non sia stato addestrato per quel compito. Per esempio, si possono fornire al modello diverse frasi di esempio e i loro sentimenti (positivi o negativi), poi gli si chiede una nuova frase e il modello può dare il sentimento corretto.

In genere, un modello di apprendimento automatico come GPT-3 dovrebbe essere ri-addestrato con nuovi dati per questo nuovo compito. Durante questo processo di addestramento, il modello aggiorna i suoi parametri mentre elabora nuove informazioni per imparare il compito. Con l'apprendimento in contesto, invece, i parametri del modello non vengono aggiornati, per cui sembra che il modello impari un nuovo compito senza imparare nulla.

In-context learning: apprendere senza aggiornamenti

Gli scienziati del MIT, di Google Research e dell'Università di Stanford stanno cercando di svelare questo mistero. Hanno studiato modelli molto simili ai modelli linguistici di grandi dimensioni per vedere come possono imparare senza aggiornare i parametri.

I risultati teorici dei ricercatori mostrano che questi modelli di rete neurale di grandi dimensioni sono in grado di contenere al loro interno modelli lineari più piccoli e semplici. Il modello di grandi dimensioni potrebbe quindi implementare un semplice algoritmo di apprendimento per addestrare questo modello lineare più piccolo a completare un nuovo compito, utilizzando solo le informazioni già contenute nel modello più grande. I suoi parametri rimangono fissi.

Questa ricerca, che rappresenta un passo importante verso la comprensione dei meccanismi alla base dell'in-context learning, apre le porte a una maggiore esplorazione degli algoritmi di apprendimento che questi modelli di grandi dimensioni possono implementare, spiega Ekin Akyürek, studente di informatica e autore principale di un articolo che esplora questo fenomeno. Grazie a una migliore comprensione dell'apprendimento nel contesto, i ricercatori potrebbero consentire ai modelli di completare nuovi compiti senza dover ricorrere a una costosa riqualificazione.

"Di solito, se si vuole perfezionare questi modelli, è necessario raccogliere dati specifici per il dominio e fare una complessa attività di ingegneria. Ma ora possiamo semplicemente dargli un input, cinque esempi, e il modello ottiene ciò che vogliamo". L'apprendimento in contesto è quindi un fenomeno di apprendimento irragionevolmente efficiente che deve essere compreso", afferma Akyürek.

Un modello nel modello

Nella comunità di ricerca sull'in-context learning, molti scienziati sono convinti che i modelli linguistici di grandi dimensioni possano eseguire l'in-context learning grazie al modo in cui sono stati addestrati, dice Akyürek.

Per esempio, GPT-3 ha centinaia di miliardi di parametri ed è stato addestrato leggendo enormi quantità di testo su Internet, dagli articoli di Wikipedia ai post di Reddit. Quindi, quando si mostrano al modello esempi di un nuovo compito, è probabile che il modello abbia già visto qualcosa di molto simile, perché il suo set di dati di addestramento comprende testi provenienti da miliardi di siti web. Il modello ripete gli schemi che ha visto durante l'addestramento, piuttosto che imparare a svolgere nuovi compiti.

Akyürek ha ipotizzato che gli apprendenti in-context non si limitino a riprodurre schemi visti in precedenza, ma che stiano effettivamente imparando a svolgere nuovi compiti. Sono stati svolti esperimenti dando a questi modelli dei suggerimenti con dati sintetici, che non potevano essere visti in precedenza. Così hanno scoperto che i modelli potevano ancora imparare da pochi esempi. Akyürek e i suoi colleghi hanno pensato che forse questi modelli di rete neurale hanno al loro interno dei modelli di apprendimento automatico più piccoli che i modelli possono addestrare per completare un nuovo compito.

"Questo potrebbe spiegare quasi tutti i fenomeni di apprendimento che abbiamo osservato con questi modelli di grandi dimensioni", spiega Akyürek.

Le reti neurali transformer

Per verificare questa ipotesi, i ricercatori hanno utilizzato un modello di rete neurale chiamato transformer. Questo modello ha la stessa architettura del GPT-3, ma è specificamente addestrato per l'in-context learning.

Esplorando l'architettura di questo transformer, hanno dimostrato che teoricamente può scrivere un modello lineare all'interno dei suoi layer nascosti. Una rete neurale è composta da molti strati di nodi interconnessi che elaborano i dati. I layer nascosti sono gli strati tra l'input layer e l'output layer.

Le loro valutazioni matematiche mostrano che questo modello lineare è scritto da qualche parte nei primi strati del transformer. Il transformer può quindi aggiornare il modello lineare implementando semplici algoritmi di apprendimento.

In sostanza, il modello simula e addestra una versione più piccola di se stesso.

Sondare gli strati nascosti

I ricercatori hanno esplorato questa ipotesi con esperimenti negli gli strati nascosti del transformer per cercare di recuperare una certa quantità di dati.

"In questo caso, abbiamo cercato di recuperare la soluzione reale del modello lineare e abbiamo potuto dimostrare che il parametro è scritto negli stati nascosti. Questo significa che il modello lineare è lì dentro da qualche parte", spiega.

Sulla base di questo lavoro teorico, i ricercatori potrebbero consentire a un transformer di eseguire l'in-context learning aggiungendo solo due strati alla rete neurale. Ci sono ancora molti dettagli tecnici da risolvere prima che questo sia possibile, avverte Akyürek. Tuttavia potrebbe aiutare gli ingegneri a creare modelli in grado di completare nuovi compiti senza la necessità di riqualificarsi con nuovi dati.

I futuri sviluppi dell'in-context learning

"L'articolo fa luce su una delle proprietà più notevoli dei moderni modelli linguistici di grandi dimensioni: la loro capacità di apprendere dai dati forniti in ingresso, senza un addestramento esplicito. Utilizzando il caso semplificato della regressione lineare, gli autori mostrano teoricamente come i modelli possano implementare algoritmi di apprendimento standard mentre leggono i loro input, ed empiricamente quali algoritmi di apprendimento si adattano meglio al loro comportamento osservato", afferma Mike Lewis, ricercatore presso Facebook AI Research che non ha partecipato a questo lavoro. "Questi risultati sono un passo avanti nella comprensione di come i modelli possano apprendere compiti più complessi e aiuteranno i ricercatori a progettare metodi di addestramento migliori per i modelli linguistici per migliorare ulteriormente le loro prestazioni".

In futuro, Akyürek intende continuare a esplorare l'apprendimento in contesto con funzioni più complesse dei modelli lineari studiati in questo lavoro. Potrebbe anche applicare questi esperimenti a modelli linguistici di grandi dimensioni per vedere se il loro comportamento è descritto anche da semplici algoritmi di apprendimento. Inoltre, l'autore vuole approfondire i tipi di dati di preformazione che possono consentire l'apprendimento in contesto.

"Con questo lavoro, le persone possono ora visualizzare come questi modelli possono imparare dagli esempi. La mia speranza è che questo cambi l'opinione di alcune persone sull'apprendimento in contesto", dice Akyürek. "Questi modelli non sono così stupidi come si pensa. Non si limitano a memorizzare questi compiti. Possono imparare nuovi compiti e noi abbiamo dimostrato come sia possibile farlo".

L'équipe di ricerca

Al lavoro di Akyürek si uniscono Dale Schuurmans, ricercatore di Google Brain e professore di informatica all'Università di Alberta; Jacob Andreas, X Consortium Assistant Professor presso il Dipartimento di Ingegneria Elettrica e Informatica del MIT e membro del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL); Tengyu Ma, professore assistente di informatica e statistica a Stanford; Danny Zhou, direttore della ricerca di Google Brain. La ricerca sarà presentata alla International Conference on Learning Representations (ICLR).

Reprinted with permission of MIT News

Il mistero dell’in-context learning

Leggi la rivista ⇢

Ti potrebbero interessare ⇢

Blockchain nel settore automotive: un mercato da oltre 16 miliardi di dollari entro il 2035

PTC Orbit, la nuova piattaforma AI che unifica i dati degli asset lungo tutto il ciclo di vita

Robotica, l’industria mondiale fa fronte comune: firmata la Barcelona Declaration 2026