HomeRicerca e SviluppoMigliorata l'efficienza dei "Vision Transformer"

Migliorata l’efficienza dei “Vision Transformer”

I ricercatori hanno sviluppato un nuovo metodo per diminuire la potenza di calcolo e aumentare la trasparenza decisionale nei Vision Tranformer

Leggi le riviste ⇢

Ti potrebbero interessare ⇢

Vittoria Lugli

Articolo originale: New Method Improves Efficiency of ‘Vision Transformer’ AI Systems
Tianfu Wu e Matt Shipman | NC State News

I Transformer di visione (ViT) sono potenti tecnologie di intelligenza artificiale (AI) in grado di identificare o categorizzare gli oggetti nelle immagini - tuttavia, esistono sfide significative legate sia ai requisiti di potenza di calcolo che alla trasparenza decisionale. I ricercatori hanno ora sviluppato una nuova metodologia che affronta entrambe le sfide, migliorando al contempo la capacità dei ViT di identificare, classificare e segmentare gli oggetti nelle immagini.

Le reti neurali Transformer

I Transformer sono tra i più potenti modelli di intelligenza artificiale esistenti. Ad esempio, ChatGPT è un'intelligenza artificiale che utilizza un'architettura a Transformer, ma gli input utilizzati per addestrarla sono linguistici. Le ViT sono IA basate su Transformer che vengono addestrate utilizzando input visivi. Ad esempio, le ViT potrebbero essere utilizzate per rilevare e classificare gli oggetti in un'immagine, come ad esempio identificare tutte le auto o tutti i pedoni presenti in un'immagine.

Tuttavia, le ViT devono affrontare due sfide.

Le sfide dei Vision Transformer

In primo luogo, i modelli di Transformer sono molto complessi. Rispetto alla quantità di dati inseriti nell'intelligenza artificiale, i modelli di trasformazione richiedono una notevole potenza di calcolo e utilizzano una grande quantità di memoria. Questo è particolarmente problematico per i ViT, perché le immagini contengono una grande quantità di dati.

In secondo luogo, per gli utenti è difficile capire esattamente come le ViT prendono le decisioni. Ad esempio, si potrebbe aver addestrato una ViT a identificare i cani in un'immagine. Ma non è del tutto chiaro come la ViT determini cosa sia un cane e cosa no. A seconda dell'applicazione, la comprensione del processo decisionale della ViT, noto anche come interpretabilità del modello, può essere molto importante.

La nuova metodologia ViT, chiamata "Patch-to-Cluster attention" (PaCa), affronta entrambe le sfide.

La nuova metodologia Patch-to-Cluster attention

"Affrontiamo la sfida legata alle richieste di calcolo e di memoria utilizzando tecniche di clustering, che consentono all'architettura del Transformer di identificare e focalizzare meglio gli oggetti in un'immagine", spiega Tianfu Wu, autore corrispondente di un articolo sul lavoro e professore associato di ingegneria elettrica e informatica presso la North Carolina State University.

"Il clustering consiste nel raggruppare sezioni dell'immagine in base alle somiglianze che trova nei dati dell'immagine. Questo riduce in modo significativo le richieste di calcolo del sistema. Prima del clustering, le richieste di calcolo per un ViT sono quadratiche. Ad esempio, se il sistema scompone un'immagine in 100 unità più piccole, deve confrontare tutte le 100 unità tra loro, il che equivale a 10.000 funzioni complesse.

"Con il clustering siamo in grado di rendere questo processo lineare, in cui ogni unità più piccola deve essere confrontata solo con un numero predeterminato di cluster. Supponiamo di dire al sistema di stabilire 10 cluster; sarebbero solo 1.000 funzioni complesse", spiega Wu.

"Il clustering ci permette anche di affrontare la questione dell'interpretabilità del modello, perché possiamo esaminare come il sistema ha creato i cluster. Quali caratteristiche ha ritenuto importanti per raggruppare queste sezioni di dati? E poiché l'intelligenza artificiale crea solo un piccolo numero di cluster, possiamo esaminarli abbastanza facilmente".

I ricercatori hanno effettuato test completi su PaCa, confrontandolo con due ViT all'avanguardia, SWin e PVT. Hanno così scoperto che PaCa ha superato SWin e PVT sotto tutti i punti di vista.

Il futuro di PaCa

"Il prossimo passo è quello di aumentare la scala di PaCa addestrandolo su set di dati più grandi e fondamentali".

L'articolo, "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers", sarà presentato alla IEEE/CVF Conference on Computer Vision and Pattern Recognition, che si terrà dal 18 al 22 giugno a Vancouver, in Canada. Il primo autore dell'articolo è Ryan Grainger, dottorando alla NC State. Il documento è stato redatto in collaborazione con Thomas Paniagua, dottorando presso la NC State, Xi Song, ricercatore indipendente, e Naresh Cuntoor e Mun Wai Lee di BlueHalo.

Migliorata l’efficienza dei “Vision Transformer” - Ultima modifica: 2023-06-07T17:56:59+02:00 da Vittoria Lugli