Dal MIT un simulatore fotorealistico open source per la guida autonoma

I mondi virtuali iperrealistici sono stati annunciati come le migliori scuole di guida per i veicoli autonomi (AV). Tesla, Waymo e altre aziende di guida autonoma si affidano a dati per attivare simulatori fotorealistici costosi e di proprietà, perché testare e raccogliere dati sulle diverse sfumature di quasi-incidenti di solito non è la cosa più facile da ricreare.

Per questo motivo, gli scienziati del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT hanno creato "VISTA 2.0". Vista 2.0 è un motore di simulazione basato sui dati in cui i veicoli possono imparare a guidare nel mondo reale e a riprendersi da scenari di quasi-incidente. Inoltre, tutto il codice viene rilasciato open-source al pubblico.

"Oggi solo le aziende dispongono di software con il tipo di ambienti di simulazione e le capacità di VISTA 2.0. Con questo lancio, la comunità di ricerca avrà accesso a un nuovo potente strumento per accelerare la ricerca e lo sviluppo del controllo robusto adattivo per la guida autonoma", afferma Daniela Rus, docente del MIT e direttore del CSAIL, autrice di un articolo sulla ricerca.

Come funziona VISTA 2.0

VISTA 2.0, che si basa sul modello precedente del team, è fondamentalmente diverso dai simulatori AV esistenti in quanto basato sui dati. Ciò significa che è stato costruito e renderizzato in modo fotorealistico a partire da dati reali, consentendo un trasferimento diretto alla realtà. Sebbene l'iterazione iniziale supportasse solo l'inseguimento di un'unica fila di automobili con un sensore a telecamera, per ottenere una simulazione ad alta fedeltà è stato necessario ripensare le basi di come sintetizzare i diversi sensori e le interazioni comportamentali.

Ecco VISTA 2.0: un sistema data-driven in grado di simulare tipi di sensori complessi e scenari e incroci altamente interattivi. Utilizzando una quantità di dati molto inferiore rispetto ai modelli precedenti, il team è stato in grado di addestrare veicoli autonomi che potrebbero essere sostanzialmente più robusti di quelli addestrati su grandi quantità di dati del mondo reale.

"Si tratta di un enorme salto di qualità nelle capacità di simulazione data-driven per i veicoli autonomi, oltre all'aumento della scala e della capacità di gestire una maggiore complessità di guida". Lo afferma Alexander Amini, dottorando del CSAIL e co-autore dei due nuovi lavori, insieme al collega dottorando Tsun-Hsuan Wang. "VISTA 2.0 dimostra la capacità di simulare i dati dei sensori ben oltre le telecamere RGB in 2D. è anche superiore anche ai lidar 3D ad altissima dimensionalità con milioni di punti, alle telecamere basate su eventi con tempo irregolare e persino scenari interattivi e dinamici con altri veicoli".

Il team di scienziati è stato in grado di scalare la complessità dei compiti di guida interattivi, come il sorpasso, l'inseguimento e la negoziazione, compresi scenari multiagente in ambienti altamente fotorealistici.

Gli ambienti di simulazione

Poiché la maggior parte dei nostri dati è costituita dalla guida quotidiana, l'addestramento dei modelli di intelligenza artificiale per i veicoli autonomi comporta un'alimentazione difficile da supportare con molteplici di casi limite e scenari insoliti e pericolosi. Logicamente, non possiamo schiantarci contro altre auto solo per insegnare a una rete neurale a non schiantarsi contro altre auto.

Recentemente si è passati dagli ambienti di simulazione più classici, progettati dall'uomo, a quelli costruiti a partire da dati reali. Questi ultimi hanno un enorme fotorealismo, ma i primi possono facilmente modellare telecamere e lidar virtuali. Con questo cambio di paradigma, è emersa una domanda fondamentale: è possibile sintetizzare con precisione la ricchezza e la complessità di tutti i sensori di cui i veicoli autonomi hanno bisogno, come i lidar e le telecamere basate su eventi?

L'interpretazione dei dati

I dati dei sensori lidar sono molto più difficili da interpretare in un mondo basato sui dati. Si sta effettivamente cercando di generare nuvole di punti 3D nuove di zecca con milioni di punti. Per sintetizzare le nuvole di punti lidar 3D, i ricercatori hanno utilizzato i dati raccolti dall'auto, li hanno proiettati in uno spazio 3D ricavato dai dati lidar e poi hanno lasciato che un nuovo veicolo virtuale guidasse dal punto in cui si trovava il veicolo originale. Infine, con l'aiuto di reti neurali, hanno proiettato tutte le informazioni sensoriali nel campo visivo di questo nuovo veicolo virtuale.

Il simulatore è stato in grado non solo di simulare queste informazioni multimodali, ma anche di farlo in tempo reale. In questo modo è possibile addestrare le reti neurali offline, ma anche testarle online sull'auto in configurazioni di realtà aumentata per valutazioni sicure. "La domanda se la simulazione multisensore a questa scala di complessità e fotorealismo fosse possibile nel regno della simulazione data-driven era molto aperta", dice Amini.

Una nuova esperienza di simulazione

Con questo simulatore la scuola guida diventa una festa. Nella simulazione è possibile muoversi, avere diversi tipi di controller, simulare diversi tipi di eventi, creare scenari interattivi e inserire veicoli nuovi che non erano presenti nei dati originali. Hanno testato l'inseguimento della corsia, la svolta, l'inseguimento dell'auto e scenari più rischiosi come il sorpasso statico e dinamico. Con il multi-agenzia, sia gli agenti reali che quelli simulati interagiscono e nuovi agenti possono essere inseriti nella scena e controllati in qualsiasi modo.

Portando l'auto in scala reale nella "natura", il team ha constatato l'immediata trasferibilità dei risultati, con fallimenti e successi. Hanno dimostrato che gli AV, addestrati interamente in VISTA 2.0, erano così robusti nel mondo reale da poter gestire quella coda sfuggente di guasti impegnativi.

Ora, una protezione su cui gli esseri umani fanno affidamento e che non può ancora essere simulata è l'emozione umana. Si tratta di sfumature di interazioni che il team vuole implementare nel lavoro futuro.

"L'algoritmo centrale di questa ricerca è il modo in cui possiamo prendere un set di dati e costruire un mondo completamente sintetico per l'apprendimento e l'autonomia", dice Amini. "È una piattaforma che credo un giorno potrebbe estendersi a molti campi della robotica. Non solo la guida autonoma, ma molte aree che si basano sulla visione e su comportamenti complessi. Siamo entusiasti di rilasciare VISTA 2.0 per consentire alla comunità di raccogliere i propri set di dati e convertirli in mondi virtuali. ".

Gli autori

Amini e Wang hanno scritto il lavoro insieme a Zhijian Liu (dottorando del MIT CSAIL) a Igor Gilitschenski (professore assistente di informatica presso l'Università di Toronto Wilko Schwarting e ricercatore di intelligenza artificiale e dottorando del MIT CSAIL '20), a Song Han (professore associato presso il Dipartimento di ingegneria elettrica e informatica del MIT), a Sertac Karaman (professore associato di aeronautica e astronautica al MIT) e a Daniela Rus (professore del MIT e direttore del CSAIL). I ricercatori hanno presentato il lavoro alla IEEE International Conference on Robotics and Automation (ICRA) di Philadelphia.

Questo lavoro è stato sostenuto dalla National Science Foundation e dal Toyota Research Institute. Il team riconosce il supporto di NVIDIA con la donazione del Drive AGX Pegasus.

Dal MIT un simulatore fotorealistico open source per la guida autonoma

Leggi la rivista ⇢

Ti potrebbero interessare ⇢

Due Summer School per la manifattura avanzata e su AI, Cloud e cybersecurity

RS Italia al fianco degli studenti del Politecnico di Milano

Bando Voucher Doppia Transizione: nuove risorse per AI, IoT e cybersecurity

Come funziona VISTA 2.0

Gli ambienti di simulazione

L'interpretazione dei dati

Una nuova esperienza di simulazione

Gli autori

Automazionenews