Controllo gestuale, monitoraggio del movimento e misurazione distanze, controllo della qualità, identificazione oggetti, rilevazione difetti nei prodotti, sicurezza, interazione uomo-robot. Una serie di applicazioni per le quali sono state realizzate varie soluzioni. Una delle tendenze del momento sembra quella dei sensori 3D basati sulla tecnica Time of Light o di “misura del tempo di volo”.
Applicazioni robotiche, di automazione, per il conteggio persone o in ambito automotive, interazione uomo-macchina richiedono hardware e software con prestazioni crescenti, telecamere ad alta velocità e capacità di calcolo più elevate. A seconda dei settori si stanno affermando varie tecnologie, ma quella definita ToF - Time of Light offre determinati vantaggi sfruttabili per sistemi di visione 3D in più ambiti applicativi (si veda il paragrafo “Le possibili applicazioni”). Questo anche grazie all’impiego di un C-MOS, o Active Pixel Sensor, sensore d’immagine costituito da un circuito integrato e una serie di elementi fotosensibili organizzati a matrice. Ognuno di questi (pixel) è costituito da una capacità che accumula la corrente emessa da un foto-diodo (superficie attiva del pixel): in pratica la conversione da segnale luminoso a elettrico avviene all’interno del chip-sensore. Una videocamera 3D di tipo ToF opera “illuminando” la scena con una sorgente di luce modulata. Il sensore rileva gli impulsi luminosi riflessi, li converte in segnali elettrici e li trasmette al processore ToF, il quale provvede a misurare lo slittamento di fase fra la luce emessa e quella riflessa, parametro dal quale deduce la distanza dell’oggetto. In altri termini il processore rileva il tempo impiegato dall’impulso luminoso per compiere il percorso dalla sorgente all’oggetto e poi al sensore, motivo per cui si chiama tecnica di misura del “tempo di volo”. La sorgente utilizzata è tipicamente un laser a stato solido oppure un Led, operanti nel range del vicino infrarosso (~850nm), quindi invisibile all’occhio umano. Il ricorso a una luce pulsata permette, non solo di ottenere una misura accurata della distanza percorsa dal raggio luminoso, ma anche di rendere trascurabili gli effetti dovuti alla luce ambientale. La fase di rilevamento può essere attuata in due modi: integrando nel tempo gli impulsi rilevati o facendo partire un veloce contatore al primo impulso ricevuto. In quest’ultimo caso, però, bisogna utilizzare un fotorivelatore ultraveloce detto SPAD (Single-Photon Avalanche Diode). Il contatore, per garantire una precisione di 1 millimetro, deve essere in grado di rilevare impulsi della durata di soli 6,6 picosecondi, pressoché impossibile da raggiungere se non operando a basse temperature. Quella più comunemente usata è quindi la tecnica a integrazione, in cui la luce riflessa produce degli impulsi ritardati rispetto a quelli con cui viene illuminata la scena. Per ciascun pixel, il processore ToF ricava due segnali proporzionali alla differenza di fase fra gli impulsi emessi dal diodo Led e quelli ricevuti dal sensore. Per aumentare la precisione della misura viene calcolata la media tra più misurazioni successive ravvicinate nel tempo. La procedura può essere migliorata, riducendo gli errori dovuti alle variazioni di intensità della luce riflessa, attraverso l’uso della tecnica CW - Continuous wave, con la quale si ottengono quattro segnali al posto di due. Inoltre, per ottenere maggiori precisioni su un range di distanze più ampio, si adottano tecniche multifrequenza con interpolazione dei risultati.
La soluzione di Texas Instruments
Texas Instruments ha sviluppato un sistema (chipset) che può essere integrato nei nuovi dispositivi di imaging 3D. Infatti comprende un sensore 3D di tipo ToF, basato sulla tecnologia DepthSense di SoftKinetic (tra i principali fornitore mondiali di soluzioni per la visione tridimensionale e il riconoscimento dei gesti), che supporta una frequenza di modulazione superiore ai 50 MHz e offre un rapporto segnale-rumore (SNR) cinque volte superiore a progetti concorrenti. Inoltre include un AFE (Analog Front Ends), che si “occupa” dell’interfacciamento tra sensore e controller, e un TFC - Time of Flight Controller, che sincronizza le operazioni di sensore, AFE e illuminazione. Il TFC effettua la scansione dei pixel e per ognuno ne calcola la “profondità”, e svolge le necessarie operazioni di de-aliasing (o antialiasing) e de-noising (cancellazione dei rumori), sintonizzazione della frequenza e compensazione termica della misura. Inoltre, provvede a gestire i segnali di ingresso e uscita, nonché alla serializzazione e deserializzazione dei dati. La soluzione di Texas Instruments garantisce quindi un’elevata sensibilità e una notevole capacità di rilevare i movimenti per un tracking completo del corpo, delle mani e delle dita. Inoltre, rispetto ad altre tecnologie, offre maggiori velocità di intervento (minor latenza), elevata sensibilità agli infrarossi (rilevamento dei movimenti più affidabile), frame rate superiori (immagini più accurate), costo minore e più facile integrabilità.
Le possibili applicazioni
La tecnologia ToF può essere utilizzata in diversi settori: dall’automotive a quello industriale, dallo “smart” advertising fino al gaming e all’intrattenimento. Le applicazioni possono essere dedicate al controllo gestuale, ovvero “traducono” i movimenti umani (volti, mani, dita o corpo intero) per comandare console di gioco, televisori intelligenti o dispositivi informatici portatili. Il chipset di Texas Instruments è infatti integrato nelle più recenti videocamere 3D, che consentono a un portatile o a una smart tv di gestire e controllare videogiochi, interagire con i filmati o con altre applicazioni di imaging tramite semplici gesti del corpo o delle mani. Non solo. In ambito industriale, per esempio, nell’interazione fra operatore e robot può essere proficuo un controllo di tipo gestuale così come nel gaming, in particolare per i giochi in prima persona, nella realtà virtuale e nell’home entertainment. Uscendo dal “gesture control”, una fotocamera ToF trova applicazione nel settore automobilistico per aumentare la sicurezza, avvisando il conducente quando rileva persone e oggetti in prossimità della macchina. In robotica e automazione i sensori possono essere utilizzati per rilevare i difetti del prodotto, l’identificazione degli oggetti e il controllo dello spazio di sicurezza nel caso di uomini e robot che lavorano a stretto contatto. Sono adatti anche per applicazioni di sorveglianza e sicurezza, nella stampa 3D par la scansione tridimensionale degli oggetti da replicare e, in generale, negli impieghi in cui la precisione spaziale è importante.
Tecnologie alternative
Esistono altre tecniche in grado di rilevare la “spazialità” di una scena, quindi valutarne la profondità. Queste sono la visione stereoscopica e la luce strutturata, che presentano caratteristiche e prestazioni piuttosto differenti, e si prestano a impieghi specifici. La visione stereoscopica consiste nell'acquisire due o più immagini bidimensionali da altrettante telecamere, allineate lungo un asse, che inquadrano la medesima scena. Lo stesso punto “p” dello spazio viene proiettato nel piano immagine di ciascuna delle telecamere e i punti ottenuti sono definiti omologhi. Misurandone lo scostamento, detto disparità, nelle due immagini e conoscendo la posizione e l’orientamento relativo tra le due telecamere, è possibile calcolare la posizione del punto “p”. Uno dei principali vantaggi è la possibilità di controllare il costo del sensore, scegliendo e allestendo delle telecamere commerciali. Inoltre il sensore è passivo, quindi può sfruttare l'illuminazione dell'ambiente. Gli svantaggi maggiori derivano dalla necessità di sincronizzare l'acquisizione delle immagini tra tutte le telecamere del sistema e quella di calcolare i punti omologhi, che risulta essere un'operazione computazionalmente costosa, quindi non utilizzabile per applicazioni real time. Inoltre i risultati forniti dipendono dalla “tessitura” delle immagini utilizzata nel calcolo degli omologhi: per esempio uno sfondo uniforme è difficilmente individuabile. Pertanto questi sensori, oltre ad avere un range di misura limitato, offrono un'accuratezza solitamente limitata, una risoluzione variabile, una precisione bassa della misura e un tempo di risposta medio. A livello di impieghi sono adatti per la localizzazione, identificazione nonché ispezione e misura. La tecnica a luce strutturata consiste nel proiettare un pattern conosciuto di pixel su una scena: il modo in cui queste figure si deformano incontrando la superficie permette ai sistemi di visione di calcolare informazioni di profondità e di superficie degli oggetti presenti nella scena stessa. In linea di principio è possibile generare svariati tipi di pattern, ma il metodo più comune, veloce e versatile prevede la proiezione contemporanea di numerose strisce di luce orizzontali o verticali. I tempi di risposta sono lenti, ma in compenso la precisione della misura e la risoluzione sono elevate. Come per tutti i metodi ottici, anche per la luce strutturata le superfici fortemente riflettenti o trasparenti rendono problematico il processo di acquisizione. La riflessione potrebbe creare luce di ritorno direttamente nelle ottiche delle telecamere portandole in saturazione, oppure una riflessione sull’oggetto stesso comprometterebbe la regolarità del pattern. In entrambi i casi l’acquisizione risulta deteriorata. Superfici trasparenti o semitrasparenti causano ancora maggiori difficoltà, in quanto le forme proiettate non producono sulla superficie dell’oggetto profili riconoscibili. Le applicazioni, oltre a quelle previste per la visione stereoscopica, prevedono anche quelle biometriche.
Sensori utilizzati in robotica
Per gli umani è semplice riconoscere e capire la forma degli oggetti da immagini fotografiche. Per i robot questo è un compito assai più arduo e la sola informazione 2D spesso non basta. Per molte applicazioni si rendono necessarie tecniche che siano in grado di ricostruire la scena in 3D, ovvero creare modelli di ciò che si osserva che contengono sia l'informazione di colore che quella relativa alla profondità. In robotica, per la percezione dell'ambiente, si utilizzano dei sensori ottici che sfruttano la luce visibile o l'infrarosso per riuscire a estrarre una point cloud, cioè un insieme di punti distribuiti su un piano o nello spazio, della scena osservata. In base al principio fisico-geometrico utilizzato dal dispositivo, le tecnologie più diffuse sono il ToF, la visione stereoscopica e la triangolazione laser. Delle prime due si è già parlato nel paragrafo precedente per cui ci soffermeremo sulla triangolazione laser e, in particolare, sugli scanner basati su questa tecnica. Sono caratterizzati dal fatto che la scena è illuminata con una sola linea luminosa generata da una sorgente laser o Led. Poiché il dispositivo riesce a misurare soltanto l'altezza degli oggetti nella sezione colpita dalla luce, per acquisire un point cloud 3D è preferibile disporre di un sistema di attuazione che consenta di spostare il sensore e la sorgente luminosa, o gli oggetti presenti nella scena, ortogonalmente rispetto alla sezione illuminata. Gli scanner a triangolazione laser hanno delle alte densità di punti per profilo, ma sono abbastanza sensibili alle eventuali riflessioni speculari presenti nella scena e “soffrono” del fenomeno dell’occlusione, che comporta la produzione di dati inconsistenti. Questo si verifica quando la linea luminosa non è visibile al sensore a causa di un oggetto che si pone tra quello osservato (per esempio, nel caso di un sistema di assemblaggio di pezzi diversi).