Evoluzione della Speech Technology

Le applicazioni vocali, seppur appaganti in ambito consumer, non hanno ancora raggiunto il livello di generalizzazione e affidabilità richiesto a livello enterprise, ma l’apporto dell’intelligenza artificiale sta aprendo nuove prospettive.

La Speech Technology, o tecnologia vocale, come definizione generale, è un tipo di “computing technology” che abilita un dispositivo elettronico a riconoscere, analizzare e comprendere un messaggio verbale o un audio, tramite l’acquisizione di segnali sonori digitalizzati, per esempio tramite confronto con una libreria di pattern memorizzati. Questa tecnologia si basa su meccanismi di signal processing e anche, con i recenti sviluppi, di Machine e Deep Learning: dopo aver estratto le informazioni rilevanti da un input vocale, quali le caratteristiche di chi parla, il rumore di fondo e la frequenza, specifici algoritmi analizzano il messaggio per dar seguito all’output desiderato, che può una risposta vocale automatica o un’azione. Stante che la voce è la forma primaria di comunicazione, l’obiettivo degli avanzamenti tecnologici nel campo della Speech Technology è quello di dare la possibilità di sfruttare al massimo dei dati vocali non strutturati in contesti diversi e a differenti livelli di sofisticazione. Da considerare che parlando di Speech Technology si fa riferimento a qualsiasi tecnologia che abbia a che fare con la voce, quindi a una serie di specializzazioni e campi di indagine, tra cui speech recognition, speech verification, real time speech to text conversion, interactive voice response (IVR), speech synthesis e speech analytics: un vasto campo di studio e ricerca che si sta rapidamente evolvendo, portando a nuove applicazioni grazie a un’integrazione diversificata, e spesso innovativa, di soluzioni tecnologiche diverse.

Le tecnologie speech

L’uso di comandi vocali si sta molto diffondendo, soprattutto nel consumer, e  un primo esempio emblematico è quello di Alexa, l’assistente vocale integrato nei diffusi dispositivi Amazon Echo: quando si chiede un’informazione ad Alexa, ottenendo una risposta più o meno completa o anche l’attivazione di un’azione, si sta facendo uso di Speech Technology. La voce può essere veicolo di informazioni in input a un sistema, ma anche di output dal sistema stesso, per cui si usa distinguere tra Voice/Speech Recognition, o riconoscimento vocale, noto anche come ASR, Automated Speech Recognition, e Speech Synthesis, o sintesi vocale, definita anche come TTS, Text-To-Speech. La tecnologia ASR trasforma il parlato umano in segnali elettrici, con successiva conversione in configurazioni di bit, o pattern con assegnato significato; questa conversione può avvenire con sofisticazioni più o meno elevate, dal riconoscimento solo di specifiche parole o singole frasi, come nelle applicazioni IVR (Interactive Voice Response), fino al riconoscimento di un parlato naturale per applicazioni più sofisticate. La tecnologia TTS consiste invece nella trasformazione di parole scritte in simboli fonetici poi aggregati per generare comandi audio sotto forma di parlato sintetico. Come esempio, nell’ambito logistico questi comandi sono originati nei sistemi WMS (Warehouse Management Systems) come informazioni operative per gli addetti a un magazzino Più in generale, nelle imprese la tecnologia TSS può essere usata per le cosiddette voice-enabled email e per altre applicazioni di messaggistica. Da considerare anche lo Speech-to-text, in cui un input audio è convertito in testo visuale, come nei dictation tool. Altro tipo di Speech Technology è il Digitized Speech, noto anche come Record & Playback: si registrano frasi e parole, poi memorizzate come file audio e “played back” quando necessario verso gli operatori; tale metodo è meno efficace del TTS per le implicite limitazioni nel numero di frasi disponibili. Ma ovviamente c’è molto di più e chiaramente non poteva mancare l’intelligenza artificiale. Se l’AI nella sua forma più ampia ha come obiettivo quello di permettere a una macchina di simulare i processi cognitivi umani, nel caso della Speech Technology aggiunge un livello di automazione, per esempio permettendo, nel caso di un call center, di riconoscere informazioni pertinenti da una chiamata, con successiva scelta del servizio cui dirottarla, fino alla generazione, sempre in automatico e con meccanismi di Speech Recognition e di Natural Language Generation, di  consigli e suggerimenti analizzando quando detto dal chiamante. A un livello più basso si colloca il Machine Learning, che se nelle applicazioni industriali permette a macchine e sistemi di essere più accurati e predittivi, nel contesto speech ha come obiettivo quello di garantire maggiore accuratezza nella comprensione del parlato e nell’elaborazione dei dati più significativi, con un potenziomento continuo dell’analisi grazie all’apprendimento. Più complessa l’ambientazione NLP, Natural LanguageProcessing, termine con cui si indica la capacità di un computer di comprendere un linguaggio nella sua complessità. Una lingua parlata (natural) ha innumerevoli sfumature, ed è estremamente difficile poterne tener conto a livello di programmazione. La tecnologia NLP prevede l’analisi di semantica e sintassi, e può riconoscere una parola dal contesto in cui è usata, può suddividere le parole in gruppi e utilizzare un database per definire la semantica che c’è dietro a una sequenza di parole, e in questo è fondamentale un supporto delle metodologie Deep Learning. Parte delle tecnologie speech è anche lo Speech Analitycs che, operando di concerto con la Speech Recognition, ha come obiettivo quello di individuare (o “localizzare”, come si dice in gergo) informazioni utili da un input audio. Tramite Speech Analitycs è possibile riconoscere parole e pattern audio, fino ad arrivare a marker emozionali presenti nella voce di una persona, funzionalità utile per potenziare le interazioni con i clienti.

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here