Tecnologie per il voice assistant: come cambiano le nostre interazioni col nuovo mondo digitale

Tecnologie per il voice assistant: come cambiano le nostre interazioni col nuovo mondo digitale image
Capgemini Engineering logo
Pubblicato il 22 Aprile

Capgemini Engineering

Siri, Google, Alexa, Cortana: tutti ormai conoscono almeno i nomi dei più famosi assistenti vocali. Si stima che un terzo dei consumatori occidentali ne faccia uso almeno una volta alla settimana. Ne siamo circondati in ambiti sempre più eterogenei. Hanno l’obiettivo di facilitare e incrementare l’interazione uomo-macchina nel quotidiano. 

I casi d’uso e gli scenari applicativi sono tanto vasti quanto lo sono i settori dell’industria: si va da task come l’invio di un messaggio mentre si è alla guida in auto, al fornire comandi a macchine più o meno complesse che si trovano a casa o in ufficio (la macchinetta del caffè, il dispenser di acqua). Persino la pandemia COVID-19 ha fornito nuovi casi d’uso: si pensi, ad esempio, ad ambienti ad uso promiscuo in cui si è abituati ad interagire attraverso pulsantiere. Adesso, gli assistenti vocali forniscono un’alternativa “touch-free”. 


Voice assistant e business 

I voice assistant non esistono soltanto nella forma di “assistenti personali” ma riescono a supportare anche logiche enterprise. Si rivelano spesso uno strumento utile atto ad estrinsecare il “conversational commerce”, ovvero l’interazione conversazionale attraverso la quale i clienti esprimono – in forma più o meno esplicita – desideri e necessità, rispetto ai quali indirizzarli verso i servizi più appropriati. Inoltre possono aumentare la produttività, automatizzando task ripetitivi, in ufficio quanto nella fabbrica. 

Attraverso un’interfaccia utente conversazionale, gli assistenti vocali tengono ancorata ancora più intimamente l’umanità alla tecnologia: abbassano le barriere “architettoniche” per approcciarsi a un computer, alla domotica, ai cellulari; riescono, nei casi più avanzati, ad intercettare necessità e offrire un supporto alle decisioni.


Le aspettative del mercato e le sfide per gli sviluppatori dei voice assistant

Il mercato offre dunque molteplici opportunità e occasioni per apprezzare i voice assistant; i quali, dal canto loro, sono in continua competizione che si sviluppa attraverso l’intelligenza percepita di tali strumenti, le capacità elaborative e, non meno importante, la simpatia delle risposte. È infatti quest’ultima caratteristica a rendere davvero duro il compito degli sviluppatori: dotare tali macchine di empatia e rispondere a tono alle svariate domande degli utenti pregiudica la qualità percepita del prodotto e, di conseguenza, le sorti del dispositivo dotato di un carattere più o meno intrigante. 

La sfida si muove nell’insidioso mondo delle Intelligenze Artificiali, del Machine Learning e del Deep Learning che spesso viene indicato, proprio per lo scenario applicativo, Cognitive Computing: nello specifico contesto dei voice assistant, la tecnologia affronta la sfida di riconoscere la voce umana nella sua eterogeneità con tecniche di Speech Recognition (SR) sempre più precise, di contestualizzare i bisogni espressi vocalmente dall’utente con formalismi derivati dal Natural Language Processing (NLP) e di sviluppare un’interazione con le più avanzate tecniche di Human-Machine Interaction (HMI).


Voice assistant e questioni di privacy

Le tecnologie per i Voice Assistant richiedono una grande capacità computazionale che non è sempre presente sui device da realizzare orientando a scelte cloud-oriented per l’implementazione degli algoritmi richiesti. Chi vorrebbe che la propria voce venisse condivisa e processata da server di cui non conosciamo le caratteristiche e le intenzioni? È scontato che i prodotti “Voice Enabled” debbano garantire un alto livello di privacy. Per questo si parla di Edge Computing. La potenza di calcolo necessaria viene ottimizzata e fornita dai device stessi che si trovano “on-the-edge” rispetto all’intera infrastruttura, proprio sui microprocessori che animano i nostri apparecchi. Grazie ad un accurato design dei modelli predittivi e delle logiche implementative, si riesce a garantire privacy e capacità elaborativa sufficiente a fornire una chiara trascrizione del parlato ed una efficiente interpretazione del contenuto cognitivo per effettuare esattamente ciò che viene richiesto al device.


La sfida del nostro team 

Il nostro Expertise Center Silicon, Electronics and Embedded Systems supporta i clienti nei progetti di Ricerca e Innovazione legati alle tematiche di Speech Recognition e Natural Language Processing: lavoriamo ad approcci e tecnologie allo scopo di portare intelligenza on the Edge (su dispositivi embedded o mobile), cioè vicino alla sorgente di informazione, per applicazioni che devono funzionare in real-time. 


Ti piacerebbe entrare a far parte di Capgemini Engineering? Consulta le nostre offerte di lavoro e invia la tua candidatura cliccando qui