di Vittoria Fiore

Un paio di settimane fa i ricercatori di Microsoft hanno presentato un nuovo modello di intelligenza artificiale chiamato VALL-E. Questa nuova invenzione é un modello di “machine learning” in grado di copiare perfettamente la nostra voce, il tono e perfino il nostro stato emotivo.

L’IA (Intelligenza artificiale ndr) è stata addestrata per oltre 60.000 ore ascoltando migliaia di persone, e ora con soli tre secondi di audio della voce può imitarla perfettamente senza snaturarla. Oltre a conservare il timbro vocale e il tono emotivo di una persona, é anche in grado di imitare l’ambiente acustico dell’audio. Per esempio: se la clip proviene da una telefonata, la resa dell’audio simulerà le caratteristiche acustiche proprie di una conversazione telefonica, così come gli echi di discorsi tenuti ad esempio in sale conferenze.

VALL-E può essere considerato un incredibile passo avanti per la tecnologia: potrebbe essere usata per applicazioni text-to-speech di qualità, modificare quindi il parlato in fase di editing senza bisogni di registrare parti in aggiunta, vero, ma tutto questo a quale prezzo?

Il problema etico e la sicurezza sono i primi nodi cruciali. Il programma, infatti, potrebbe essere la causa di gravi conseguenze; aprirebbe la strada a phishing più realistici, sostituzioni di persona, o faciliterebbe la diffusione di fake news, difficili da decifrare se non è chiara l’origine della voce audio. Quest’ultimo è un problema sempre più grave, le tecnologie deepfake sono sempre di più e VALL-E non farà altro che peggiorare la situazione. Immaginate di ricevere una telefonata con voce VALL-E: chi potrebbe mai accorgersi che all’altro capo del telefono non c’è chi credete che ci sia? Oppure immaginate di vedere il video di un personaggio pubblico, ad esempio un politico, perfettamente realizzato, con toni di voce naturali, movimenti realistici e sfondo reale. Qualsiasi cosa dica vi sarà credibile, chi potrebbe mai immaginare che sia solo frutto di un’intelligenza artificiale? Tutto il caos che già ruota intorno alle tecnologie deepfake verrebbe alimentato con conseguenze anche per la tenuta della sanità mentale delle persone. Inoltre l’IA é già in grado di realizzare scene cinematiche con attori veri ma generati dalla tecnologia, e la loro voce potrà ormai essere imitata perfettamente togliendo posti di lavoro anche nel settore dello spettacolo, ad esempio a molti doppiatori Per non parlare dei call center, delle segreterie di studi professionali ecc ecc.

Insomma quest’invenzione darà sicuramente più problemi che soluzioni, ma sembra che la società questo non lo voglia capire e voglia invece continuare a gettarsi in pasto alla tecnologia facendo arricchire i soliti noti e mettendo la nostra sicurezza all’ultimo dei posti.

1 commento

Cristiano il 19/01/2023 alle 19:15

Siamo una associazione e sarebbe interessante collaborare con voi a livello informativo , fare voi da divulgatore delle nostre conferenze e noi del vostro giornale online , siamo collegati a più di 50 gruppi e associazioni in tutta Italia
Rispondi

Fate silenzio, arriva Vall-e: l’AI che riproduce la voce di chiunque

1 commento

Invia commento Annulla risposta

Cerca qui

Seguici sui social

Categorie

Articoli recenti