Microsoft, attraverso l’intelligenza artificiale e modello di machine learning Vall-E, é riuscita a replicare fedelmente la voce di una persona utilizzando un campione audio di appena tre secondi. Qual è lo scopo di sviluppare strumenti di simulazione di questo tipo? E quali sono i rischi che comporta una funzione simile? Proviamo a comprenderlo insieme.
Tono emotivo, cadenza, dizione, ambiente acustico: queste alcune delle peculiarità vocali che il modello di machine learning Vall-E realizzato da Microsoft é in grado di riprodurre fedelmente, analizzando un campione audio di qualsiasi voce per soli tre secondi. Microsoft lo ha definito “modello linguistico con codec neurale” e si basa sulla tecnologia EnCodec di Meta.
Si tratta di un modello di machine learning di tipo text-to-speech: a partire da un testo, infatti, e prendendo un campione audio di riferimento di almeno tre secondi, riproduce ciò che é stato scritto con la replica fedele della voce del campione utilizzato, simulandone il tono, le emozioni, la cadenza, la dizione ed anche l’ambiente acustico entro cui é stato registrato.
Per addestrare Vall-E, Microsoft ha utilizzato la libreria audio “LibriLight” di Meta, che contiene voci di circa 7.000 oratori, tratti per la quasi totalità dagli audiolibri di pubblico dominio di LibriVox, per un totale di circa 60.000 ore di parlato, per il momento soltanto in lingua inglese.
Quali rischi comporta un modello di simulazione vocale come Vall-E
Come può apparire chiaro anche senza una approfondita indagine del nuovo modello di sintesi vocale di Microsoft, i rischi relativi all’applicazione ed all’utilizzo del simulatore Vall-E sono davvero significativi. Se il suo codice venisse ripreso e diffuso in rete, magari come app di intrattenimento e “di grido” del momento a fini speculativi, chiunque potrebbe far dire a qualsiasi voce di cui abbia una traccia audio di almeno 3 secondi ciò che vuole.
Ed utilizzarla per i fini più disparati, compresi (o, forse, soprattutto) quelli illeciti. Ed il passo verso una replica dal text-to-speech allo speech-to-speech a bassa latenza, inoltre, non sarebbe poi così lungo ma, al contrario, implementabile con un certa facilità.
Attualmente il codice di Microsoft non é stato fornito pubblicamente ed il colosso di Redmond é intenzionato a sviluppare un rilevatore delle creazioni di Vall-E, in modo che in futuro, se utilizzato su larga scala, i risultati ottenuti vengano indicati come una sorta di “Made by Vall-E”. Ma ciò basterà ad arginare i rischi?