Microsoft, attraverso l’intelligenza artificiale e modello di machine learning Vall-E, é riuscita a replicare fedelmente la voce di una persona utilizzando un campione audio di appena tre secondi. Qual è lo scopo di sviluppare strumenti di simulazione di questo tipo? E quali sono i rischi che comporta una funzione simile? Proviamo a comprenderlo insieme.
Tono emotivo, cadenza, dizione, ambiente acustico: queste alcune delle peculiarità vocali che il modello di machine learning Vall-E realizzato da Microsoft é in grado di riprodurre fedelmente, analizzando un campione audio di qualsiasi voce per soli tre secondi. Microsoft lo ha definito “modello linguistico con codec neurale” e si basa sulla tecnologia EnCodec di Meta.
Si tratta di un modello di machine learning di tipo text-to-speech: a partire da un testo, infatti, e prendendo un campione audio di riferimento di almeno tre secondi, riproduce ciò che é stato scritto con la replica fedele della voce del campione utilizzato, simulandone il tono, le emozioni, la cadenza, la dizione ed anche l’ambiente acustico entro cui é stato registrato.
Per addestrare Vall-E, Microsoft ha utilizzato la libreria audio “LibriLight” di Meta, che contiene voci di circa 7.000 oratori, tratti per la quasi totalità dagli audiolibri di pubblico dominio di LibriVox, per un totale di circa 60.000 ore di parlato, per il momento soltanto in lingua inglese.
Come può apparire chiaro anche senza una approfondita indagine del nuovo modello di sintesi vocale di Microsoft, i rischi relativi all’applicazione ed all’utilizzo del simulatore Vall-E sono davvero significativi. Se il suo codice venisse ripreso e diffuso in rete, magari come app di intrattenimento e “di grido” del momento a fini speculativi, chiunque potrebbe far dire a qualsiasi voce di cui abbia una traccia audio di almeno 3 secondi ciò che vuole.
Ed utilizzarla per i fini più disparati, compresi (o, forse, soprattutto) quelli illeciti. Ed il passo verso una replica dal text-to-speech allo speech-to-speech a bassa latenza, inoltre, non sarebbe poi così lungo ma, al contrario, implementabile con un certa facilità.
Attualmente il codice di Microsoft non é stato fornito pubblicamente ed il colosso di Redmond é intenzionato a sviluppare un rilevatore delle creazioni di Vall-E, in modo che in futuro, se utilizzato su larga scala, i risultati ottenuti vengano indicati come una sorta di “Made by Vall-E”. Ma ciò basterà ad arginare i rischi?
Nuova promozione incredibile per tutti gli appassionati di videogiochi che amano i simulatori sportivi: oggi…
In tantissimi hanno usato questa scusa per non rispondere a un messaggio di Whatsapp ma…
Natale è il momento per stare tutti insieme. Sì, ma anche no. E allora accendi…
Aggiornamenti importanti per tutti i videogiocatori del mondo con Naughty Dog che ha deciso di…
Continuano gli aggiornamenti di CDPR per permettere a tutti di capire che tipo di videogioco…
C'è una notizia molto interessante per tutti gli appassionati di videogiochi che possono finalmente mettere…