Con il nome di Azure AI Speech text to speech avatar, Microsoft ha presentato uno strumento che consente agli utenti di generare video di un avatar creato sulla base delle immagini fornite dall’utente e in grado di pronunciare un discorso completamente inedito, anch’esso caricato dall’utente. Lo strumento di Microsoft si basa su due componenti separate: un modello per gestire l’avatar e uno strumento di sintesi vocale per “leggere” il testo inoltrato dall’utente.
“Con l’avatar di sintesi vocale, gli utenti possono creare video in modo più efficiente… per creare video di formazione, presentazioni di prodotti, testimonianze di clienti [e così via] semplicemente con l’immissione di testo”, scrive Microsoft in un post sul suo blog. “Si può utilizzare l’avatar per creare agenti conversazionali, assistenti virtuali, chatbot e altro ancora.”
Nel video di presentazione della tecnologia, rilasciato insieme all’annuncio, la persona che parla è stata ricreata con Azure text to speech, sia per quanto riguarda la sua immagine che per il parlato.
Gli avatar possono parlare lingue diverse e sfruttare modelli di intelligenza artificiale come GPT-3.5 di OpenAI per rispondere alle domande degli utenti. La maggior parte degli abbonati di Azure sarà in grado di accedere solo ad avatar precostruiti, non personalizzati, al momento del lancio; mentre gli avatar personalizzati sono attualmente una funzionalità di “accesso limitato” disponibile solo tramite registrazione e “solo per determinati casi d’uso”, afferma Microsoft.
Inoltre, all’interno del servizio vocale neurale personalizzato di Microsoft troviamo anche lo strumento Personal voice, il quale è in grado di replicare la voce di un utente in pochi secondi dopo che si fornisce un campione vocale di un minuto come messaggio audio. Microsoft lo propone come un modo per creare assistenti vocali personalizzati, doppiare contenuti in diverse lingue e generare racconti su misura per storie, audiolibri e podcast.
Per scongiurare potenziali problemi legali, Microsoft richiede che gli utenti diano un “consenso esplicito” sotto forma di una dichiarazione registrata prima che possano utilizzare la voce personale per sintetizzare la propria voce.
Naturalmente, queste funzionalità sollevano una serie di questioni etiche. Qui Microsoft sta semplicemente fornendo la tecnologia, ma i deepfake come questo possono essere utilizzati in maniera fraudolenta in tantissimi scenari: allo scopo di propaganda politica o per alimentare false credenze. Uno dei punti salienti del recente sciopero promosso dal sindacato SAG-AFTRA (e da poco finito), che ha interessato gli attori di Hollywood, ha riguardato proprio l’uso dell’intelligenza artificiale per ricreare i tratti somatici.