Creare un video da una foto? Prospettiva che fa un po’ paura

L’azienda la cui tecnologia ha alimentato la sensazionale app MyHeritage, che ha trasformato le classiche foto di famiglia in realistici ritratti in movimento, è tornata alla ribalta con una nuova implementazione della sua tecnologia: trasformare le fotografie fisse in video ultra-realistici, in grado di esprimere tutto ciò che si vuole. Gli “Speaking Portraits” di D-ID, questo il nome dell’azienda, possono sembrare i famigerati “deepfake” creati dall’intelligenza artificiale che hanno fatto notizia negli ultimi due anni, ma la tecnologia sottostante è in realtà piuttosto diversa e non è richiesta alcuna formazione per implementare ed utilizzare le funzionalità di base.

D-ID, che ha debuttato nel 2018 con una particolare tecnologia di riconoscimento facciale “rimescolante”, ha debuttato dal vivo con il suo nuovo prodotto, Speaking Portraits, l’anno scorso. La società ha mostrato una serie di casi d’uso, fra cui l’utilizzo della sua nuova tecnologia per creare un conduttore televisivo multilingue in grado di esprimere diverse emozioni, la creazione di chatbot virtuali per le interazioni con l’assistenza clienti, lo sviluppo di corsi di formazione per uso di sviluppo professionale e la creazione di box di annunci video vari, gestiti con conversazioni interattive. Sia questa nuova tecnologia, che la partnership di D-ID con MyHeritage, che ha visto l’app di quest’ultima azienda conquistare brevemente la vetta delle classifiche dell’App Store di Apple.

La partnership siglata da D-ID con MyHeritage ha debuttato a febbraio, a seguito di un accordo con GoodTrust e da una virtuosa collaborazione con Warner Bros per la realizzazione del film di Hugh Jackman “Reminiscence”. Il perno di D-ID consiste, da un punto di vista tecnico, nel dare vita alle foto e il CEO e co-fondatore di D-ID, Gil Perry, ha dichiarato che l’azienda ha scelto questo focus proprio perché era evidente l’esistenza di un mercato indirizzabile molto ampio verso questo tipo di applicazione.

Grandi clienti come Warner Bros., così come un’app che domina l’App Store di un marchio relativamente sconosciuto, sembrerebbero supportare tale valutazione. Speaking Portraits, tuttavia, è rivolto a clienti, sia grandi che piccoli, e consente a chiunque di generare un video Full HD da un’immagine sorgente e aggiungere discorsi registrati o generati da del testo digitato. D-ID sta lanciando il prodotto con supporto per la lingua inglese, spagnola e giapponese, ma prevede di aggiungere anche altre lingue in futuro, poiché l’azienda sta ricevendo numerose richieste in merito.

D-ID offre due categorie di base di Ritratto parlante, fra cui un “Ritratto singolo”, che può essere realizzato utilizzando solo una singola immagine fissa e che è caratterizzato da una testa animata e le restanti parti del corpo statiche, compreso lo sfondo dell’immagine.
Per una realtà un po’ più inquietante, c’è un’opzione “Personaggio addestrato”, che richiede l’invio di un video di addestramento di 10 minuti del personaggio richiesto, seguendo le linee guida fornite dall’azienda. Tutto ciò al fine di poter lavorare su uno sfondo personalizzato e intercambiabile e utilizzando opzioni di animazione preimpostate per il corpo e le mani del personaggio.

Famosa è la demo che Perry ha mostrato dal vivo ai giornalisti e che è stata creata da una sua foto da bambino. La foto è stata mappata sulle espressioni facciali eseguite da una sorta di “burattinaio umano”, che ha anche doppiato la sceneggiatura di ciò che la versione di “Gil in Ritratto” parlante ha detto durante l’interazione tra il suo io attuale e quello più giovane. È stato incredibile notare come le espressioni dell’oratore sono state rispecchiate dalla foto animata.

Ovviamente, la capacità di creare video fotorealistici da una sola foto in grado di sembrare reale in modo convincente è un po’ una prospettiva da far rizzare i capelli. Abbiamo già assistito a dibattiti di vasta portata sull’etica dei deepfake, nonché ai vari sforzi in tutto il settore di riferimento per cercare di rilevare le impronte digitali e identificare quando l’intelligenza ha generato risultati molto realistici, ma comunque artificiali. Perry ha dichiarato alla stampa che D-ID è “desideroso di assicurarsi che sia usato per il bene, non per il male” e che per raggiungere questo obiettivo, alla fine di ottobre si impegneranno, insieme ai partner, a definire e comunicare i loro impegni di “trasparenza e consenso” per l’utilizzo di nuove tecnologie come Speaking Portraits. Lo scopo di tale impegno è garantire che “gli utenti (ma anche gli investitori) non siano confusi su ciò che stanno vedendo e che le persone coinvolte diano il loro consenso”.

Mentre D-ID vuole fornire garanzie nei suoi termini di utilizzo e posizione pubblica contro l’uso improprio di questo tipo di tecnologia, Perry afferma che “non può farlo da solo”, motivo per cui sarà necessario chiedere sia a partner che a competitor facenti parte dell’ecosistema di unire le forze per sforzi per evitare abusi.