A breve, faremo videochiamate senza video

NVIDIA, la scorsa settimana, ha lanciato la piattaforma “Nvidia Maxine“, che probabilmente rivoluzionerà, da qui a pochi anni, il modo in cui facciamo le videochiamate, senza accorgercene.
Quando facciamo una videochiamata (Skype, Zoom, Microsoft Team, WhatsApp o su qualsiasi altra piattaforma) il principio che sta dietro a questa tecnologia è abbastanza semplice: si accede alla webcam/fotocamera e microfono del dispositivo e si invia il segnale all’interlocutore, comprimendo il flusso audio/video al fine di rendere possibile per la maggior parte degli utenti una videochiamata fluida. Generalmente, con piccoli accorgimenti tecnici, i software sono in grado di calibrare automaticamente la qualità audio/video al fine di trovare il giusto compromesso tra fluidità/qualità dell’immagine.

Molto spesso, per centinaia di motivi, avrete sicuramente notato che qualità di una videochiamata non è delle migliori ed anzi, la maggior parte degli utenti arriva a malapena ad effettuare lo streaming ad una risoluzione di 720p. Per capire fin da subito il significato di questo numerino, potete guardare l’immagine che qui sotto vi riporto. Come potrete ben vedere, i 720p sono assai lontani dal 4K che ormai è lo standard per eccellenza.

Differenze di qualità video

Effettuare lo streaming di un video 4K richiede una connessione da Internet non indifferente, soprattutto se la trasmissione deve essere in tempo reale e bi-direzionale (sia in upload, per inviare il segnale video/audio, sia in download, per ricevere l’analogo flusso dati da parte del nostro interlocutore). Considerate che, per un video a 1080p all’interno di un call di gruppo su Zoom, è necessario disporre di una connessione con le seguenti caratteristiche tecniche:

  • Per ricevere un video 1080p è richiesta una connessione in download di almeno 2.5 Mbps
  • Per inviare un video 1080p è richiesta una connessione in upload di almeno 3.0 Mbps

Anche se può sembrare abbastanza scontato avere accesso ad una connessione di questo tipo, l’esperienza comune ci insegna che non è proprio così (chi non ha mai avuto problemi di collegamento durante una videochiamata?).
Arriviamo quindi al punto centrale del nostro discorso ed tecnologia sviluppata da NVIDIA e presentata la scorsa settimana, Maxine.

Esempio di Maxin

Lo screenshot qui sopra è una dimostrazione pratica di Maxine: la parte sinistra dell’immagine è il video catturato dalla webcam dell’utente, ad una risoluzione di 360p, mentre, sul lato destro, ciò che vedete non è assolutamente l’immagine catturata dalla webcam, ma un video, questa volta in 720p, generato in tempo reale dal software di intelligenza artificiale sviluppato da NVIDIA, che prende appunto il nome di Maxine. L’immagine sulla destra, in poche parole, non esiste, è frutto di un’elaborazione di Maxine.

Che cosa accade? Maxine, in poche parole, elabora sul computer dell’utente i dati catturati dalla webcam ed invece di inviare il flusso video, trasmette una serie di informazioni al dispositivo dell’interlocutore, dove anche su quest’ultimo si trova Maxine, che “ricostruisce” l’immagine originale. Se vogliamo semplificare il concetto, è ciò che accade più o meno quando vengono usate le Memojis di Apple, ma invece di sostituire il vostro volto con un animale, lo si fa con la propria faccia.

Memojis Apple

I vantaggi

I vantaggi riguardano prima di tutto la velocità di trasferimento dei dati e, conseguentemente, la qualità finale dell’immagine che, a parità di banda utilizzata, permette di generare un video di dimensioni maggiori e con un ritardo minore.

Sul sito ufficiale della piattaforma Maxine troviamo il confronto che qui sotto vi ripropongo: se un frame video ha dimensione di 97.27KB, con la compressione effettuata grazie all’intelligenza artificiale, ci ritroviamo con un valore di appena 0.11KB per ogni singolo frame. Considerato che per ogni secondo di videoconferenza vi sono 25/30 frame, abbiamo rispettivamente i valori visti sopra: 2.9Mbps di banda necessari per la trasmissione di un video “vero” (Zoom infatti consiglia almeno 3.0Mbps) e solo 0,0033Mbps per la trasmissione effettuata con Maxine. La compressione video AI utilizza un decimo della larghezza di banda dello standard di compressione video H.264.

Compressione video nvidia

Un pericolo per il furto d’identità?

Tutto questo potrebbero però portare anche a problemi non immediatamente evidenti: un sistema di questo tipo è in grado di realizzare dei DeepFake in tempo, eseguendo sostanzialmente una sostituzione del volto. Immaginatevi di dover sostenere un importante esame: potrebbe facilmente prendere il vostro posto, in sede di esame, un professionista che già conosce bene la materia, restituendo però come “output” la vostra faccia, senza che nessuno si accorga dell’inganno. O ancora, pensiamo all’apertura di un conto corrente online, dove spesso è richiesto un breve colloquio video al fine di confermare la procedura di apertura del conto: sarebbe semplicissimo, per un malvivente, aprire conti correnti a vostro nome, semplicemente generando un video, in tempo reale, del vostro volto!

Vi lascio infine con il video ufficiale di Nvidia Maxine, in cui è ben chiaro il funzionamento di questa piattaforma.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Articoli simili