Gli esperti hanno trovato un modo per scoprire cosa stai digitando durante le videochiamate

Un nuovo framework di attacco mira a dedurre le sequenze di tasti digitati da un utente all’estremità opposta di una videoconferenza, semplicemente sfruttando il feed video per correlare i movimenti del corpo osservabili al testo digitato.

La ricerca è stata intrapresa da Mohd Sabra, e Murtuza Jadliwala dell’Università del Texas a San Antonio e Anindya Maiti dell’Università dell’Oklahoma, che affermano che l’attacco può essere esteso oltre i feed video in diretta a quelli trasmessi in streaming su YouTube e Twitch fintanto che un campo visivo della webcam cattura i movimenti visibili della parte superiore del corpo dell’utente target.

Intermezzo promozionale ... continua la lettura dopo il box:

CONTROLLA LA TUA REPUTAZIONE ONLINE:

controllo e monitoraggio della reputazione per privati ed aziende

Usufruisci di uno sconto per fare un CONTROLLO DELLA REPUTAZIONE PERSONALE o AZIENDALE [ click qui ]

“Con la recente ubiquità dell’hardware di acquisizione video incorporato in molti dispositivi elettronici di consumo, come smartphone, tablet e laptop, la minaccia di fuga di informazioni attraverso i canali visivi si è amplificata”, hanno detto i ricercatori . “L’obiettivo dell’avversario è utilizzare i movimenti osservabili della parte superiore del corpo in tutti i frame registrati per dedurre il testo privato digitato dal bersaglio”.

Per ottenere ciò, il video registrato viene inserito in un framework di inferenza di battitura basato su video, che attraversa tre fasi:

Pre-elaborazione, in cui viene rimosso lo sfondo, il video viene convertito in scala di grigi, seguito dalla segmentazione delle regioni del braccio sinistro e destro rispetto al viso dell’individuo rilevato tramite un modello denominato FaceBox
Rilevamento dei tasti, che recupera i frame segmentati del braccio per calcolare la misura dell’indice di similarità strutturale ( SSIM ) con l’obiettivo di quantificare i movimenti del corpo tra i frame consecutivi in ciascuno dei segmenti video del lato sinistro e destro e identificare i potenziali frame in cui si sono verificati i tasti premuti
Previsione delle parole, in cui i segmenti del fotogramma della sequenza di tasti vengono utilizzati per rilevare le caratteristiche del movimento prima e dopo ogni sequenza di tasti rilevata, utilizzandoli per dedurre parole specifiche utilizzando un algoritmo di previsione basato sul dizionario
In altre parole, dal pool di sequenze di tasti rilevate, le parole vengono dedotte utilizzando il numero di sequenze di tasti rilevate per una parola, nonché l’ampiezza e la direzione dello spostamento del braccio che si verifica tra sequenze di tasti consecutive della parola.

Questo spostamento viene misurato utilizzando una tecnica di visione artificiale chiamata flusso ottico sparso che viene utilizzata per monitorare i movimenti delle spalle e delle braccia attraverso i fotogrammi cronologici dei tasti. Inoltre, viene tracciato un modello per le “indicazioni tra i tasti sulla tastiera QWERTY standard” per indicare le “direzioni ideali che la mano di un battitore dovrebbe seguire” utilizzando un mix di mano destra e sinistra.

L’algoritmo di predizione delle parole, quindi, cerca le parole più probabili che corrispondono all’ordine e al numero di battiture della mano destra e sinistra e alla direzione degli spostamenti del braccio con le direzioni di battitura inter-tasto del modello.

I ricercatori hanno affermato di aver testato il framework con 20 partecipanti (9 femmine e 11 maschi) in uno scenario controllato, impiegando un mix di metodi di caccia e beccaggio e di battitura, oltre a testare l’algoritmo di inferenza su background diversi, modelli di webcam, abbigliamento. (in particolare il design della custodia), tastiere e persino vari software di videochiamata come Zoom, Hangouts e Skype.

I risultati hanno mostrato che i dattilografi che indossano abiti senza maniche erano più suscettibili agli attacchi di inferenza di parole, così come lo erano gli utenti delle webcam Logitech, con conseguente miglioramento del recupero delle parole rispetto a coloro che utilizzavano webcam esterne da Anivia.

Intermezzo promozionale ... continua la lettura dopo il box:

DIFESA TOTALE DELLA REPUTAZIONE :

Difesa Totale della Reputazione è un servizio completo per la tutela della reputazione che si compone di 5 livelli di protezione [ click qui ]

I test sono stati ripetuti di nuovo con altri 10 partecipanti (3 femmine e 7 maschi), questa volta in una configurazione domestica sperimentale, inferendo con successo il 91,1% del nome utente, il 95,6% degli indirizzi e-mail e il 66,7% dei siti web digitati dai partecipanti, ma solo il 18,9% delle password e il 21,1% delle parole inglesi digitate da esse.

“Uno dei motivi per cui la nostra accuratezza è peggiore rispetto all’impostazione In-Lab è perché l’ordinamento del dizionario di riferimento si basa sulla frequenza di utilizzo delle parole nelle frasi in lingua inglese, non sulla base di parole casuali prodotte da persone”, Sabra, Maiti e Jadliwala Nota.

Affermando che sfocatura, pixelizzazione e salto dei fotogrammi possono essere uno stratagemma di mitigazione efficace, i ricercatori hanno affermato che i dati video possono essere combinati con i dati audio della chiamata per migliorare ulteriormente il rilevamento dei tasti.

“A causa dei recenti eventi mondiali, le videochiamate sono diventate la nuova norma per la comunicazione remota personale e professionale”, sottolineano i ricercatori. “Tuttavia, se un partecipante a una videochiamata non è attento, può rivelare le sue informazioni private ad altri durante la chiamata. Le nostre accuratezze di inferenza di battitura relativamente elevate in impostazioni realistiche e comuni evidenziano la necessità di consapevolezza e contromisure contro tali attacchi. ”

I risultati dovrebbero essere presentati più tardi oggi al Network and Distributed System Security Symposium (NDSS).

Fonte : https://thehackernews.com/2021/02/experts-find-way-to-learn-what-youre.html