Come Funziona il Riconoscimento Facciale dei Cellulari

Sblocchi il telefono ogni mattina senza pensarci. Un’occhiata, un clic, e sei dentro. Ma in quella frazione di secondo succede qualcosa di straordinariamente complesso — un processo che mescola ottica, geometria, intelligenza artificiale e crittografia. Vediamo cosa accade davvero.

Il Problema Fondamentale: Riconoscere un Volto Non È Banale

Per un essere umano, riconoscere una faccia è istintivo. Per un computer, è uno dei problemi più difficili che esista. Un volto cambia continuamente: invecchia, si abbronza, porta gli occhiali, ha la barba il lunedì e non ce l’ha il venerdì. La luce cambia, l’angolazione cambia, le espressioni cambiano.

La soluzione non è “memorizzare un paio di foto” è estrarre una struttura matematica invariante dal volto, una sorta di impronta geometrica che rimanga stabile nonostante tutte queste variazioni. Ed è qui che inizia la magia.

Due Filosofie a Confronto: 2D vs 3D

Non tutti i sistemi di riconoscimento facciale sono uguali. Esistono due approcci fondamentali, con livelli di sicurezza molto diversi.

Riconoscimento 2D (il più diffuso ma il meno sicuro)

La maggior parte dei telefoni Android di fascia media usa la fotocamera frontale standard per acquisire un’immagine bidimensionale del volto. Il processo è questo:

La camera cattura un frame (o una serie di frame)
Un algoritmo di face detection individua il volto nell’immagine
Vengono estratti i landmark facciali: punti chiave come angoli degli occhi, punta del naso, angoli della bocca, contorno del mento, distanza occhi – naso.
Questi punti vengono convertiti in un vettore numerico (il cosiddetto faceprint)
Il vettore viene confrontato con quello memorizzato al momento della registrazione

Il problema? Una foto o un video ad alta risoluzione può ingannare questi sistemi. Per questo motivo, i produttori stessi avvertono che il riconoscimento 2D è meno sicuro dell’impronta digitale.

Riconoscimento 3D (Face ID di Apple e sistemi simili più avanzati)

Apple con Face ID, introdotto nel 2017 con iPhone X, ha alzato enormemente l’asticella. Il sistema usa hardware dedicato chiamato TrueDepth Camera, che non è una semplice fotocamera.

Ecco cosa contiene il notch/Dynamic Island:

Proiettore di punti infrarossi: proietta sul volto una griglia di oltre 30.000 punti infrarossi invisibili all’occhio umano
Fotocamera a infrarossi: acquisisce il pattern di questi punti deformati dalla superficie del volto
Flood illuminator: un illuminatore infrarosso che funziona anche al buio totale
Fotocamera standard: per acquisizione RGB aggiuntiva

Il risultato è una mappa di profondità 3D del volto, precisa al millimetro. Non si tratta di una foto — è una nuvola di punti tridimensionale.

QVR Face, il riconoscimento facciale formato app di QNAP

La Rete Neurale: Il Cervello del Sistema

Sia nei sistemi 2D che 3D, il cuore del riconoscimento è una rete neurale convoluzionale (CNN). Vale la pena capire come funziona.

Una CNN è un sistema di machine learning ispirato vagamente alla corteccia visiva dei mammiferi. È composta da milioni di parametri (pesi numerici) organizzati in strati, ognuno dei quali risponde a caratteristiche sempre più astratte dell’immagine:

I primi strati rilevano bordi, contrasti, gradienti di luminosità
Gli strati intermedi combinano questi elementi per riconoscere strutture (occhio, naso, sopracciglio)
Gli ultimi strati producono una rappresentazione matematica astratta dell’intero volto

Questa rappresentazione — un vettore di centinaia o migliaia di numeri — è il face embedding. Due immagini dello stesso volto produrranno embedding “vicini” nello spazio matematico; due volti diversi produrranno embedding “lontani”.

La rete viene addestrata su milioni di volti con tecniche come la triplet loss o la contrastive loss, che insegnano esplicitamente al modello: “questi due volti sono la stessa persona, avvicinali; questi altri sono persone diverse, allontanali”.

La Mappa di Profondità: Come si Crea

Torniamo al sistema 3D, che è il più interessante tecnicamente.

Il proiettore di punti usa un principio chiamato luce strutturata (structured light). Proietta un pattern noto e fisso di punti infrarossi. Quando questo pattern colpisce una superficie tridimensionale come un volto, i punti si deformano: quelli su superfici più vicine al telefono appaiono spostati in un modo, quelli su superfici più lontane in un altro.

La fotocamera a infrarossi acquisisce il pattern deformato. Un algoritmo confronta il pattern acquisito con quello originale noto, e dalla differenza — punto per punto — calcola la distanza di ogni punto dal sensore. Il risultato è una mappa di profondità (depth map) del volto.

Alcuni sistemi più avanzati usano invece il ToF (Time of Flight): un sensore che emette impulsi laser infrarossi e misura quanto tempo impiegano a tornare dopo aver rimbalzato sul volto. Dalla velocità della luce e dal tempo misurato si ricava la distanza con precisione millimetrica.

Il Modello Matematico del Volto: I 68 (e più) Landmark

Indipendentemente dal metodo di acquisizione, tutti i sistemi lavorano con landmark facciali — punti anatomici chiave del volto. Il modello classico ne usa 68, distribuiti su:

17 punti sul contorno del viso
10 punti sulle sopracciglia (5 per lato)
9 punti sul naso
12 punti sugli occhi (6 per lato)
20 punti sulla bocca

Da questi punti si calcolano distanze e rapporti geometrici: la distanza interpupillare, il rapporto tra larghezza del naso e distanza degli occhi, la simmetria del volto, l’angolo mandibolare. Questi valori formano una “firma” del volto parzialmente invariante rispetto a espressioni e orientamento.

I sistemi moderni basati su deep learning non usano landmark espliciti — la rete impara autonomamente quali caratteristiche sono rilevanti — ma il concetto sottostante è lo stesso.

Come Gestisce Barba, Occhiali e Invecchiamento

Una delle cose più impressionanti di Face ID è la sua capacità di adattarsi ai cambiamenti graduali. Il sistema usa un meccanismo di aggiornamento incrementale del modello.

Ogni volta che sblocchi il telefono con successo, se c’è una leggera discrepanza tra il volto acquisito e il modello memorizzato (ma non abbastanza da rifiutare l’accesso), il sistema aggiorna silenziosamente il proprio modello incorporando la nuova informazione. Così, se ti lasci crescere la barba nel corso di settimane, il telefono si “abitua” gradualmente.

Apple dichiara che Face ID continua a funzionare con occhiali da sole (che bloccano l’infrarosso) solo se hai abilitato l’opzione “Richiedi attenzione” disattivata — ma in condizioni standard, il sistema richiede che gli occhi siano aperti e guardino verso il telefono (liveness detection).

Riconoscimento facciale e privacy: cosa dice la legge italiana

Liveness Detection: Difendersi dalle Foto e dai Deepfake

Un problema critico per qualsiasi sistema di riconoscimento facciale è la presentation attack — qualcuno che usa una foto, un video, o persino una maschera 3D per ingannare il sistema.

I sistemi moderni usano diverse tecniche di liveness detection:

Analisi della texture: una foto stampata o uno schermo ha una texture superficiale diversa dalla pelle umana. La camera a infrarossi lo rivela chiaramente.

Verifica della profondità: una foto è piatta. Una faccia reale ha profondità. La mappa 3D lo rende immediatamente evidente — impossibile da falsificare con una foto.

Rilevamento del movimento oculare: sistemi avanzati tracciano micromovement degli occhi (microsaccadi) che sono impossibili da replicare artificialmente in tempo reale.

Challenge-response: alcuni sistemi chiedono di seguire un punto con gli occhi, sorridere, o muovere la testa — rendendo inutile una foto statica.

Analisi del flusso sanguigno: tecnologia di frontiera — alcune implementazioni rivelate analizzano le variazioni di colore della pelle causate dal battito cardiaco, invisibili all’occhio ma rilevabili dalla camera. Una maschera non pulsa.

Dove Vivono i Dati del Tuo Volto

Questa è la parte che dovrebbe interessarti di più dal punto di vista della privacy.

Nei sistemi ben progettati come Face ID di Apple, il face embedding (il vettore matematico che rappresenta il tuo volto) non lascia mai il dispositivo. Non viene mandato ad Apple, non vive nel cloud. Viene conservato in modo cifrato nell’enclave sicura (Secure Enclave) — un chip dedicato, fisicamente separato dal processore principale, con la propria memoria isolata, il proprio sistema operativo minimale, e le proprie chiavi crittografiche che non escono mai dall’enclave.

Il confronto avviene dentro l’enclave: il chip della fotocamera manda i dati biometrici direttamente all’enclave, la comparazione avviene lì dentro, e all’esterno esce solo un bit: sì o no. Il processore principale non vede mai il tuo volto.

Android usa un sistema analogo chiamato TEE (Trusted Execution Environment), uno spazio di esecuzione isolato all’interno del SoC, certificato dal framework FIDO2/WebAuthn.

I Numeri: Quanto È Sicuro Davvero?

Apple dichiara per Face ID una probabilità di falsa accettazione (qualcun altro che sblocca il tuo telefono) di 1 su 1.000.000 — contro 1 su 50.000 per Touch ID e 1 su 10.000 per un PIN a 4 cifre.

Questo numero vale per persone non imparentate. La probabilità aumenta per gemelli identici o familiari stretti con caratteristiche simili — motivo per cui Apple suggerisce di usare un PIN nei contesti ad alto rischio se si hanno gemelli in famiglia.

I sistemi 2D basati solo su fotocamera hanno statistiche significativamente peggiori e sono classificati da Google stessa come “meno sicuri dell’impronta digitale”.

Il Futuro: Sotto il Display e Oltre

La frontiera attuale è il riconoscimento facciale sotto il display — sensori integrati direttamente nel pannello OLED, invisibili, senza notch né punch-hole. Alcune tecnologie in sviluppo usano i pixel OLED stessi come sensori di luce quando non stanno emettendo, trasformando l’intero schermo in un sensore biometrico diffuso.

L’altra frontiera è l’integrazione con sistemi multimodali — riconoscimento facciale combinato con voce, andatura, e pattern comportamentali (come tieni il telefono, come digiti) per una verifica d’identità continua e passiva, non più solo al momento dello sblocco.

Quella frazione di secondo mattutina nasconde dunque geometria differenziale, reti neurali addestrate su miliardi di esempi, ottica a infrarossi, crittografia asimmetrica e chip con sistemi operativi dedicati.

Non male per aprire TikTok.

Articolo a cura di Fontani Nicolò