Giugno 7, 2021
5526 Views
Autore: Stefano Bennati
Google ha iniziato una campagna per riabilitare l’immagine delle pubblicità mirate, dopo anni di critiche da parte di attivisti della privacy.
Le pubblicità mirate, oltre a produrre la maggior parte dei ricavi di Google, finanziano la maggior parte dei siti Internet che offrono contenuti gratuiti, di conseguenza permettono a persone di qualsiasi affluenza economica di trarre vantaggio dalle opportunità offerte da Internet.
Il pezzo forte di questa iniziativa è stata la decisione di bloccare i cookie di terze parti, ovvero lo strumento principale per la fruizione di pubblicità mirata, ed introdurre al loro posto una nuova tecnologia più rispettosa della privacy chiamata Federated Learning of Cohorts (FLoC).
In questo articolo descrivo il funzionamento di FLoC, affrontando le differenze rispetto allo stato dell’arte (tracking e fingerprinting) e indicando le principali critiche che sono state mosse nei confronti di FLoC.
Qual è lo stato dell’arte
La pubblicità mirata si basa sulla profilazione delle preferenze di uno specifico utente, che informano la scelta di pubblicità allineate ai gusti dell’utente. Questi profili sono basati sull’analisi della cronologia di navigazione, la quale viene raccolta attraverso la pratica del tracking (tracciamento).
Lo stato dell’arte del tracking si basa sui cookie, che permettono la memorizzazione di una piccola quantità di informazioni su un dispositivo. I cookie possono sia ricordare lo stato dell’ultima visita, per esempio il contenuto di un carrello degli aquisti, sia memorizzare l’elenco delle pagine visitate in vari momenti.
Numerose critiche sono state mosse riguardo all’intrusività di questi sistemi di tracciamento, in quanto permettono ad entità terze di ottenere molte informazioni dalla cronologia di navigazione che non servono alla fornitura di pubblicità, per esempio informazioni sullo stato di salute, sulla religione, sulle preferenze sessuali, ecc.
Gli utenti hanno quindi iniziato a tutelarsi dal tracciamento cancellando i cookie e usando ad-blocker, software che rendono, fra le altre cose, inefficace il tracciamento. Le agenzie di tracciamento hanno reagito introducendo il fingerprinting con l’idea di recuperare, almeno in parte, la capacità di tracciare gli utenti.
Con fingerprinting si intende un insieme di tecnologie che permettono di identificare dispositivi in base a caratteristiche tecniche come le caratteristiche dello schermo ed altri componenti, il tipo di sistema operativo e le preferenze impostate dall’utente, il tipo di browser e la lista di estensioni installate, ecc.
Queste informazioni possono essere raccolte direttamente dai siti visitati dall’utente, senza richiedere alcun permesso aggiuntivo o alcuna attività che potrebbe essere bloccata dall’utente, per esempio la creazione di un cookie.
Questo sistema non è accurato quanto i cookie, dato che non si può escludere che due dispositivi abbiano esattamente le stesse caratteristiche, ma in compenso il suo uso è più difficile da notare e da bloccare.
Come funziona Google FLoC
FLoC si pone l’obiettivo di implementare tutte le funzionalità di profilazione che sono possibili con i cookie, preservando però la privacy dell’individuo.
A differenza delle soluzioni attuali, in cui ogni utente viene profilato individualmente, in FLoC ciascun profilo viene costruito basandosi su gruppi di utenti con simili preferenze, chiamati cohorts.
In pratica un profilo non rifletterà mai accuratamente le preferenze di uno specifico utente, ma rifletterà le preferenze comuni a tutti i membri del cohort. Per esempio, un individuo con interesse per l’IA e la privacy potrebbe venire raggruppato con individui che condividono la passione per l’IA ma non si interessano di privacy, in questo caso il profilo associato con tutti questi individui non mostrerà un interesse per la privacy.
Il numero massimo di possibili profili, si parla di circa 60.000, è stabilito da FLoC. Visto che attualmente Chrome viene utilzzato da più di 2 miliardi di utenti, ogni profilo rappresenterebbe le preferenze di più di 30.000 utenti.
Il numero di profili potrebbe essere aumentato in futuro, per permettere una profilazione più precisa, ma Google rassicura che ogni profilo sarà sempre associato come minimo a diverse migliaia di utenti e si impegna a eliminare i profili che non rispettano questa proprietà.
In gergo tecnico si dice che ciascun gruppo offrirà k-anonymity, in pratica ciascun utente in uno specifico gruppo non potrà essere distinto da un numero k di altri individui nello stesso gruppo. Il rispetto di k-anonymity è una garanzia importantissima e standard della privacy che rappresenta il (basso) rischio si isolare un individuo, definito ‘singling-out’ nel GDPR.
La profilazione è lasciata al browser, il quale analizza la cronologia di navigazione dell’utente ed identifica quale fra i numerosi profili rappresenta al meglio gli interessi dell’utente. Questa analisi viene effettuata tramite uno speciale sistema di apprendimento automatico federato, dove ogni browser si incarica di analizzare i dati personali, senza bisogno di condividerli con Google o nessun altro.
Associare un profilo a ciascun utente è solamente il primo passo: dato che l’informazione sulle preferenze degli utenti non lascia mai i rispettivi browser, le preferenze rappresentate da ciascun profilo sono sconosciute (anche ai browser stessi). Inoltre, i cohorts stessi sono generati automaticamente, non partendo da una lista di interessi prestabilita.
È dunque necessario un secondo processo per capire il significato dei profili ed offrire pubblicità mirata. In questo secondo passo, i siti monitorano la navigazione dei loro visitatori in relazione al loro ID di profilo (che è pubblico).
Un esempio
Un utente U1 visita una pagina relativa alla privacy sul sito S1. Il sito S1 associa l’interesse per la privacy al profilo P1 dell’utente U1. A questo punto un altro utente U2 con lo stesso profilo P1 visita lo stesso sito S1, S1 può aspettarsi che anche U2 sia interessato alla privacy, dato che condivide lo stesso profilo di S1, e può quindi presentare una pubblicità di un corso di formazione relativo alla privacy.
Potrebbe però capitare che U2 non condivida la passione per la privacy di U1, e visiti invece una pagina relativa all’IA. Il sito S1 può usare questa informazione per aggiornare il significato associato al profilo P1 e mostrare pubblicità per un corso di formazione relativo all’IA.
Dopo aver monitorato sufficienti visitatori con un profilo P1, S1 potrà confermare che P1 è associato ad un interesse per l’AI mentre non è associato ad un interesse per la privacy. È importante notare che, grazie alle proprietà di privacy di FLoC, S1 non potrà sapere se un futuro visitatore con profilo P1, per esempio U1, sia interessato o meno alla privacy.
La conoscenza relativa al significato di un particolare profilo P1 ha valore. Per esempio S1 ha conoscenza che il profilo P1 è associato all’interesse per l’IA, mentre un sito S2 specializzato in ricette potrebbe sapere che lo stesso profilo P1 rappresenta un interesse per la cucina orientale. S1 e S2 trarrebbero beneficio a scambiare questa informazione, per esempio mostrando una ricetta orientale di S2 agli utenti che visitano pagine di S1 che parlano di IA.
C’è quindi da aspettarsi la nascita di un mercato per commerciare le informazioni relative ai profili FLoC. La differenza fondamentale col mercato attualmente creato dai data broker è che nel caso di FLoC le informazioni non si riferiscono a specifici individui.
Potrebbero esserci alcuni problemi
Google stessa ha ammesso che questo commercio di informazioni potrebbe presentare problemi per la privacy, per esempio nel caso in cui un sito tematico sulla medicina iniziasse a vendere informazioni riguardo a quali profili sono associati a particolari malattie. È quindi necessario trovare un sistema per intervenire sulla definizione dei cohorts nel caso in cui un profilo identifichi troppo accuratamente una particolare caratteristica sensibile.
Per esempio, il sistema automatico di definizione dei cohorts potrebbe, per puro caso, definire un profilo la cui
principale caratteristica è la predisposizione per il cancro, il quale potrebbe essere riconosciuto dai browser di alcuni individui malati di cancro come il profilo più rappresentativo.
Google ha deciso di garantire che i profili rispettino la proprietà di t-closeness, un’altra importante garanzia di privacy che stabilisce un tetto all’informazione rivelata da uno specifico profilo.
Semplificando di molto, data un’incidenza del cancro del 10% nella popolazione, l’incidenza del cancro fra i membri di un cohort che rispetta la t-closeness non può superare il 10+t%. Di conseguenza, l’associazione di un utente ad un dato profilo informa che quell’utente è più soggetto al cancro, ma non più di tanto, rispetto ad una persona qualsiasi.
Nonostante la matematica sia parecchio complicata, la parte più difficile di questo processo è stabilire quali cohorts non rispettano questa proprietà senza conoscere la cartella clinica o la cronologia di navigazione di questi utenti a rischio. Google è al lavoro su un sistema federato per calcolare le statistiche aggregate necessarie a questo scopo.
Le principali caratteristiche del FLoC
Riassumendo, la soluzione FLoC permette di effettuare pubblicità mirata mantenendo importanti salvaguardie sulla privacy degli utenti:
- I dati della cronologia non lasciano il dispositivo, nessun’entità terza ne entra in possesso
- La profilazione non identifica una persona ma un gruppo di persone, garantendo la privacy degli individui secondo i criteri di k-anonymity e t-closeness
- I profili sono generati in modo automatico, senza che nessun’entità sia in grado di richiedere che un particolare gruppo di persone sia raggruppato
- La definizione dei gruppi può cambiare nel tempo, per esempio eliminando cohorts con pochi utenti e suddividendo cohorts molto popolari
- Un sistema di controllo garantisce che i cohorts non siano mai rappresentativi di una caratteristica sensibile
- Il profilo identifica solo le caratteristiche in comune a tutto il gruppo di persone, e la visita di una specifica pagina, per esempio relativa ad una malattia rara, da parte di un solo individuo non entrerebbe a far parte del profilo
Google FLoC è in pratica un nuovo sistema di profilazione proprietario che in qualche modo mette al centro la minimizzazione del trattamento di dati, come previsto anche dal GDPR.
Le critiche al sistema FLoC
In termini di rispetto della privacy, FLoC è anni luce avanti rispetto alla tecnologia attuale per la pubblicità mirata, basata su tracking e fingerprinting, pur garantendo simili risultati. Tecnicamente, FLoC è una meraviglia dell’innovazione ed un ottimo esempio di Privacy by Design.
Nonostante ciò, FLoC è stato ampiamente criticato come un passo indietro per la privacy. Queste critiche in realtà non si riferiscono alla tecnologia in sè, ma all’uso che Google ne vuole fare.
Una prima critica riguarda il presupposto che l’uso di FLoC come alternativa ai cookie aumenti la privacy degli utenti. Per quanto la tecnologia in sè sia un’alternativa più privata al tracciamento tramite cookie e fingerprinting, all’atto pratico questo beneficio non si materializza fino a quando le due tecnologie co-esisteranno.
Come discusso precedentemente, la pratica del fingerprinting non risente del blocco dei cookie; al contrario, il cohort ID generato da FLoC, che rappresenta poche migliaia di dispositivi, diventa una fonte aggiuntiva di informazione per il fingerprinting.
Ci si può dunque aspettare che il fingerprinting continuerà ad essere effettuato proprio come ora e quindi l’introduzione di FLoC all’atto pratico non riesca ad aumentare la privacy delle persone.
Un’altra importante critica riguarda l’inadequatezza di FLoC a prevenire gli effetti negativi causati dalla pubblicità mirata, come la discriminazione e la manipolazione. Secondo questo punto di vista, il vero problema è la manipolazione delle persone, per esempio tramite pubblicità mirate a ridurre l’affluenza elettorale, mentre la raccolta di dati personali è solo un effetto collaterale.
Nonostante gli enormi passi avanti contro la re-identificazione (k-anonymity e t-closeness in primis) compiuti da FLoC, nulla impedirebbe ad un inserzionista di manipolare l’elettorato più vulnerabile. Google ha in cantiere una soluzione per limitare la capacità di isolare gruppi di persone appartenenti ad una categoria sensibile, per esempio l’etnia, ma il problema della manipolazione non è limitato alle categorie definite sensibili.
In questo senso, FLoC è una buona soluzione per minimizzare il trattamento di dati, sostituendo il tracking individuale con profilazione di gruppo, ma non tiene in considerazione la dimensione etica della profilazione dei gruppi di persone, e non è una misura adeguata a limitare i rischi di manipolazione e disinformazione online.
Un altro gruppo punto di discussione sono gli effetti di FLoC sul mercato delle inserzioni e sulla competitività. La critica più ovvia è che Google sta usando FLoC per spingere l’uso del browser Chrome, sottraendo un’enorme fetta del mercato alla competizione che ancora opera con tracciamento via cookie.
A sua volta, questo produrrebbe un forte incentivo per i siti web che vogliono monetizzare le proprie pagine a passare a FLoC, e possibilmente a richiedere ai propri visitatori di supportare FLoC, esattamente come oggi alcuni siti richiedono di disattivare l’ad blocker per accedere ai contenuti. Questo scenario porterebbe ad un consolidamento della posizione dominante di Google come gestore di inserzioni e di Chrome come browser maggioritario.
Un’altra critica è che il sistema svantaggia gli attori più piccoli, come per esempio i siti specializzati, che hanno una ridotta visibilità sugli interessi delle persone, e di conseguenza una bassa capacità di attribuire un significato ai diversi cohort ID.
Al contrario, un motore di ricerca come Google o un data broker che opera fingerprinting, avrebbe una visibilità molto più ampia sugli interessi delle persone e quindi sarebbe nella posizione ideale per attribuire un significato agli ID e vendere questa informazione.
D’altro canto, il principale concorrente di Google nell’ambito delle inserzioni, cioè Facebook, non sarebbe molto impattato dall’introduzione di FLoC, in quanto la diffusione del metodo proprietario per tracciare gli utenti, cioè i bottoni ‘like’ e ‘condividi’, è così capillare da poter sostituire il tracciamento con i cookie.
Conclusioni
Dopo aver analizzato nel dettaglio il funzionamento di FLoC e discusso le maggiori critiche che sono state avanzate da un vario gruppo di addetti ai lavori, un chiaro giudizio sulla tecnologia è molto difficile.
Nello stile che lo contraddistingue, Google ha concentrato tutti i suoi sforzi per creare una soluzione tecnica impeccabile e molto migliore dello stato dell’arte (cookie e fingerprinting), che però all’atto pratico non raggiunge tutti gli obiettivi desiderabili. Chi si aspettava uno stop alla profilazione, rimarrà deluso.
È comunque importante notare che questa tecnologia è ancora in uno stato iniziale di progettazione, quindi Google è ancora in tempo per accogliere le critiche e trasformare FLoC nel nuovo stato dell’arte di cui il mercato e gli utenti hanno disperatamente bisogno per superare l’estrema invadenza di cookie e fingerprinting.