GDPR e Privacy – Profilazione, Raccolta Dati e Clustering L'impatto del Regolamento Europeo 2016/679 (GDPR) sulle tecniche di Profilazione, Raccolta Dati e Clustering

GDPR - Cosa è, cosa cambia, come agire

In questo articolo proveremo ad approfondire alcuni aspetti del nuovo Regolamento Europeo sulla Protezione dei dati 2016/679/UE (GDPR) e al loro impatto sulle tecniche e attività di profilazione, raccolta dati e clustering degli interessati con finalità statistiche e/o commerciali.

Prima di procedere, è opportuno fare una breve riflessione sul significato del termine privacy e sulle varie accezioni che ha assunto nel corso del tempo e nelle principali realtà occidentali.

La Privacy, prima ancora di essere un diritto, può essere intesa come un bisogno naturale dell’uomo fin dalle sue origini. La Genesi racconta di come Adamo ed Eva, subito dopo aver mangiato il frutto proibito e acquisito consapevolezza di essere nudi, sentirono immediatamente l’esigenza di coprirsi: si tratta del primo caso di esercizio del proprio “diritto alla Privacy” di cui si ha notizia.

Sicurezza e Protezione del Dato

L’origine della parola privacy risale al sedicesimo secolo: il suo significato originario, “private matter” (questione privata), acquisì poi una accezione via via più specifica nei secoli successivi, fino a diventare (nel 1814) qualcosa di molto simile alla sua accezione odierna: “freedom from intrusion”, ovvero libertà dall’intromissione altrui.

Una seria riflessione sugli aspetti legati al diritto alla privacy avviene soltanto a partire dal secolo scorso, quando – con il delinearsi delle prime normative nazionali in America del Nord e in Europa – cominciano a delinearsi alcune differenze – sottili ma tutt’altro che trascurabili – su come la privacy viene intesa nei due emisferi. Le normative degli Stati Uniti e del Canada si concentrano soprattutto sugli aspetti di “data security”, ovvero sugli aspetti tecnici legati alla sicurezza del dato, laddove le normative Europee pongono l’accento sugli aspetti giuridici relativi alla protezione del dato. Il nostro Codice della Privacy (D. Lgs. 196/2003), così come la maggior parte dei provvedimenti del garante, risulta in questo perfettamente coerente, concentrandosi soprattutto sulle questioni pertinenti al diritto.

Da questo punto di vista il GDPR rappresenta un lodevole tentativo di armonizzazione tra le due realtà, fornendo un set di linee-guida per la protezione dei dati attento a entrambi gli aspetti: necessità, da parte del Titolare, di adottare criteri di sicurezza adeguati alle tipologie di dati trattati, e il diritto dell’individuo ad essere sempre informato e, dove previsto, a poter dare o negare il proprio consenso al trattamento dei propri dati.

Trattamento con finalità di Profilazione

Veniamo ora all’argomento principale, ovvero al trattamento dei dati con finalità di profilazione.

Il GDPR fornisce la seguente definizione di profilazione (Art. 4):

«profiling» means any form of automated processing of personal data consisting of the use of personal data to evaluate certain personal aspects relating to a natural person, in particular to analyse or predict aspects concerning that natural person’s performance at work, economic situation, health, personal preferences, interests, reliability, behaviour, location or movements;

Che, nella versione in lingua italiana, corrisponde al seguente testo:

«profilazione»: qualsiasi forma di trattamento automatizzato di dati personali consistente nell’utilizzo di tali dati personali per valutare determinati aspetti personali relativi a una persona fisica, in particolare per analizzare o prevedere aspetti riguardanti il rendimento professionale, la situazione economica, la salute, le preferenze personali, gli interessi, l’affidabilità, il comportamento, l’ubicazione o gli spostamenti di detta persona fisica;

La profilazione, in buona sostanza, viene definita come la raccolta di un certo numero di dati relativi a un soggettocon lo scopo di poter determinare, attraverso un successivo processo di elaborazione, alcuni aspetti personali. Il concetto di profilazione va dunque inteso l’esito congiunto di due processi consequenziali: la raccolta dati e la succesiva elaborazione degli stessi, mediante la quale i soggetti oggetti della raccolta vengono ripartiti in determinate categorie (clustering).

Siamo già di fronte a una novità rispetto al precedente Codice Privacy 196/2003, dove la profilazione non era esplicitamente definita e trattata – pur essendo stata oggetto, nel corso degli anni successivi, di numerosi atti, provvedimenti e chiarimenti a cura del Garante.

Tecniche di raccolta dati

Per quanto riguarda le attività di raccolta dati, sono ancora molto utilizzati i metodi convenzionali: casi questionari e/o moduli online o cartacei composti da domande, checkbox, caselle di testo a risposta libera o altre modalità. A questi cominciano però ad affiancarsi sempre più spesso una serie di metodologie più moderne, legate al monitoring (e registrazione) di usi, abitudini o comportamenti dell’interessato: basti pensare ai cosiddetti cookie di profilazione, il cui compito è proprio quello di registrare le attività dell’utente al fine di raccogliere informazioni che possano consentire al Titolare del trattamento di effettuare il profiling ed eventualmente il clustering dell’interessato. I cookie di profilazione, così come tutte le attività di click-monitoring implementabili all’interno di un sito o servizio web ovvero di una app per dispositivi mobili, sono alla base del successo di colossi come Google, Amazon o Netflix in quanto consentono loro di efffettuare tutte le elaborazioni necessarie per poter presentare ad ogni singolo utente contenuti altamente personalizzati.

Tecniche di elaborazione

Veniamo dunque ad approfondire il concetto di elaborazione dei dati raccolti. Nella società dell’informazione attuale, il processo di elaborazione avviene di norma attraverso algoritmi automatizzati che analizzano le informazioni raccolte allo scopo di estrarre una serie di caratteristiche, in base alle quali costruire un’offerta altamente personalizzata. Inevitabilmente, questi algoritmi lavorano in base a una serie di parametri che consentono loro di effettuare delle POC (Presumably Optimal Choices, ovvero Scelte Presumibilmente Ottimali SPO in lingua italiana) per l’interessato.

Le prime elaborazioni automatizzate, alla base del successo dei pionieri della profilazione come Google, Youtube e Amazon negli anni compresi tra il 2001 e il 2008, si limitavano all’applicazione di un banale principio di causa-effetto: l’utente che ha comunicato di avere una certa disponibilità economica e che cerca scarpe sarà presumibilmente propenso a comprare scarpe, quindi sarà economicamente vantaggioso mostrargli unità di advertising relative a inserzionisti che vendono scarpe o, per esteso, capi di abbigliamento. Elaborazioni più moderne, basate su algoritmi che non di rado (Google, Netflix) implementano funzionalità di machine-learning e si basano su parametri che evolvono nel corso del tempo, sono potenzialmente in grado di effettuare delle vere e proprie deduzioni sulla base dei dati raccolti: l’utente che ha comunicato di avere una certa disponibilità economica e che cerca scarpe e cravatte sarà presumibilmente propenso ad acquistare anche camicie, abiti di lusso, gemelli e camicie, nonché – presumibilmente – automobili di pregio, orologi di lusso e così via.

Ora, appare evidente fin da subito che entrambi gli algoritmi – soprattutto il secondo – possono effettuare elaborazioni enormemente più efficaci nel momento in cui, anziché limitarsi all’analisi del set di informazioni e/o comportamenti di un singolo individuo, hanno la possibilità di incrociare i dati di un campione di utenze significativo: in altre parole, di analizzare i percorsi comportamentali che si verificano con maggior frequenza e riproporli, opportunamente declinati, a una tipologia di utenza simile. In tal modo, l’algoritmo potrà determinare che l’utente che ha comunicato di avere una certa disponibilità economica ed ha acquistato un paio di scarpe sarà presumibilmente propenso ad acquistare anche un articolo – o a dotarsi di un servizio, o a leggere un articolo – che si trova all’interno del percorso comportamentale di una percentuale rilevante degli utenti aventi le sue stesse caratteristiche che sono stati analizzati e profilati in precedenza.

Il Clustering

Veniamo dunque al clustering, inteso come il processo di ricondurre un numero potenzialmente infinito di individui/utenti all’interno di un numero definito di categorie, o per meglio dire di percorsi comportamentali, al fine di determinare nel migliore dei modi le Presumably Optimal Choices di ciascun utente – passato, presente e futuro. Ora, a prescindere dalla complessità e dalla granularità dell’algoritmo, è pacifico che questo tipo di attività di correlazione, o per meglio dire di ricerca delle presumibili correlazioni, si basano sempre e comunque su un certo livello di approssimazione basato sui grandi numeri e, di conseguenza, mettono in campo un meccanismo di semplificazione della realtà.

Si tratta, in altre parole, di un processo di standardizzazione dell’utente – di enormi quantitativi di utenti provenienti da tutto il mondo, nel caso di colossi come Google, Amazon o Netflix – all’interno di determinate categorie di soggetti, che rischiano così di essere privati delle loro specifiche caratteristiche, peculiarità e identità. Si tratta di una tecnica estremamente efficiente dal punto di vista della gestione delle masse e per questo utilizzata innumerevoli volte nel corso della storia per innumerevoli finalità, più o meno discriminatorie. Il fatto che, in questo particolare periodo storico, la moderna tecnologia ci consente di utilizzare categorie liquide e mutevoli nel corso del tempo non cambia minimamente le cose: la suddivisione dell’umanità in raggruppamenti presumibilmente omogenei resta un processo di semplificazione pregiudiziale della realtà, a prescindere dalla dinamicità che possono avere gli insiemi utilizzati.

Fortunatamente, non siamo i soli a pensarla in questo modo: l‘utilizzo indiscriminato degli algoritmi di profilazione ha portato, soltanto negli ultimi 2 anni, a una serie di multe a società come Samsung, Whatsapp e Facebook, condannate al pagamento di multe anche molto severe per l’adozione di pratiche scorrette nel trattamento dei dati, tutte derivanti da tecniche di profilazione giudicate scorrette, discriminatorie o altrimenti lesive per i propri utenti.

E la pensa anche in questo modo il legislatore europeo, visto che il GDPR chiarisce ulteriormente la volontà di tutelare l’individuo nell’Art. 22, dando la possibilità all’individuo di rifiutare ogni tipo di decisione anche parzialmente automatizzata. La portata di questo articolo è particolarmente rilevante in una società altamente informatizzata come la nostra, specialmente considerando l’impatto che avranno le Intelligenze Artificiali nel prossimo futuro: l’Unione Europea, tanto per dirne una, è di fatto tutelata – almeno per il momento – dalla possibilità che l’esercizio del potere e dell’autorità vengano effettuate da un algoritmo o da una AI. Questo significa che non correremo il rischio di avere un giudice, un poliziotto o un altro pubblico ufficiale elettronico che possa discriminarci in base all’esito un algoritmo.

Shadow Data

Il processo di elaborazione compiuto all’interno della definizione di profilazione data dal GDPR, al netto delle considerazioni fatte poco sopra, pone un altro spunto di riflessione: il fatto che le elaborazioni – in particolar modo quelle derivanti dal Big Data Profiling – possono provocare la nascita di informazioni nuove, frutto delle deduzioni probabilistiche dell’algoritmo stesso. Il fatto che a un utente presumibilmente piacciano gli orologi di lusso sulla base dei suoi percorsi di navigazione incrociati con quelli di migliaia di altri utenti è un dato personale? Si, lo è: nella fattispecie, è un dato personale frutto di una decisione automatizzata, che – senza quell’articolo del GDPR – sarebbe trattato nella totale e assoluta inconsapevolezza degli interessati. In altre parole, il GDPR è stato pensato per tutelare l’individuo non soltanto nella consapevolezza legata all’esistenza stessa di questi dati ombra, ma anche e soprattutto sulle modalità di trattamento degli stessi.

L’impatto di lungo periodo che questi Shadow Data possono avere sulla società non è da sottovalutare: il processo di standardizzazione derivante dal clustering basato sulle profilazioni tende inevitabilmente a privare il singolo delle sue caratteristiche di eccezionalità e unicità, privileggiando – e dunque, inevitabilmente, enfatizzando – gli elementi comuni, in quanto più facili da classificare. Questo processo di semplificazione progressiva viene poi riproposto alla società sotto forma di messaggi promozionali, targeting mirato e preselezioni sempre più frequenti, in un circolo vizioso di “spersonalizzazione predittiva” dell’individuo e banalizzazione delle diversità.

Infine, c’è da considerare che tanto la profilazione quanto gli Shadow Data da essa prodotti hanno una naturale tendenza alla ricorsività: l’incrocio tra i dati di profilazione di più utenti con i loro Shadow Data produrrà altri Shadow Data, che potranno essere utilizzati successivamente per produrre ulteriori Shadow Data, e così via, in una spirale che può essere molto difficile da prevedere e, di conseguenza, da controllare. Al tempo stesso, è verosimile pensare che anche gli algoritmi utilizzati per effettuare queste elaborazioni ricorsive – spesso complessi e molto costosi – debbano essere in qualche modo tutelati.

A questo proposito è interessante notare come il diritto alla portabilità previsto dall’Art. 20 del GDPR non si applichi agli Shadow Data, ovvero ai dati risultanti da elaborazioni proprietarie: a quanto pare, in questa occorrenza il legislatore ha deciso di tutelare gli interessi legittimi dell’artefice dell’elaborazione ovvero al proprietario del codice sorgente dell’algoritmo, che viene considerata dunque alla stregua di un asset aziendale.

Big Data e Native Advertising

Un perfetto esempio dell’utilizzo degli Shadow Data è dato dal cosiddetto Native Advertising, che in questi ultimi anni sta diventando la tipologia predominante di marketing pubblicitario online sotto forma di banner.

Il termine Native Advertising definisce quella particolare tecnica pubblicitaria in base alla quale il messaggio promozionale viene presentato con un layout il più possibile affine a quello del medium che lo ospita (testata giornalistica online, social network, etc.) con l’intento di facilitarne l’accettazione da parte dell’utente/lettore/osservatore.

L’utilizzo delle tecniche di profilazione e clustering nell’industria pubblicitaria sta portando il Native Advertising ad assumere forme sempre più affini – e, di conseguenza, efficaci – al suo percorso comportamentale dell’individuo che lo sta visualizzando, così com’è noto al sistema: un background floreale per gli amanti della natura, un linguaggio forbito per avvocati e professori, citazioni da film recenti per gli appassionati di cinema, e così via.

Basi di legittimità

Veniamo ora ad analizzare in dettaglio quali sono le basi di legittimità previste dal GDPR, in base alle quali questi dati possono essere trattati.

L’art. 22 chiarisce come sia sempre necessario il consenso specifico, informato e libero da parte dell’utente oggetto di profilazione. La strategia seguita dalle aziende per ottenere il consenso al trattamento di dati originariamente estranei al servizio fornito è quella di trasformare il servizio stesso in un qualcosa di altamente personalizzato, che necessiti pertanto del trattamento dei suddetti dati (cfr. Art. 6, comma 1, lettera B). Ad esempio, un Tour Operator che volesse raccogliere dati utilizzabili per la profilazione potrebbe proporre ai propri clienti una fidelity card per ottenere sconti e promozioni sulla base delle loro preferenze, calcolate mediante algoritmi di profilazione e clustering, inserendo nelle condizioni di adesione le informative e i consensi necessari.

Un’altra tecnica per certi aspetti affine alla precedente e molto utilizzata dalle moderne tecniche di Direct Marketing è quella di considerare i dati, o per meglio dire il consenso al trattamento degli stessi, alla stregua di una moneta: in altre parole, un servizio a pagamento viene offerto con un forte sconto (o addirittura in modalità gratuita) in cambio dell’acquisizione del consenso dell’interessato al trattamento dei propri dati per attività di profilazione e marketing: è il caso di moltissimi servizi web di ultima generazione, tra cui la versione gratuita di Spotify (art. 7 delle condizioni contrattuali).

E’ qui il caso di fare una riflessione sulla reale connotazione della parola gratuita, corrispondente all’anglosassone free. Un servizio che richiede il consenso dell’interessato per finalità non inerenti alle attività strettamente necessarie (ex. art. 5 del GDPR) non potrebbe infatti definirsi gratuito, in quanto siamo comunque in presenza di uno scambio in natura tra l’interessato e il titolare del trattamento, con tanto di contratto di fornitura.

Diritti disponibili e indisponibili

Una ultima, importante considerazione sull’art. 22 del GDPR è quello relativo alla disponibilità dei diritti che ha il compito di proteggere. Nell’ordinamento giuridico italiano, i diritti si suddividono in:

  • diritti disponibili, che possono essere alienati dal titolare (trasferiti ad altri) o essere oggetto di rinuncia (es. il diritto di proprietà e di obbligazione).
  • diritti indisponibili, che non possono essere oggetto di rinuncia o alienazione da parte del titolare a prescindere dalla sua volontà: qualsiasi consenso o contratto che affermi altrimenti è dunque ipso iure nullo.

L’art. 22 è il solo diritto del GDPR che può diventare disponibile previo consenso dell’interessato (cfr. comma 2, lettera C), laddove tutti gli altri – descritti negli articoli dal 15 al 21 – sono diritti indisponibili. E’ qui piuttosto evidente la scelta del legislatore di voler trovare un ragionevole compromesso tra la necessaria protezione dei diritti dell’interessato rispetto alle attività di profilazione e le nuove esigenze, meccaniche e possibilità offerte dal mondo dell’Information Technology negli ultimi anni e – soprattutto – negli anni a venire.

Questo articolo fa parte di una serie di approfondimenti e riflessioni sul GDPR e sulle modalità di applicazione del Nuovo Regolamento Europeo della Protezione dei Dati in Italia, con focus specifico sulla compliance rispetto alla normativa previgente in materia civile e penale. Leggi gli altri articoli.

 

RELATED POSTS

About Ryan

IT Project Manager, Web Interface Architect e Lead Developer di numerosi siti e servizi web ad alto traffico in Italia e in Europa. Dal 2010 si occupa anche della progettazione di App e giochi per dispositivi Android, iOS e Mobile Phone per conto di numerose società italiane. Microsoft MVP for Development Technologies dal 2018.

View all posts by Ryan