Come eliminare contenuti riservati e dati personali dai file PDF in modo permanente Panoramica sugli aspetti di sicurezza e privacy del formato PDF e sulle funzionalità PDF Redact Tools, un set di strumenti messi a disposizione da Adobe per rimuovere permanentemente testi, immagini e altri contenuti sensibili o riservati

Come eliminare contenuti riservati e dati personali dai file PDF in modo permanente

Il Portable Document Format, universalmente noto con la sigla PDF, è un formato di file basato su un linguaggio di descrizione di pagina sviluppato da Adobe a partire dal 1993 per rappresentare documenti di testo e immagini in modo uniforme su tutti i dispositivi, a prescindere dall’hardware e dal software utilizzato.

Quando i primi PDF cominciarono timidamente a diffondersi all’interno delle reti informatiche, tra cui il World Wide Web (che in quegli anni in Italia cominciava a muovere i suoi primi passi), nessuno avrebbe mai immaginato il successo planetario che questo fortunatissimo formato avrebbe avuto di lì a poco. Oggi, a meno di 30 anni dalla sua invenzione, il PDF è il formato file di gran lunga più diffuso e popolare, utilizzato dalla maggioranza della popolazione mondiale per condividere, immagazzinare ed archiviare la quasi totalità dei documenti elettronici realizzati digitalmente ovvero acquisiti tramite scanner: dalle cartelle cliniche ai documenti di identità, dai contratti alle buste paga, dai manuali d’uso ai romanzi di narrativa, e così via in un elenco che potrebbe continuare all’infinito.

I motivi legati alla diffusione capillare del formato PDF sono molteplici, in parte determinati dalla forza esercitata sul mercato del software da parte dell’azienda che lo ha commercializzato (Adobe Inc., azienda che oggi conta oltre 20.000 dipendenti e un fatturato annuo da 11 miliardi di dollari, con un utile netto che sfiora i 3 miliardi), ma di certo anche legati alle caratteristiche tecniche del formato, che proveremo a riassumere nel seguente elenco:

  • Può contenere qualsiasi combinazione di testo, elementi multimediali e ipertestuali, tra cui link esterni, segnalibri e miniature di pagine.
  • Non perde la formattazione quando viene inviato ad altri utenti, come avviene con altri formati di testo.
  • E’ ampiamente utilizzato da aziende, governi e istituzioni educative, cosa che favorisce ulteriormente la sua diffusione.
  • È una specifica aperta, per la quale sono stati adattati strumenti software commerciali come Microsoft Office e WordPerfect Office suite e altri creati in software gratuito che consentono di creare, visualizzare o modificare documenti in formato PDF, come Openoffice, LibreOffice e Calligra Suite e il sistema di composizione del testo LaTeX.
  • E’ dotato di numerose funzioni di sicurezza: ad esempio, può essere crittografato per proteggere il suo contenuto e/o firmato digitalmente per garantirne la paternità.
  • E’ integrato in modalità nativa all’interno di numerose applicazioni, tra cui Openoffice e Microsoft Office, che consentono il salvataggio diretto dei loro file in PDF.
  • Può essere generato da qualsiasi applicazione che consenta la funzionalità di stampa grazie alla presenza di una “stampante virtuale” installabile su tutti i principali sistemi operativi.
  • È lo standard ISO 19005-1:2005 per i file del contenitore di documenti elettronici in vista della loro conservazione a lungo termine.
  • È multipiattaforma, ovvero può essere presentato sui principali sistemi operativi (GNU / Linux, MacOS, Unix, Windows ), senza modificare l’aspetto o la struttura del documento originale.

Digitalizzazione e Sicurezza

Gli aspetti di sicurezza del formato PDF sono estremamente importanti: le funzionalità che consentono di proteggere l’apertura e/o la modifica di un documento con una password e di apporre una firma digitale e/o una marca temporale hanno giocato un ruolo determinante nel processo di digitalizzazione che ha coinvolto l’intero pianeta negli ultimi decenni, e che in gran parte – specialmente in Italia – continua ad avere luogo a tutt’oggi.

Le attività di dematerializzazione dei documenti cartacei, ovvero della loro trasformazione/conversione in formato PDF tramite data-entry ovvero mediante l’utilizzo scanner digitali, producono miliardi di nuovi file PDF ogni anno e determinano non di rado una vera e propria rivoluzione dei processi aziendali, con inevitabili ricadute in termini di sicurezza e protezione dei dati; del resto, è del tutto evidente come le contromisure che per anni sono state utilizzate all’interno di enti pubblici e aziende private per proteggere i documenti cartacei da accessi non autorizzati non siano adeguate per ridurre i rischi di data breach a cui qualsiasi archivio elettronico è potenzialmente soggetto. Per questo motivo, i sistemi di protezione fisica (porte blindate, armadietti chiusi a chiave, distruggi-documenti, etc.) vengono oggi affiancati, quando non sostituiti, da una serie di strumenti informatici che forniscono le medesime garanzie sul piano digitale: firewall, antivirus e antimalware, sistemi di data encryption in-transit e at-rest, meccanismi di autenticazione a due o più fattori, firme digitali, software che garantiscono la secure data erasure (ovvero la distruzione permanente dei file senza possibilità di recupero), e così via.

Questo articolo è dedicato all’approfondimento di questi strumenti in particolare, che consente di ottemperare in modo “digitale” a una esigenza tipica connessa alla condivisione di documenti cartacei con soggetti terzi: la necessità di eliminare dai suddetti documenti qualsiasi riferimento relativo a informazioni riservate o dati personali: in altre parole, tratteremo il tema dell’anonimizzazione e/o pseudonimizzazione dei dati all’interno di un file PDF.

Anonimizzazione vs Pseudonimizzazione

Negli ultimi anni, in conseguenza dell’adozione del nuovo Regolamento Generale per la Protezione dei Dati personali n. 2016/679 (GDPR), è stato introdotto anche in Italia il concetto di pseudonimizzazione, in precedenza poco o per nulla noto al di fuori dell’ambito prettamente informatico. La forte diffusione del termine ha determinato in molti casi una certa confusione tra pseudonimizzazione e anonimizzazione dei dati, concetti che hanno in realtà ben poco in comune in quanto differiscono grandemente sia negli aspetti tecnici che in quelli operativo/applicativi. Per questo motivo, prima di affrontare il tema dell’anonimizzazione, è bene fare chiarezza su questo aspetto al fine di sgombrare il campo da possibili fraintendimenti.

La pseudonimizzazione, secondo il GDPR (art. 4, comma 5), è un procedimento con il quale si impedisce di identificare un individuo attraverso i suoi dati mediante la sostituzione degli stessi con pseudonimi che non consentano di risalire all’identità del proprietario:

Il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile.

Il riferimento esplicito all’impossibilità di risalire all’identità del proprietario fa ben comprendere come la garanzia alla base della pseudonimizzazione non possa che provenire da due aspetti operativi diversi ma correlati: quello organizzativo, che avrà il compito di gestire il valore del dato disaccoppiandolo definitivamente dall’identità individuale, e quello tecnologico, che dovrà implementare tale processo mediante l’ausilio degli strumenti (informatici) del caso.

Il vantaggio principale della pseudonimizzazione è dato dal fatto che consente al responsabile del trattamento di continuare ad usufruire dei dati, garantendo nel contempo un soddisfacente livello di riservatezza al proprietario. Ovviamente, l’efficacia (e di conseguenza il livello di sicurezza) della pseudonimizzazione è garantito unicamente dalle modalità operative con cui quest’ultima è stata condotta: in altre parole, esisterà sempre la possibilità che – per colpa di errori o mancanze da parte di chi ha avuto il compito di implementarla – la pseudonimizzazione possa essere reversibile anche senza essere in possesso del know-how tecnico utilizzato (e relative chiavi, algoritmi e/o modalità di riaccoppiamento), consentendo in tal modo la ricostruzione dei dati anche a soggetti non autorizzati al trattamento. Si tratta di una eventualità che può avvenire soprattutto nei casi in cui i dati vengono “pseudonimizzati” attraverso algoritmi automatizzati basati su data scrambling, data encryption o altre tecniche similari.

L’anonimizzazione differisce dalla pseudonimizzazione perché prevede l’eliminazione permanente del dato personale, senza alcuna possibilità di poterlo recuperare o desumere da informazioni o “tracce” lasciate al suo posto. In altre parole, un dato viene reso anonimo nella misura in cui non è più ricostruibile in alcun modo, in quanto viene eliminato ovvero sovrascritto in modo permanente con un’informazione neutra (una riga nera, una sequenza di caratteri fissi o generati in modo completamente casuale, e così via). Si tratta dunque di una tecnica che toglie al responsabile del trattamento gran parte dei possibili utilizzi dei dati (in quanto questi ultimi cessano a tutti gli effetti di essere in suo possesso), ma che garantisce la massima tutela possibile al proprietario.

PDF Redact Tools

Chiarite le differenze tra i due termini, vediamo come è possibile implementare l’anonimizzazione dei contenuti riservati all’interno di un file PDF.

Volendo escludere l’utilizzo di software automatizzati, che prevedono una progettazione ad-hoc piuttosto sofisticata e richiedono investimenti spesso non indifferenti, il modo più veloce per soddisfare questa esigenza è l’utilizzo della funzionalità nota come PDF Redact Tools (tradotta in italiano come strumenti Redigi), disponibile a partire da Adobe Acrobat X Pro ma di fatto presente anche all’interno di software più economici.

Si tratta di una funzione che consente di svolgere due attività funzionali alla rimozione di contenuti riservati all’interno di un PDF:

  • eliminare in modo permanente qualsiasi porzione del PDF (testo, immagini, link, etc.) utilizzando dei rettangoli di colore personalizzabile: è importante sottolineare che non si tratta di elementi grafici “sovrapposti” ai contenuti che si desidera nascondere, ma di una modifica permanente e non reversibile del file. In altre parole, una volta salvato il file risultante, non sarà più possibile rimuovere quei rettangoli e/o recuperare i contenuti su cui sono stati apposti, neanche aprendo il file con altri software o utilizzando applicativi che consentono di modificare i contenuti dei file PDF. Questa attività deve necessariamente essere svolta manualmente da un operatore, in quanto il software non ha modo di distinguere i contenuti pubblicamente accessibili da quelli potenzialmente riservati.
  • rimuovere in modo permanente i metadati del documento, che non di rado contengono informazioni personali (come ad esempio il nome dell’autore del documento, riferimenti a e-mail o siti web all’interno di moduli e/o codice JavaScript, etc.). Questa attività può avvenire in modo automatico, rimuovendo tutti i metadati presenti nel documento, o manuale, selezionando quali metadati eliminare e quali lasciare.

L’irreversibilità delle operazioni di cancellazione compiute con PDF Redact Tools è descritta da Adobe nell’articolo Removing sensitive content from PDFs (clicca qui per la versione in lingua italiana) e ulteriormente garantita da un case-study realizzato dalla National Security Agency (USA) che analizza le caratteristiche di sicurezza della funzionalità.

PDF Redact con Adobe Acrobat Pro

Il software ad oggi più diffuso che consente di utilizzare la funzionalità PDF Redact Tools è senza dubbio Adobe Acrobat Pro DC, acquistabile con una licenza mensile (18,29 EUR/mese) e disponibile in versione di prova per 7 giorni (try before buy). Per una guida completa all’utilizzo dei PDF Redact Tools con Adobe Acrobat Pro DC rimandiamo al seguente articolo:

PDF Redact con Kofax PowerPDF

Kofax PowerPDF è un software di elaborazione e modifica di documenti PDF che mette a disposizione la maggior parte delle funzionalità di Adobe Acrobat Pro DC con un licensing plan decisamente più abbordabile: la versione che consente l’utilizzo della funzionalità PDF Redact Tools è la Advanced, il cui costo è pari a 179 EUR una tantum, disponibile in versione di prova per 15 giorni. Per una guida completa all’utilizzo dei PDF Redact Tools con Kofax PowerPDF rimandiamo al seguente articolo:

Conclusioni

Per il momento è tutto: ci auguriamo che questa serie di articoli possa essere di aiuto a chiunque sia alla ricerca di un metodo efficace per eliminare contenuti riservati e/o dati personali all’interno dei propri file PDF, così da poterli condividere senza mettere a rischio la privacy dei diretti interessati.

 

About Ryan

IT Project Manager, Web Interface Architect e Lead Developer di numerosi siti e servizi web ad alto traffico in Italia e in Europa. Dal 2010 si occupa anche della progettazione di App e giochi per dispositivi Android, iOS e Mobile Phone per conto di numerose società italiane. Microsoft MVP for Development Technologies dal 2018.

View all posts by Ryan

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.