PHP - Come eliminare i caratteri non validi da un file o stringa XML in formato UTF-8

6 February 201722 January 2019 - by Ryan - 40 Comments. 6.2K

Ieri ho scritto due righe su un metodo PHP per eliminare l'header e il footer di un file XML.P7M firmato elettronicamente (a patto che sia in formato CAdES). Pur trattandosi di un metodo non particolarmente elegante, possiamo dire che svolge egregiamente il suo lavoro, consentendo di eliminare dal file in questione l'header e il footer contenenti le informazioni relative alla firma.

Oggi verserò un altro tributo alle funzioni "brutte ma (almeno) funzionanti" pubblicando anche la funzione che ho sviluppato a corredo della precedente per ripulire il contenuto del suddetto file da caratteri XML non validi, così da poter utilizzare la stringa risultante come parametro per la creazione di di un oggetto SimpleXML:

/**
 * Removes invalid characters from a UTF-8 XML string
 *
 * @access public
 * @param string a XML string potentially containing invalid characters
 * @return string
 */
function sanitizeXML($string)
{
    if (!empty($string)) 
    {
        // remove EOT+NOREP+EOX|EOT+<char> sequence (FatturaPA)
        $string = preg_replace('/(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)/u', '', $string);

        $regex = '/(
            [\xC0-\xC1] # Invalid UTF-8 Bytes
            | [\xF5-\xFF] # Invalid UTF-8 Bytes
            | \xE0[\x80-\x9F] # Overlong encoding of prior code point
            | \xF0[\x80-\x8F] # Overlong encoding of prior code point
            | [\xC2-\xDF](?![\x80-\xBF]) # Invalid UTF-8 Sequence Start
            | [\xE0-\xEF](?![\x80-\xBF]{2}) # Invalid UTF-8 Sequence Start
            | [\xF0-\xF4](?![\x80-\xBF]{3}) # Invalid UTF-8 Sequence Start
            | (?<=[\x0-\x7F\xF5-\xFF])[\x80-\xBF] # Invalid UTF-8 Sequence Middle
            | (?<![\xC2-\xDF]|[\xE0-\xEF]|[\xE0-\xEF][\x80-\xBF]|[\xF0-\xF4]|[\xF0-\xF4][\x80-\xBF]|[\xF0-\xF4][\x80-\xBF]{2})[\x80-\xBF] # Overlong Sequence
            | (?<=[\xE0-\xEF])[\x80-\xBF](?![\x80-\xBF]) # Short 3 byte sequence
            | (?<=[\xF0-\xF4])[\x80-\xBF](?![\x80-\xBF]{2}) # Short 4 byte sequence
            | (?<=[\xF0-\xF4][\x80-\xBF])[\x80-\xBF](?![\x80-\xBF]) # Short 4 byte sequence (2)
        )/x';
        $string = preg_replace($regex, '', $string);

        $result = "";
        $current;
        $length = strlen($string);
        for ($i=0; $i < $length; $i++)
        {
            $current = ord($string{$i});
            if (($current == 0x9) ||
                ($current == 0xA) ||
                ($current == 0xD) ||
                (($current >= 0x20) && ($current <= 0xD7FF)) ||
                (($current >= 0xE000) && ($current <= 0xFFFD)) ||
                (($current >= 0x10000) && ($current <= 0x10FFFF)))
            {
                $result .= chr($current);
            }
            else
            {
                $ret;    // use this to strip invalid character(s)
                // $ret .= " ";    // use this to replace them with spaces
            }
        }
        $string = $result;
    }
    return $string;
}

/**

* Removes invalid characters from a UTF-8 XML string

* @access public

* @param string a XML string potentially containing invalid characters

* @return string

function sanitizeXML($string)

{

if (!empty($string))

{

// remove EOT+NOREP+EOX|EOT+<char> sequence (FatturaPA)

$string = preg_replace('/(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)/u', '', $string);

$regex = '/(

[\xC0-\xC1] # Invalid UTF-8 Bytes

| [\xF5-\xFF] # Invalid UTF-8 Bytes

| \xE0[\x80-\x9F] # Overlong encoding of prior code point

| \xF0[\x80-\x8F] # Overlong encoding of prior code point

| [\xC2-\xDF](?![\x80-\xBF]) # Invalid UTF-8 Sequence Start

| [\xE0-\xEF](?![\x80-\xBF]{2}) # Invalid UTF-8 Sequence Start

| [\xF0-\xF4](?![\x80-\xBF]{3}) # Invalid UTF-8 Sequence Start

| (?<=[\x0-\x7F\xF5-\xFF])[\x80-\xBF] # Invalid UTF-8 Sequence Middle

| (?<![\xC2-\xDF]|[\xE0-\xEF]|[\xE0-\xEF][\x80-\xBF]|[\xF0-\xF4]|[\xF0-\xF4][\x80-\xBF]|[\xF0-\xF4][\x80-\xBF]{2})[\x80-\xBF] # Overlong Sequence

| (?<=[\xE0-\xEF])[\x80-\xBF](?![\x80-\xBF]) # Short 3 byte sequence

| (?<=[\xF0-\xF4])[\x80-\xBF](?![\x80-\xBF]{2}) # Short 4 byte sequence

| (?<=[\xF0-\xF4][\x80-\xBF])[\x80-\xBF](?![\x80-\xBF]) # Short 4 byte sequence (2)

)/x';

$string = preg_replace($regex, '', $string);

$result = "";

$current;

$length = strlen($string);

for ($i=0; $i < $length; $i++)

{

$current = ord($string{$i});

if (($current == 0x9) ||

($current == 0xA) ||

($current == 0xD) ||

(($current >= 0x20) && ($current <= 0xD7FF)) ||

(($current >= 0xE000) && ($current <= 0xFFFD)) ||

(($current >= 0x10000) && ($current <= 0x10FFFF)))

{

$result .= chr($current);

}

else

{

$ret; // use this to strip invalid character(s)

// $ret .= " "; // use this to replace them with spaces

}

$string = $result;

}

return $string;

}

Il codice di cui sopra è fortemente basato sul contenuto di due risposte presenti sul sito StackOverflow, per la precisione questa e questa: riconoscimenti e ringraziamenti vanno pertanto ai rispettivi autori. Come è possibile vedere, si tratta di una regexp che elimina tutti i caratteri non UTF-8, seguita da un approccio iterativo char-by-char che elimina tutti i caratteri non considerati validi in un contenuto XML. Nello specifico, ho dovuto utilizzare entrambi gli approcci poiché i file XML che dovevo processare erano affetti da entrambi i problemi.

Come ho detto sopra, si tratta di un metodo piuttosto brutto a vedersi e altamente inefficiente, probabilmente persino più di quello pubblicato in precedenza... Ma nonostante questo si è rivelato perfettamente adatto allo scopo, motivo per cui - vista l'esigua quantità di tempo a disposizione - non mi sono fatto scrupoli a utilizzarlo, almeno come workaround temporaneo in attesa di tempi migliori.

A tal proposito, se a qualcuno venisse l'idea (e la voglia) di fare di meglio, accetterò volentieri il suo suggerimento.... Fino ad allora, direi che il "double-clawed hammer" del PHP ha colpito ancora!

Prometto solennemente di non usarlo più per un pò... :)

Print Friendly & PDF Download

About Ryan

IT Project Manager, Web Interface Architect e Lead Developer di numerosi siti e servizi web ad alto traffico in Italia e in Europa. Dal 2010 si occupa anche della progettazione di App e giochi per dispositivi Android, iOS e Mobile Phone per conto di numerose società italiane. Microsoft MVP for Development Technologies dal 2018.

View all posts by Ryan →

40 Comments on “PHP - Come eliminare i caratteri non validi da un file o stringa XML in formato UTF-8”

Pingback: PHP - Estrarre il contenuto XML da un file XML.P7M (CAdES, Fattura PA)
aurelio says:

15 January 2019 at 15:48

Grazie per la routine… c’è ancora un carattere che non viene eliminato e che viene identificato con
82
00
Sai come si può eliminare?
Grazie

Reply
1. Ryan says:
  
  22 January 2019 at 13:13
  
  Ciao Aurelio,
  vedi risposta a Davide, dovrebbe valere anche nel tuo caso.
  
  Reply
Davide says:

15 January 2019 at 18:19

Buongiorno, grazie per il codice. Avrei una domanda: con alcuni file P7M non riscontro alcun problema, con altri mi ritrovo con tag modificati nell’XML che impediscono il corretto uso di simplexml_load_string. Ad esempio alcune volte mi ritrovo con </Aliqu/otaIVA>, altre con </FatturaEl&ettronicaBody>, altre ancora con . Come posso ovviare? Grazie

Reply
1. Ryan says:
  
  22 January 2019 at 01:56
  
  Ciao Davide,
  
  conosciamo bene il problema che citi, relativo alla sequenza di EOT+NOREP+EOX|EOT+ utilizzata per segmentare i file P7M/CAdES. La prima regex che trovi all’interno della funzione PHP presente in questo articolo dovrebbe essere sufficiente a risolvere il problema:
  
  $string = preg_replace(‘/(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)/u’, ”, $string)
  
  Puoi testarla online con i tuoi file/testi qui:
  https://www.phpliveregex.com/p/qFD
  
  Se per caso non ti dovesse funzionare, prova a utilizzare questo metodo alternativo:
  
  mb_regex_encoding(‘UTF-8’);
  $string = mb_eregi_replace(‘(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)’, ”, $string);
  
  Facci sapere!
  
  Reply
  1. Davide says:
    
    22 January 2019 at 16:47
    
    Provate entrambe ma senza successo. Ho risolto passando il contenuto in un nuovo DomDocument con recover true in modo da “pulire” gli errori e ottenere l’XML ben formattato finale. Sto testando in questi giorni per vedere se emergono problemi, al momento va. Grazie
    
    Reply
ERS says:

22 January 2019 at 00:51

questo funziona su Linux
$string = preg_replace(‘/\x{0004}[\x{201A}\x{FFFD}][\x{0003}\x{0004}]./u’, ”, $string);
ma non funziona su windows.
Qualche idea?

Reply
1. Ryan says:
  
  22 January 2019 at 02:00
  
  Non saprei. Che errore dà esattamente? Che versione di PHP e di PCRE? (phpinfo per vedere entrambe)
  
  Eventualmente prova a provare questo metodo alternativo:
  
  mb_regex_encoding(‘UTF-8’);
  $string = mb_eregi_replace(‘(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)’, ”, $string);
  
  Fammi sapere.
  
  Reply
  1. Marco says:
    
    22 January 2019 at 10:54
    
    TESTO</T‚~ipoDato>
    
    il carattere ~ non viene eliminato. Avreste delle soluzioni?
    
    Grazie
    
    Reply
    1. Ryan says:
      
      22 January 2019 at 13:16
      
      Ciao,
      
      stesso caso di Davide e di ERS, il tuo problema è legato alla sequenza di separazione che prevede 4 caratteri che dovrebbero essere eliminati dalle regex che ho consigliato di utilizzare e che trovi nelle altre risposte. Se riscontri ancora problemi dopo averle provate entrambe, mandaci il file che non funziona (eventualmente epurato dei dati personali) e provvederemo ad analizzare il caso specifico.
      
      Reply
      1. Michele says:
        
        22 January 2019 at 16:39
        
        purtroppo mi restituisce una stringa vuota utilizzando sia
        mb_regex_encoding(‘UTF-8’);
        $string = mb_eregi_replace(‘(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)’, ”, $string);
        e sia
        preg_replace(‘/(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)/u’, ”, $string);
        utilizzo PHP7
      2. Michele says:
        
        22 January 2019 at 16:42
        
        scusa specifico che utilizzo
        PHP 7.1.23 e PCRE 8.38 2015-11-23 su sistema Linux
  2. ERS says:
    
    23 January 2019 at 01:00
    
    Grazie per l’aiuto, questo ha funzionato perfettamente su Windows xampplite con php ver. 5.31:
    mb_regex_encoding(‘UTF-8’);
    $string = mb_eregi_replace(‘(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)’, ”, $string);
    il problema che riscontravo era diverso la precedente linea:
    $string = preg_replace(‘/\x{0004}[\x{201A}\x{FFFD}][\x{0003}\x{0004}]./u’, ”, $string);
    che mi restituiva $string = ” dopo essere richiamata.
    Su Liunx con php 5.51 invece sia la vecchia che la nuova riga di codice funzionano.
    Preciso che su tutti i file fatture su cui ho fatto i test risultavano tutti encode in base64, per cui ho dovuto eseguire prima:
    $string = base64_decode($string);
    anche se non dovrebbe essere di rilievo la successiva funzione sanitizeXML
    Grazie ancora.
    
    Reply
ERS says:

23 January 2019 at 01:01

Grazie per l’aiuto, questo ha funzionato perfettamente su Windows xampplite con php ver. 5.31:
mb_regex_encoding(‘UTF-8’);
$string = mb_eregi_replace(‘(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)’, ”, $string);
il problema che riscontravo era diverso la precedente linea:
$string = preg_replace(‘/\x{0004}[\x{201A}\x{FFFD}][\x{0003}\x{0004}]./u’, ”, $string);
che mi restituiva $string = ” dopo essere richiamata.
Su Liunx con php 5.51 invece sia la vecchia che la nuova riga di codice funzionano.
Preciso che su tutti i file fatture su cui ho fatto i test risultavano tutti encode in base64, per cui ho dovuto eseguire prima:
$string = base64_decode($string);
anche se non dovrebbe essere di rilievo la successiva funzione sanitizeXML
Grazie ancora.

Reply
1. Michele says:
  
  23 January 2019 at 10:07
  
  a me continua a restituire $string=” e non so più dove sbattere la testa
  
  Reply
  1. Ryan says:
    
    23 January 2019 at 19:26
    
    Prova a dare un’occhiata alla risposta di Davide poco sopra:
    
    “Ho risolto passando il contenuto in un nuovo DomDocument con recover true in modo da “pulire” gli errori e ottenere l’XML ben formattato finale. Sto testando in questi giorni per vedere se emergono problemi, al momento va. Grazie”
    
    Il workaround che lui propone dovrebbe essere grossomodo così:
    
    function simplexml_load_string_safe($string)
    {
    libxml_use_internal_errors(true);
    $d = new DOMDocument(“1.0”, “UTF-8”);
    $d->strictErrorChecking = false;
    $d->validateOnParse = false;
    $d->recover = true;
    $d->loadXML(sanitizeXML($string));
    $x = simplexml_import_dom($d);
    libxml_clear_errors();
    libxml_use_internal_errors(false);
    return $x;
    }
    
    Prova e facci sapere!
    
    Reply
    1. Attilio says:
      
      29 January 2019 at 11:33
      
      Io ho questo problema:
      
      usando la tua soluzione postata fino a qualche settimana fa senza la correzione ottenevo:
      
      <AltxriDatiGestionali> <TipoDato>Targa</TipoDato> <RiferimentoTesto>AB123CD</RiferimentoTesto> </AltriDatiGestionali>
      
      Se noti c’è una X nel primo Altri dati gestionali (questo dopo averlo corretto con la funzione prima in quel punto c’erano altri caratteri non UTF).
      
      Se provo con $string = preg_replace(‘/\x{0004}[\x{201A}\x{FFFD}][\x{0003}\x{0004}]./u’, ”, $string); ottengo stringa vuota.
      
      Se uso il workaround di DAVIDE mi propone l’errore in entrambi i TAG
      
      Targa
      AB123CD
      
      Sono spalle al muro eheh :) se volete posso condividere il mio file per farvi fare qualche prova anche a voi.
      
      https://www.dropbox.com/s/c93clcw5n1h4jkp/IT01234567890_1AX0J.xml.p7m?dl=0
      
      Reply
      1. Ryan says:
        
        29 January 2019 at 21:44
        
        Ciao Davide,
        
        Ho provato a convertire il tuo file con tutti i software che abbiamo realizzato ultimamente per convertire P7M (PHP, C# ed Electron/Javascript): tutto ok, nessun errore. Nello specifico, con PHP sto usando la seguente (già più volte consigliata in questi commenti):
        
        $string = mb_eregi_replace(‘(\x{0004}(?:\x{201A}|\x{FFFD})(?:\x{0003}|\x{0004}).)’, ”, $string);
        
        facci sapere!
2. Ryan says:
  
  23 January 2019 at 19:38
  
  Di nulla! Se ti fa piacere, mettici un like :)
  
  Reply
  1. ERS says:
    
    27 January 2019 at 10:36
    
    :) :) .)
    
    Reply
Marco Spinelli says:

30 January 2019 at 17:29

$string = preg_replace(‘/\x{0004}[\x{201A}\x{FFFD}][\x{0003}\x{0004}]./u’, ”, $string);

mi restituisce una stringa vuota.

L’altro metodo sembra funzioni per EOT+ETX, ma non per EOT+

Reply
1. Ryan says:
  
  30 January 2019 at 21:15
  
  Non ho letto la conclusione del tuo commento, comunque prova questa RegEx meno permissiva al posto della precedente:
  
  /\x{0004}[\x{201A}\x{FFFD}][\x{0001}\x{0002}\x{0003}\x{0004}\x{0005}\x{0006}\x{0007}]./u
  
  Fammi sapere
  
  Reply
Marco Spinelli says:

31 January 2019 at 10:24

Purtroppo non è cambiato niente. Se uso
$string = preg_replace(‘/\x{0004}[\x{201A}\x{FFFD}][\x{0001}\x{0002}\x{0003}\x{0004}\x{0005}\x{0006}\x{0007}]./u’,”, $string);

ottengo una stringa vuota. Se uso
mb_regex_encoding(‘UTF-8’);
$string = mb_eregi_replace(‘(/\x{0004}[\x{201A}\x{FFFD}][\x{0001}\x{0002}\x{0003}\x{0004}\x{0005}\x{0006}\x{0007}].)’,”, $string);

EOT+char non viene eliminato

Reply
1. Ryan says:
  
  31 January 2019 at 11:04
  
  Occhio che nella mb_eregi_replace che stai utilizzando hai un carattere non valido (la / iniziale): riprova eliminandolo
  
  Reply
  1. Marco Spinelli says:
    
    31 January 2019 at 11:19
    
    Purtroppo non cambia nulla.
    
    Reply
  2. Marco Spinelli says:
    
    1 February 2019 at 16:04
    
    Ho inserito
    mb_eregi_replace(‘(\x{0004}.)’,”, $string);
    
    all’inizio, prima ancora dell’eliminazione dell’header della firma digitale. Questo perchè mi sono trovato un caso in cui il carattere dopo EOT era un new line, per cui comportava un errore anche durante la rimozione del footer della firma.
    
    Al momento sembra funzionare alla perfezione, per lo meno con le fatture che ho ricevuto fin ora, da una ventina di fornitori diversi.
    
    Reply
ERS says:

4 February 2019 at 11:34

Buongiorno, rivolgo una domanda che apparentemente sembra non pertinente: la fatture che mi sono state trasmesse da SDI (in realtà giunte tutte tramite PEC a più soggetti che usano un mio script in php, fatto per mio uso nel lontano 2004 aggiornato poi per hobby, ed integrato con la fattura elettronica) mi sono giunte tutte base64 encode, vi risulta che l’encode sia fatto da SDI su tutte le fatture?
A scopo di informazione generale, il mio script si collega direttamente alla casella PEC e sfruttando anche l’ottimo script di Ryan scarica ed elabora le fatture passive. Su una casistica di 400 fatture ricevute (forse più) al momento solo su 4 fatture firmate CADES permangono caratteri non validi UTF8 presenti all’interno dei tag e nei valori contenuti nei tag, facendo fallire l’importazione.
Ieri sera ho individuato una strada alternativa, che ha avuto un primo esito positivo su uno dei 4 file, devo testarla su altri questa sera (e metterla in bella), rimanete connessi. Chiedo a tutti di rispondere al mio quesito poter farmi concludere il mio test e condividere delle info corrette.
Grazie a tutti

Reply
ERS says:

4 February 2019 at 23:10

Ho provato e: FUNZIONA! (testato solo su LINUX)
Come estrarre un file FATTURA.xml.p7m con caratteri UTF8 non validi nel corpo della fattura.
L’approccio è all’opposto del presente articolo: ossia ottenere i certificati ed estrarre il file XML in chiaro usando detti certificati.
Passo 1 ricavato dal seguente link
https://quoll.it/firma-digitale-p7m-come-estrarre-il-contenuto/
usare da terminale:
wget -O – https://applicazioni.cnipa.gov.it/TSL/IT_TSL_signed.xml | perl -ne ‘if (//) {
s/^\s+//; s/\s+$//;
s/<\/*X509Certificate>//g;
print “—–BEGIN CERTIFICATE—–\n”;
while (length($)>64) {
print substr($,0,64).”\n”;
$=substr($,64);
}
print $.”\n”;
print “—–END CERTIFICATE—–\n”;
}’ >CA.pem

Otteniamo così in CA.pem il file con tutti i certificati
da terminale potremmo ottenere subito il file fattura in chiaro usando il seguente comando:
openssl smime -in IT01234567890_flkab.xml.p7m -inform DER -verify -noverify -CAfile CA.pem -out IT01234567890_flkab.xml

in php abbiamo bisogno di qualche passaggio in più, ecco lo script che ho usato:

// funzione che inserisce MIME nel file p7m
function der2smime($file) {
$to=<<<TXT
MIME-Version: 1.0
Content-Disposition: attachment; filename=”smime.p7m”
Content-Type: application/x-pkcs7-mime; smime-type=signed-data; name=”smime.p7m”
Content-Transfer-Encoding: base64
\n
TXT;
$from=file_get_contents($file);
$to.=chunk_split(base64_encode($from));
// memorizza file senza .p7m
return file_put_contents(substr($file,0,-4),$to);
}

$file = “dati/IT01234567890_flkab.xml.p7m”;
$file_no_p7m = substr($file,0,-4);
$ver_p7m = der2smime($file);
// ora esegue la messa in chiaro
// carica $file_no_p7m che ora ha il MIME
// usa i certificati in CA.pem
// sovrascrive $file_no_p7m con il file XML in chiaro
$status = openssl_pkcs7_verify ($file_no_p7m, PKCS7_NOVERIFY, ‘dati/NULL.pem’ ,array(“dati/CA.pem”),”dati/CA.pem”, $file_no_p7m);

echo ‘status: ‘ . $status . ”;
// 1 = operazione avvenuta con successo
exit();

Otteniamo quindi in IT01234567890_flkab.xml il file XML in chiaro al 100% senza potenziali caratteri UTF8 non rimossi!
Grazie a tutti

Reply
1. Marco Spinelli says:
  
  5 February 2019 at 12:15
  
  In teoria se estraggo il certificato tramite una applicazione windows il risultato dovrebbe essere lo stesso? Ho provato, ma non funziona.
  
  Reply
  1. ERS says:
    
    5 February 2019 at 14:05
    
    Questa sera provo e ti faccio sapere: hai dato una path assoluta a CA.pem sotto windows? Es. C:\xammp\htdocs\tua_dir\dati
    
    Reply
  2. ERS says:
    
    5 February 2019 at 14:08
    
    Forse ho capito male, con che applicazione windows?
    
    Reply
    1. Marco Spinelli says:
      
      5 February 2019 at 14:39
      
      Ho usato Dike, con cui è possibile esportare il certificato incluso in un file P7m. Poi ho copiato il file ottenuto sul server e ho fatto girare lo script php.
      
      Reply
      1. ERS says:
        
        5 February 2019 at 14:58
        
        Tieni conto che questo script è solo per i file XML.p7m firmato con i caratteri utf8 non validi ossia con certificato PEM, non funziona con file XML.p7m senza caratteri utf8 non validi che sono firmati DER, per questi serve uno script con una leggera modifica in quanto il certificato è incluso nel file XML.p7m stesso e non è contenuto nel CA.pem in questo caso restituisce -1,
        Non so dirti se da Dike esporti il file CA.pem nel formato atteso da openssl_pkcs7_verify di PHP, di massima direi di NO rileggendo il sito segnalato da cui ho estratto le info. Prova ad aprire il tuo CA.pem se non presenta ricorsive le righe —- BEGIN CERTIFICATE —– —- END CERTIFICATE —-
        Direi che non è compatibile con lo script in PHP e va trasformato
  3. ERS says:
    
    5 February 2019 at 14:46
    
    Quello era uno script per PERL
    
    Questo da terminale di linux:
    
    wget -O – https://applicazioni.cnipa.gov.it/TSL/IT_TSL_signed.xml | perl -ne ‘if (//) {
    s/^\s+//; s/\s+$//;
    s/<\/*X509Certificate>//g;
    print “—–BEGIN CERTIFICATE—–\n”;
    while (length($)>64) {
    print substr($,0,64).”\n”;
    $=substr($,64);
    }
    print $.”\n”;
    print “—–END CERTIFICATE—–\n”;
    }’ >CA.pem
    
    Eventualmente il file CA.pem si può condividere sono 400k oppure penso che Ryan possa tradurlo in uno script per windows. Linux è comodo perché include tutti questi linguaggi di sviluppo senza ricorrere ad altre applicazioni.
    
    Reply
    1. Marco Spinelli says:
      
      5 February 2019 at 15:28
      
      Dunque. Il file su cui sto facendo i test ha i caratteri non validi. Però ho provato lo script usando il certificato estratto dal file stesso. Potrebbe essere questo il problema?
      
      Dike estrae un file .cer, e contiene —- BEGIN CERTIFICATE —– —- END CERTIFICATE —-, per cui ho provato semplicemente a rinominarlo .pem, come suggerito da qualcuno in rete. Ho provato a leggerlo con la funzione openssl_x509_parse e non riscontro problemi.
      
      P.S. si può estrarre il certificato dal file tramite PHP?
      
      Reply
      1. ERS says:
        
        5 February 2019 at 23:45
        
        Il file CA.pem contiene generato come spiegato contiene circa 300 certificati, non solamente uno. Detti certificati si abbinano al file xml con firma CADES. Provato anche stasera ed ho risolto per altri 2 file che contenevano caratteri UTF8 non validi. Con sanitizeXML non riuscivo a rimuoverli, segui la procedura che ho spiegato e vedrai che funziona. Attendo il commento di Ryan.
        Ciao
    2. Ryan says:
      
      6 February 2019 at 00:50
      
      Grazie a tutti per i preziosissimi contributi: aggiungo i miei finding personali al netto di circa 3000 fatture testate nelle ultime settimane/mesi e dei conseguenti progressi che ho fatto a mia volta (parliamo pur sempre di un articolo scritto più di 2 anni fa).
      
      Il metodo “openssl” (di cui esiste una funzione nativa, un porting o un’alternativa di terze parti in tutti i principali linguaggi – al momento ho trovato come fare in PHP, Electron/NodeJS e ASP.NET C#) è ottimo per i file PKCS#7/DER ASN.1 compliant, che poi sono quelli che hanno il payload XML diviso in segmenti (i più ostici da affrontare con le RegExp): questo metodo converte circa l’80% dei file di cui attualmente dispongo, quindi è la prima cosa che tento (chiamiamolo TRY #1). N.B.: a seconda del linguaggio (e/o della libreria PKCS#7 utilizzata) può o meno essere necessario fare un Convert.FromBase64 nel caso dei file codificati in Base64.
      
      per il 20% dei file restanti (quelli non ASN.1 compliant) al momento sto utilizzando le funzioni e le regexp già pubblicate in questo post, che in quei casi funzionano bene anche perché i suddetti file non hanno il problema dei separatori – anche se un passaggio di mb_eregi_replace(‘(\x{0004}.)’,”, $string) al momento lo sto facendo comunque per sicurezza. Questa procedura di fallback l’ho chiamata TRY #2.
      
      Unendo TRY #1 e TRY #2 al momento non riscontro errori su circa 3000 fatture (Base64 e non, ASN1 compliant e non, etc.), a parte qualche sporadico caso di formattazione errata all’origine: se ne avete qualcuna che risulta “immune” da entrambi i passaggi, fatemi sapere e (se potete epurarla dei dati personali) mandatemela pure!
      
      N.B.: Non dovendo mai verificare la validità dell’issuer, al momento non sto utilizzando la conversione da PEM (con file CA.pem), che comunque è certamente un’ottima aggiunta al codice… a patto di trovare il modo di scaricarlo in automatico, così da tenerlo sempre aggiornato. In un applicativo “automatizzato” dove la connessione a internet non è garantita questo potrebbe essere un problema, rendendo paradossalmente preferibile il TRY #2: sfortunatamente, per così dire, è proprio il mio caso, o per meglio dire il presupposto originario di questo articolo. Se questo problema non c’è, il decrypt da PEM andrebbe idealmente a sostituire il TRY #2 (che a quel punto diventerebbe il TRY #3 o potrebbe anche essere omesso). A quel punto la routine farebbe grossomodo le stesse cose che fanno i software come Dike et sim. – che infatti, non a caso, scaricano periodicamente l’elenco dei certificati aggiornati.
      
      Fonti: https://tools.ietf.org/html/rfc5652#section-5 e seg.
      
      Fatemi sapere cosa ne pensate!
      
      Reply
      1. Marco Spinelli says:
        
        6 February 2019 at 10:03
        
        Potresti condividere il TRY#1 per PHP? Ho provato ma le mie conoscenze non sono all’altezza.
      2. ERS says:
        
        8 February 2019 at 23:36
        
        Colgo nuovamente l’occasione per ringraziare Ryan e tutti gli intervenuti che mi hanno aiutato a districarmi in quello che stava diventando un “mal di testa”. Il mio script preleva le Fatture direttamente dalla PEC per cui do per certo che sia presente un collegamento alla rete. Quindi più che giusta l’osservazione che è necessario avere sempre un file CA.pem aggiornato.
        COME CREARE IL FILE CA.pem AUTOMATICAMENTE
        Lo script PHP che segue crea il file CA.pem prelevando la chiave pubblica direttamente dall’ente:
        loadXML($string);
        $X509Certificate = $dom->getElementsByTagName(‘X509Certificate’);
        // metto in s nel ciclo while di dati estratti dal DOM
        $s = ”;
        foreach ($X509Certificate as $v) {
        $i = 1;
        $s .= “—–BEGIN CERTIFICATE—–\n”;
        while(strlen($v->nodeValue) > (64 * $i)) {
        $s .= substr($v->nodeValue, ($i – 1) * 64, 64) . “\n”;
        $i++;
        }
        // aggiunge il resto
        $s .= substr($v->nodeValue, ($i – 1) * 64, 64) . “\n”;
        $s .= “—–END CERTIFICATE—–\n”;
        }
        // scrivo s nel file CA.pem
        file_put_contents(‘CA.pem’, $s);
        exit();
        ?>
        Questo a probabile conclusione della TRY #2.
        Ringrazio nuovamente Ryan e spero ci sia modo di confrontarci nuovamente in futuro.
ERS says:

8 February 2019 at 23:39

Era sparito un pezzo di codice
[php
// crea una copia di backup di CA.pem – non si sa mai servisse
if (file_exists(‘CA.pem’)) copy (‘CA.pem’,’Ca.pem.bak’);
$fileCA = ‘https://applicazioni.cnipa.gov.it/TSL/_IT_TSL_signed.xml’;
$string = file_get_contents($fileCA);
$dom = new DOMDocument;
$dom->loadXML($string);
$X509Certificate = $dom->getElementsByTagName(‘X509Certificate’);
// metto in s nel ciclo while di dati estratti dal DOM
$s = ”;
foreach ($X509Certificate as $v) {
$i = 1;
$s .= “—–BEGIN CERTIFICATE—–\n”;
while(strlen($v->nodeValue) > (64 * $i)) {
$s .= substr($v->nodeValue, ($i – 1) * 64, 64) . “\n”;
$i++;
}
// aggiunge il resto
$s .= substr($v->nodeValue, ($i – 1) * 64, 64) . “\n”;
$s .= “—–END CERTIFICATE—–\n”;
}
// scrivo s nel file CA.pem
file_put_contents(‘CA.pem’, $s);
]
exit();

Reply