Data Science: cos’è, a cosa serve, perché è fondamentale Panoramica sulla Scienza dei Dati, l'approccio multidisciplinare per estrarre significato e valore dalle informazioni che ci circondano

Data Science: cos'è, a cosa serve, perché è fondamentale

In questo articolo ci dedicheremo ad approfondire il moderno concetto di Data Science (in italiano “Scienza dei Dati”), termine che raggruppa una pluralità di discipline e metodologie che hanno lo scopo di interpretare ed estrarre conoscenza e valore dai dati.

Come sempre in questi casi cominceremo dalla definizione, per poi concentrarci sulla genesi del termine e sulla sua evoluzione fino al periodo attuale: dopo questo excursus ci dedicheremo a spiegare le ragioni per cui i dati sono diventati così importanti negli ultimi anni e ad analizzare le principali tecniche utilizzate dai Data Scientist per valorizzarne il contenuto; nell’ultima parte dell’articolo proveremo a riassumere le finalità di questo tipo di ricerca e i collegamenti a filo doppio con le moderne tecnologie IT come il Machine Learning.

Definizione

Trovare una definizione adeguata per una disciplina poliedrica e articolata come la Scienza dei Dati non è facile: il modo migliore di procedere è probabilmente quello di mettere a fuoco i suoi obiettivi principali. Lo scopo della data science, come abbiamo già detto, è quello di estrarre valore dai dati. Ottenere questo risultato in una realtà complessa e ricca di informazioni come la nostra non è un compito facile, visto che siamo tutti letteralmente circondati dai dati: un flusso costante di informazioni che aumenta anno dopo anno grazie al proliferare di social network, app di comunicazione, strumenti di analisi e software sempre più evoluti.

Questo significa che uno dei primi (e più grandi) problemi che il data scientist si troverà ad affrontare sarà quello di gestire in modo efficiente questa mole di informazioni, separando quelle “utili” da quelle non rilevanti. Ma la rilevanza di un dato è inevitabilmente soggettiva, in quanto strettamente legata agli scopi che l’analisi di volta in volta si propone; e non è neppure semplice da misurare, in quanto l’incidenza di un dato su un determinato evento è un fattore nient’affatto facile da valutare e parametrare, poiché dipende da una catena di rapporti di causa-effetto che non può essere “mappata” se non adottando un approccio multidisciplinare. Per questo motivo il data scientist potrebbe aver bisogno di strumenti di rilevazione scientifici ma anche del fondamentale apporto delle scienze sociali; di algoritmi informatici, statistici e matematici, ma anche di modelli psicologici e comportamentali, a seconda della provenienza dei dati stessi.

Tutte queste considerazioni ci portano a proporre la seguente definizione: La Data Science, o Scienza dei Dati, è l’insieme di principi metodologici e tecniche multidisciplinari volto a interpretare ed estrarre conoscenza dai dati mediante l’utilizzo di strumenti di analisi adeguati alla loro origine. Per dotarsi di questi “strumenti adeguati” al data scientist è dunque richiesta un’ampia gamma di competenze: dal web agli smartphone, dall’hardware al software, dai fornitori di servizi ai loro clienti, dagli algoritmi utilizzati dai servizi web alle modalità di fruizione degli utenti, e così via.

Dalle origini al periodo attuale

Il termine data science è stato introdotto per la prima volta nel 1974 dall’informatico danese Peter Naur nel suo libro Concise Survey of Computer Methods: si tratta, come spiega lo stesso Naur, dell’evoluzione del concetto di datalogy da lui utilizzato in precedenza (The science of datalogy, in Communications of the ACM, 1966): tuttavia, si tratta di una definzione piuttosto lontana dal significato attuale del termine, in quanto principalmente relativa alla gestione e alla manipolazione dei dati; in altre parole, non vi era ancora quell’interesse per le possibilità di estrarre valore dai dati destinato a diventare preminente nei decenni successivi.

Per quel tipo di accezione occorre attendere il 2001, anno in cui William Cleveland, professore di statistica e informatica presso la Purdue University, ne delineò i sei principali ambiti di competenza: ricerca multidisciplinare, modelli, elaborazione dati, pedagogia, valutazione degli strumenti e teoria. Da quel momento in poi, complice la diffusione di Internet e la crescita esponenziale dei dispositivi elettronici e quindi della produzione dei dati, la data science ha assunto la forma che siamo abituati a conoscere oggi.

In italia, la principale organizzazione che si occupa di promuovere lo sviluppo della data science è l’Osservatorio Big data analytics & Business intelligence, promosso dalla School of Management del Politecnico di Milano a partire dal 2008: l’osservatorio svolge periodicamente ricerche con l’intento di evidenziare il valore strategico che le metodologie di Big Data Analytics e Business Intelligence svolgono nelle imprese e nella pubblica amministrazione, ponendo in luce i potenziali vantaggi relativi alla competitività, alla redditività, alla tempestività e all’aumento di efficacia nei processi decisionali. Tra i numerosi contributi degni di nota è utile ricordare l’analisi compiuta nel 2018 sulle offerte di lavoro pubblicate su Linkedin al fine di individuare le figure professionali più richieste dalle aziende nel settore della data science: da quest’analisi è stato possibile individuare almeno tre tipi di profili professionali distinti:

  • Data scientist: colui che, all’interno dell’azienda, ha la capacità di gestire i Big Data e trarne informazioni rilevanti, individuando pattern che consentano di prevedere andamenti futuri: si tratta di una figura che deve avere notevoli capacità nel campo dell’analisi predittiva, ma anche a livello di Data Storytelling e Data Visualization, in quanto avrà anche il compito di presentare i risultati delle sue analisi e previsioni al business;
  • Data engineer: colui che ha il compito di progettare, costruire, installare, testare e mantenere i sistemi di gestione dei dati, gestendone il flusso dalle fonti alle piattaforme di Data Management. Si tratta di un ruolo che ha acquisito un’importanza sempre maggiore negli ultimi anni, evolvendo da uno scenario che prevedeva la mera analisi dei dati contenuti all’interno di un singolo database on-premise a un contesto estremamente più ampio basato su database distribuiti e sistemi cloud-based.
  • Data analyst: colui che ha il compito di esplorare, analizzare e interprere i dati con l’obiettivo di estrapolare informazioni utili al processo decisionale, da comunicare attraverso report e visualizzazioni ad hoc: in altre parole, il data analyst è la figura che ricerca evidenze quantitative all’interno di grandi moli di dati, supportando in tal mondo le decisioni di business. A differenza del Data Scientist non gli sono richieste capacità di analisi predittiva, in quanto si limita tendenzialmente a lavorare con i dati già a disposizione.

L’importanza dei dati

Prima di tuffarci nella storia della data science può essere utile spendere due parole per spiegare come mai oggi è considerata una delle discipline scientifiche più interessanti, proficue e remunerative, al punto di attrarre investimenti miliardari: come mai l’analisi dei dati è così importante?

Il motivo non è difficile da immaginare: al giorno d’oggi moltissime aziende basano le proprie attività sulle informazioni ottenute dalla raccolta sistematica di dati: informazioni anagrafiche, preferenze, stili di vita, abitudini di consumo costituiscono la linfa vitale per moltissimi settori, con un coinvolgimento che aumenta di anno in anno. In conseguenza di questo incremento, aumentano anche i volumi dei dati raccolti, favoriti da una tecnologia che consente la creazione e l’archiviazione di quantità crescenti di informazioni.

Per dare l’idea del tasso di questa crescita è utile ricordare una celebre stima compiuta dalla IBM nell’ormai lontano 2012 secondo la quale il 90% dei dati a livello mondiale era stato creato nei due anni precedenti. Se pensiamo a quanto tempo è passato da quella dichiarazione, nonché alla diffusione che hanno avuto i social network e gli smart device in Italia e nel mondo, possiamo renderci conto di quanto il livello di complessità aumenti e sia ancora destinato ad aumentare.

Dove finiscono questi dati? Nella maggior parte dei casi vengono memorizzati in una particolare tipologia di database appositamente pensati per l’archiviazione di grandi quantità di informazioni, noti come Data Lake. Le tecniche di storage possono variare a seconda della tecnologia utilizzata, delle risorse impiegate e/o delle capacità economiche di chi ha il compito (e il diritto – sempre che ce l’abbia davvero) di immagazzinarli: nella migliore (e più costosa) delle ipotesi queste tecniche prevedono il salvataggio dei dati in modalità strutturata, ovvero prevedendo un’organizzazione degli stessi all’interno di un modello di schemi e/o tabelle predeterminato (Data Model); quando questo non è possibile e/o  sostenibile si utilizzano approcci contraddistinti da una modalità di memorizzazione semi-strutturata o non strutturata. La differenza sostanziale tra queste ultime due modalità risiede nel fatto che la prima prevede un sistema di etichette, metadata e/o altri marcatori che consentano di separare gli elementi semantici ovvero di rafforzare le gerarchie di record e/o campi all’interno del dato, mentre la seconda si limita a memorizzarli in formato nativo, eventualmente corredandoli di metadata relativi alle modalità di acquisizione (marca temporale, georeferenziazione, dispositivo utilizzato, etc).

Per maggiori informazioni sui Big Data e sulle varie modalità di memorizzazione dei dati consigliamo di leggere l’articolo Big Data e Data Science.

Indipendentemente dalla tipologia e dal formato di memorizzazione, è fuor di dubbio che i dati raccolti e archiviati possono offrire vantaggi in termini di trasformazione ad aziende in tutto il mondo, sia per quanto riguarda l’organizzazione interna che in termini di ridefinizione dei prodotti e dei servizi offerti.

Ecco alcuni esempi di possibili casi d’uso:

  • Determinare il tasso di abbandono dei clienti analizzando i dati raccolti dai call center, in modo che il marketing possa agire per tentare di fidelizzarli.
  • Migliorare l’efficienza analizzando i modelli di traffico, le condizioni meteorologiche e altri fattori, in modo che le aziende di logistica possano migliorare la velocità di consegna e ridurre i costi.
  • Migliorare le diagnosi dei pazienti analizzando i dati degli esami clinici e i sintomi segnalati, in modo che i medici possano diagnosticare le malattie in anticipo e trattarle in modo più efficace.
  • Ottimizzare la supply chain prevedendo i guasti alle attrezzature.
  • Rilevare le frodi nei servizi (finanziari, assicurativi, etc.) riconoscendo comportamenti sospetti e azioni anomale.
  • Migliorare le vendite creando consigli per i clienti in base agli acquisti effettuati in precedenza.

Il tutto, ovviamente, a patto di riuscire a interpretare i dati a disposizione nel modo opportuno, ovvero di estrarre valore dagli stessi: ed è qui che entra in gioco la data science.

Modalità di valorizzazione del dato

Sulla base di quanto appena detto possiamo comprendere come i dati costituiscano oggi uno dei pilastri fondamentali per l’innovazione aziendale: il loro valore, tuttavia, deriva dalle informazioni che i data scientist possono ottenere e in base alle quali possono agire.

Proviamo ad elencare due tra le principali funzioni che la data science può svolgere a vantaggio delle aziende:

  • Evidenziare caratteristiche tendenziali (trend) al fine di produrre insight che le aziende possono utilizzare per prendere decisioni mirate e creare prodotti e servizi innovativi.
  • Alimentare modelli di auto-apprendimento (machine learning) così da migliorarne il training ed affinarne le capacità predittive.
Per un approfondimento ulteriore su questi temi consigliamo di consultare il nostro approfondimento sul Machine Learning, e in particolare l’articolo dedicato al framing.

Cenni metodologici

Nonostante il processo di analisi e interpretazione dei dati sia iterativo piuttosto che lineare, il tipico ciclo di vita della data science utilizzato per un progetto di creazione di modelli di dati prevede le seguenti fasi:

  • Pianificazione, in cui viene definito sia il progetto che l’obiettivo, ovvero i risultati attesi.
  • Costruzione, in cui si utilizzano strumenti (software o framework integrati) per creare un modello che consenta di raggiungere gli obiettivi previsti.
  • Valutazione, in cui si verifica l’attendibilità del modello attraverso procedure di controllo basate su metriche predeterminate e/o dati di test.
  • Distribuzione, in cui il modello viene portato in produzione.
  • Monitoraggio, in cui il modello è sottoposto a una analisi durante il funzionamento finalizzata a evidenziare e correggere eventuali problemi, nonché a mettere a fuoco l’eventuale necessità di arricchirlo con nuove features e quindi all’avvio di una fase di pianificazione ulteriore.

Osservando le fasi appena elencate, uno sviluppatore software potrebbe notare qualcosa di familiare: in effetti, si tratta di un processo iterativo che ricorda piuttosto da vicino il paradigma DevOps: in effetti, le due metodologie hanno qualche affinità, soprattutto nella misura in cui entrambe tendono al miglioramento continuo del prodotto.

Conclusione

Per il momento ci sembra opportuno fermarci qui: ci auguriamo che questo articolo possa essere d’aiuto a tutti coloro che hanno interesse ad approfondire questa affascinante disciplina e le sue metodologie. Al prossimo approfondimento!

 

About Ryan

IT Project Manager, Web Interface Architect e Lead Developer di numerosi siti e servizi web ad alto traffico in Italia e in Europa. Dal 2010 si occupa anche della progettazione di App e giochi per dispositivi Android, iOS e Mobile Phone per conto di numerose società italiane. Microsoft MVP for Development Technologies dal 2018.

View all posts by Ryan

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.