
a cura di Giacomo Milazzo

Un dato è la cosa più ostinata che esista
(Michail A. Bulgakov, “Il maestro e Margherita”)
Intelligenza Artificiale, Large Language Model, Dataset, Machine Learning, Training…termini e temi di grande attualità, ma circondati da confusione, incomprensione e persino cialtroneria da parte di chi li usa e ne usa i risultati a sproposito. Ed ecco quindi che ci viene in soccorso questo piccolo e pratico manuale di sopravvivenza, tanto per iniziare a capire, certi di poter approcciare, al termine della lettura, a questo nuovo mondo.
Andiamo subito al punto. Cosa si troverà in queste pagine?
Data science. Cosa sono i dati, come sono analizzati e perché sono oggi così importanti.
Sistemi complessi e dinamiche emergenti. Dal traffico e le sue dinamiche ai meccanismi che governano i social media, esplorando come da interazioni semplici si possano generare fenomeni complessi.
Strumenti pratici e modelli. Distribuzioni statistiche, modelli di rete e fenomeni di crescita, spiegati con esempi facili e concreti.
Scetticismo. Riconoscere i limiti della data science, evitando semplificazioni fuorvianti e distorte o narrazioni barocche.
Per ribadire ancora una volta il famoso concetto che la scienza non è democratica, e tuttalpiù, come disse qualcuno una volta, è dato…cratica. Basata sui fatti, su dati.
Ma cosa sono i dati, e cosa ce ne facciamo o potremmo farcene? Viviamo in un contesto in cui ogni click, ogni like, ogni acquisto o persino il permanere più di due secondi sulla stessa pagina web, racconta in dati, qualcosa di noi, generando quello che da tempo ormai, hanno definito come il mondo dei big data. La società iperconnessa, trasversale e, sulla carta, priva di confini, è essa stessa generatrice di dati; ma la pressoché coeva aumentata potenza di calcolo offerta dalla tecnologia informatica, è anche ciò che permette di analizzare e trarre informazione dalle mastodontiche quantità di dati relativi, tanto per fare due esempi di complessità, al sistema climatico della Terra ed al genoma dei viventi.
Questa enorme quantità di dati, incommensurabile nella sua interezza per qualsiasi mente umana, ha trasformato il modo in cui interagiamo con il mondo, portando alla necessità di avere una nuova chiave di lettura per comprenderne la complessità: la data science, non una scienza per pochi eletti ma una necessità per tutti, che va capita soprattutto allo scopo di evitare di cadere nella trappola della disinformazione che assegna poteri pseudoscientifici agli strumenti in grado di analizzare e trarre correlazioni e causalità dai dati, ovvero la cosiddetta AI (Artificial Intelligence) e i LLM (Large Language Model), come ChatGPT o Gemini, per capirci.
Come diavolo ha fatto Spotify a capire che quella vecchia canzone, dimenticata da tempo, mi sarebbe piaciuto riascoltarla? Cosa c’entra ad esempio il caffè del mattino con le echo chambers su Internet? E perché queste camere virtuali esistono? Il grande raccordo anulare di Roma può essere un modello adatto per rappresentare ciò che accade nei cosiddetti sistemi complessi? Esiste davvero il famoso effetto farfalla?
Tutto ciò è spiegato con serietà dagli Autori, ancorché con semplicità: come la data science oggi sia fondamentale e fondante nella nostra società e nelle nostre vite. Partendo proprio dalla domanda posta all’inizio: che cos’è un dato?
A costo di sembrare banali i dati sono le unità di informazione, i mattoni di base che la costituiscono; ogni analisi, ogni modello e ogni previsione poggia su questi, che sia un numero, una parola, un’immagine, un suono o persino un click sul bottone “Mi piace”.
È fondamentale saper interpretare questi dati, come usarli correttamente e come combinarli e, soprattutto, contestualizzarli, perché l’informazione che ne deriva, privata del suo contesto, può essere distorta, falsata, inadeguata a descrivere la realtà, può essere solo rumore. Affidarsi agli algoritmi di AI e LLM senza comprenderne natura e motivazioni può portare a scelte influenzate da logiche che non sempre tutelano i nostri interessi.
Partendo dai dati gli Autori ci guidano attraverso le tecniche e gli strumenti che li utilizzano, a generare informazione e conoscenza utili, nei più disparati campi, dalla sociologia all’industria spaziale ma, rovescio della medaglia, con gli occhi sempre bene aperti a smascherare qualsiasi tentativo di mistificazione o, anche peggio, di mitizzazione, governato dal mercato attorno a questo nuovo mondo: il mondo digitale, oggetto di recentissima nascita e conseguentemente di recentissima osservazione, per di più in cambiamento continuo e spesso imprevedibile, persino per gli occhi dei modelli più sofisticati. Il libro è quindi una sorta di Bignami che si può, visto il formato tascabile, tenere letteralmente a portata di mano, per evitare di cadere nella trappola della tautologia, del pensiero circolare legato a questo mondo, e in generale, a qualsiasi mondo sconosciuto a chi non l’ha studiato, e che ciò nonostante, ostenta varia competenza, di aver tutto chiarissimo, avventurandosi in letture e previsioni autoconfermate…ho ragione perché so di aver ragione avendo ragione…
E dopo i dati le ferree regole (matematiche, ma tutto sommato semplici) che già Galileo definiva linguaggio della Natura, assegnate a quella parte di universo che è regolata da numeri. In un mondo in così rapida evoluzione e così addentro le nostre vite, soprattutto quelle dei Millennial e della Generazione Z, è questo uno strumento di lettura della realtà che dovrebbe essere distribuito e raccontato il più possibile, perché questo mondo deve essere il più possibile compreso. Una guida essenziale per ragionare con correttezza su questi temi, nella speranza che si ravvedano anche i maestri del pensiero circolare o gli ingenui che credono nella neutralità dei dati e nella capacità della scienza di fornire risposte definitive (li chiamavano positivisti, ma ce ne sono ancora tanti). E soprattutto, come ripete continuamente uno degli Autori sulla sua pagina social, che si faccia meno metafisica anzi, che non se ne faccia affatto, nel tentativo di attribuire a questi strumenti capacità e proprietà che non potranno mai avere.
Come in qualsiasi testo scientifico degno di tale attributo qui non ci sono certezze, nemmeno la spiegazione di cosa sta accadendo qui e ora, difficile farlo standoci dentro, ma c’è una piccola enciclopedia che, spesso con ironia, definisce, elenca e spiega quali sono le dinamiche, i fenomeni e le regole che governano l’affollatissimo mondo dei dati che, senza la conoscenza delle possibilità reali degli strumenti in grado di gestirli, tutta questa enorme massa risulterebbe sterile o peggio ancora, indurre in errore chi ne utilizzasse le conclusioni: perché questi strumenti, che la risposta fornita sia giusta o sbagliata, usano sempre lo stesso metodo, indifferenti al risultato.
Per concludere, gli aspetti salienti trattati dagli Autori, ricadono anche nel campo della politica. La scienza non deve legittimare le scelte politiche, perché la tecnologia, sua derivazione, è fonte di potere, ma è indiscutibile che deve fornire i mezzi per supportarle, per guidarle; e la politica al tempo stesso deve innanzitutto fare in modo che il linguaggio scientifico sia compreso e reso accessibile alla cittadinanza, sia capito in modo che questa possa sostenere e legittimare le scelte politiche, affinché le scelte condivise siano sottoposte al vaglio della comunità.
Quando si parla di dati e regolamentazione la questione diventa cruciale: come possiamo regolamentare fenomeni complessi come l’uso dei dati, l’intelligenza artificiale e le piattaforme online se non ne comprendiamo i meccanismi che li governano? La regolamentazione dei dati e delle tecnologie digitali non è solo una questione di leggi e normative, ma di una comprensione chiara e condivisa dei meccanismi sottostanti.
E anche se è stato dimostrato (da evidenze scientifiche sorte a seguito di analisi di, manco a dirlo, basi di dati specifiche) che il debunking non serve a nulla, ovvero che non funziona il tentativo di smontare le bufale nella speranza che si arresti la diffusione di informazioni falswamyse online, occorre insistere nella diffusione della conoscenza corretta, a costo di predicare ai convertiti.
NdA] a chi volesse approfondire l’argomento suggerisco il libro e la relativa recensione di Anil Ananthaswamy, “Perché le macchine imparano”. Dedicato all’argomento, ma che verrà trattato più in dettaglio e con maggior specificità.
Walter Quattrociocchi
Professore ordinario presso Sapienza Università di Roma. Presidente del corso di laurea in Data Science e Direttore del Center of Data Science and Complexity for Society (CDCS). La sua ricerca si concentra su data science, network science e dinamiche della disinformazione. Ha pubblicato su prestigiose riviste come Nature e PNAS; i suoi studi hanno contribuito ai Global Risks Reports del World Economic Forum.
Matteo Cinelli
Ricercatore Tenure Track in Informatica presso Sapienza Università di Roma, membro del Center for Data Science and Complexity for Society (CDCS). La sua ricerca si concentra su reti e data science, con particolare attenzione alla diffusione dell’informazione e ai social media. Ha pubblicato su prestigiose riviste scientifiche multidisciplinari, tra cui Nature, PNAS e Cell, oltre che su riviste specializzate del settore.
Piccolo manuale essenziale
Pagina Facebook di Walter Quattrociocchi – lezioni di data science…per tutti!
Presentazione del libro di Diego Antonelli, giornalista RAI
La sfera emozionale della disinformazione. Intervista a W. Quattrociocchi
Indice del libro
Approfondimento
Nota. Le pagine Facebook pubbliche sono accessibili anche senza account. È sufficiente chiudere la richiesta di accesso.
