“Far di conto” nell’era digitale: la frontiera della data literacy

Pubblicato il volume collettaneo coordinato da Maria Ranieri, “Teoria e Pratica delle new media literacies nella scuola”. Come cambia il nostro modo di leggere ed esprimerci nell’era digitale? Quali competenze sono necessarie per una comprensione critica dei contenuti digitali? Queste sono le grandi domande che il volume si pone, e che ogni autore ha contribuito a rispondere dalla prospettiva della propria pratica professionale e di ricerca. Io in particolare, mi sono esercitata nell’analizzare criticamente il problema della “data literacy” ovvero l’alfabetizzazione ai dati nel contesto dei Big e Open Data, discutendone le prospettive d’intervento dal punto di vista dell’istruzione e la formazione.

La mia riflessione era partita da molto prima, ma il libro di Darell Huff del 1954 “How to lie with Statistics” (Huff & Geis, 1954) ha innescato in me una serie di considerazioni. Il messaggio di Huff andava in una direzione precisa: generare un testo per pensare criticamente l’arte di narrare storie attraverso la rassicurante presenza della statistica, figlia della matematica.

Questo testo, del tutto divulgativo, emergeva in un contesto nazionale (USA) e internazionale di forte sviluppo scientifico, dove il giornalismo iniziava ad adottare i metodi del data journalism e, giustamente, della divulgazione scientifica. Il valore dato alla scienza e la comunicazione scientifica cresceva esponenzialmente, in quanto sistema trasparente e avanzato, particolarmente legato all’azione militare propria del dopo-guerra e la successiva Guerra Fredda. E’ stato Robert Merton, primo sociologo della scienza e contemporaneo di Huff, a proporre una visione della scienza intesa come sistema socio-culturale caratterizzato da valori specifici o CUDOS: Communism, Universalism, Disinteressedness, Organized Skepticism – Comunismo (scientifico), Universalismo, Disinteresse, Scetticismo organizzato (Merton, 1973). Tuttavia, questo stesso autore metteva in guardia sulle non sempre coerenti relazioni tra tali valori all’interno del sistema della scienza. Nonostante queste avvertenze ante litteram, lo stile comunicativo divulgativo basato su dati empirici ha preso il sopravvento nell’immaginario comune, attestandosi come formato capace di veicolare messaggi rigorosi e inconfutabili. Tale approccio comunicativo non pervade soltanto l’ambito giornalistico. Leggiamo in un testo contemporaneo orientato alla formazione degli insegnanti in ambito STEM (Scienza, Tecnica, Ingegneria, Matematica):

I libri di testo dell’ambito scientifico sono usualmente scritti adottando un linguaggio molto determinista; in questo modo, gli studenti acquisiscono l’idea che i fatti presentati siano assoluti. Tuttavia, questa è una rappresentazione distorta sulle pratiche di scrittura e lettura degli scienziati (Bowen & Bartley, 2014, p.5; nostra traduzione).

Nel mondo reale i dati sono caotici, poco organizzati e difficili da strutturare per ottenere risultati scientifici con un forte impatto sulle innovazioni socio-tecniche. La comunicazione scientifica li usa come evidenza empirica, ma i dati presentati sono tutt’altro che trasparenti: prima ancora di trovare una collocazione in un bel grafico o in una tabella, sono stati oggetto di svariate elaborazioni orientate da teorie scientifiche che ne influenzano l’interpretazione. Questo aspetto viene indagato dell’epistemologia scientifica, ma purtroppo è spesso banalizzato nel discorso dei mass media, e particolarmente nella società contemporanea dei social media, attraverso le false notizie (fake news) e la viralizzazione di articoli di scarsa qualità scientifica. “Se lo dicono i numeri” è il luogo comune che ferma il normale cittadino e lo rende docile al messaggio contenuto in un discorso intertestuale, composto da narrazione e dati. Ma i dati, così come il gergo tecnico e la retorica, sottendono trappole e mettono chi legge in condizione di iniquità rispetto all’interpretazione di un messaggio.

Il denotato del termine “dato” è quindi un concetto complesso, la cui polisemia rischia di disorientarci: a fronte della precisione e dell’obiettività che nella storia si è tentato di conferire al concetto di “datum“, oggi siamo posti davanti all’imprecisione delle molteplici forme con cui i cosiddetti “dati” si presentano e vengono manipolati in successive modalità via via più sintetiche e vicine alla comunicazione umana. Ma sono i dati unità di verità, di fatti, di conoscenza? Qual è la distanza tra il dato e le metodologie che consentono di estrarre senso, ovvero ciò che ogni società e ogni individuo cercano incessantemente?

Christine Borgman, nel suo volume del 2015 dal titolo Big Data, Little Data, No data, in seguito ad una lunga disamina delle caratteristiche e categorie entro cui i dati possono essere classificati, giunge ad una sintetica definizione: “I dati sono la rappresentazione di osservazioni, oggetti, o altre entità usate come evidenza dei fenomeni studiati dalla ricerca accademica” (Borgman, 2015, p28). Questa definizione apre un primo ordine di problemi relativo al fatto che i dati non sempre sono generati dalla ricerca scientifica (in particolare, negli ultimi tempi e con l’avvento della digitalizzazione dei processi e dei prodotti dell’attività umana). Il vocabolario Treccani definisce il dato come ciò che è immediatamente presente alla conoscenza, prima di ogni forma di elaborazione, e fa seguire una serie di esempi che partono dalla ricerca scientifica, per allargarsi ad una più generica considerazione della conoscenza umana: i dati di un problema, i valori noti o presunti noti di talune grandezze, mediante i quali, sulla base delle relazioni e condizioni presupposte nell’enunciato del problema, ci si propone di determinare i valori incogniti di altre grandezze; elemento, in quanto offerto o acquisito o risultante da indagini e utilizzato a determinati scopi.

Borgman ci ricorda inoltre che nessuna definizione potrebbe essere sufficiente, dal momento in cui i dati esistono nella misura di ciò che può essere fatto con essi, dei tipi di insight che generano e delle scale di analisi con cui vengono trattati a seconda del tipo di fenomeno che si intenda analizzare. Se nel Diciassettesimo secolo il termine “dato” compare nella letteratura scientifica nella sua versione latina, datum/data, nel Diciottesimo segue un accesso dibattito sul suo uso singolare o plurale in inglese. Questo lungo e antico dibattito è indicativo del fatto che i dati non sono una verità o una realtà: che si tratti di fatti, di fonti di evidenza, di principi alla base di un’argomentazione, si possono considerare forme di rappresentazione della verità o la realtà che ci si prefigge di studiare. Il corsivo va a sottolineare l’arbitrarietà della definizione di un dato come evidenza empirica di un flusso di attività umane, in particolare, di ricerca scientifica ma non solo, come vedremo più avanti. Il fatto che i dati siano normalmente associati alla ricerca scientifica si basa sul concetto stesso di metodo scientifico, che comprende tanto la definizione teorica di un fenomeno quanto le procedure e gli strumenti necessari per raccogliere i dati sul fenomeno, ovvero, per rappresentarlo e analizzarlo empiricamente. Ma cosa succede quando si cerca una definizione più ampia? Borgman indica una serie di domande per riflettere su cosa siano i dati: Qual è l’arco temporale attraverso il quale un dato emerge, si mantiene e sparisce? Come fanno individui, gruppi e comunità a creare, usare o selezionare i dati? Quali sono i fattori associati alle definizioni di dato in uno specifico contesto? Quali sono le funzioni che i dati rappresentano? Come variano questi aspetti in relazione al tipo di studio, ambito disciplinare, produttori e curatori di dati? Come evolvono le concezioni del dato in ambito scientifico? E come stanno variando in relazione all’uso delle tecnologie digitali utilizzate per reperirli, trattarli e curarli? Tutte queste domande ci portano a comprendere che i dati non sono oggetti naturali, che esistono per sé. I dati, conclude la studiosa, possono essere più facilmente definiti attraverso esempi variegati, includendo fatti, numeri, lettere, simboli. Pertanto, sono solo le definizioni operative che collocano il dato nel contesto e ne fanno emergere un senso trasversale per gli aspetti che tentiamo di ancorare attraverso una definizione. Per esempio una definizione proveniente dall’ambito scientifico della ricerca spaziale indica che i dati sono rappresentazioni reinterpretabili di informazione, formalizzate in modo tale da consentire la comunicazione, l’interpretazione o l’elaborazione. Esempi di dati sono i bits, le tavole di numeri, i caratteri in una pagina, i suoni registrati a partire da una voce parlante, o un campione di roccia lunare (Consultative Committee for Space Data Systems, 2012). Il progetto Data Documentation Initiative (DDI) promuove una serie di standard per la generazione di metadati, ovvero i dati che descrivono i dati, che dovrebbero consentire una migliore gestione del ciclo di vita del dato (Data Documentation Initiative, 2012). L’approccio DDI è ampiamente usato, in particolare nell’ambito delle scienze sociali, tuttavia non fornisce una definizione di che cosa siano i dati!

Ma queste criticità sono il frutto della riflessione di pochi esperti. Il facile reperimento di dati nella società contemporanea, in particolare a partire dalla crescita esponenziale dei dati digitalizzati, depurati attraverso la trattazione statistica e algoritimica, assume oggi per noi una rilevanza senza precedenti. L’avvento delle reti sociali e loro integrazione con servizi web di diverso tipo (per esempio la realizzazione di acquisti), oppure con l’”Internet of things (IoT)“, crea automaticamente migliaia e migliaia di input digitalizzati che possono essere esplorati, estratti e convertiti in evidenza su comportamenti quotidiani, caratteristiche socio-demografiche, forme di partecipazione e coinvolgimento in processi sociali. Ciò che doveva essere prima indotto come processo di generazione di dati, a partire da questo fenomeno si converte in una sorta di “tesoro” che deve essere estratto, motivo per il quale si parla di “data mining” o mineria di dati. È questa la base del concetto di “Big Data”, che si arricchisce poi a partire da una serie di riflessioni: le problematiche legate alla gestione di masse di dati abnormi, basate fisicamente su più server (a volte, migliaia di server); le metodologie di estrazione e di conversione in “visualizzazioni” che risultano comprensibili e significative per utenti non esperti; l’uso nei vari settori di business per supportare servizi o attività produttive, oppure (e soprattutto) per generare innovazione. Quasi in modo immediato il movimento dei “Big Data” ha fatto emergere un forte dibattito relativo alla provenienza, l’uso e l’appropriazione dei dati: mentre era vero che compagnie come Facebook o LinkedIn generavano dati di proprietà privata aziendale, era altrettanto vero che i dati prodotti dalla scienza e la pubblica amministrazione dovevano essere resi pubblici. Infatti la potenzialità di uso di tali dati, poiché generati con denaro pubblico, doveva essere aperta alla società (Zuiderwijk & Janssen, 2014). E’ nato così il movimento Open Data, che non contrasta ma integra il concetto di Big Data introducendo l’idea della democratizzazione della conoscenza propria dei movimenti Open Access e Open Science.

Infatti i discorsi più entusiasti sulla facile disponibilità dei dati e la loro appropriazione riconducono tale situazione all’accesso alla conoscenza, alla trasparenza del governo e della scienza, elementi che potrebbero consentire nuove modalità di business e nuova occupazione. Ma, soprattutto, si è parlato di nuove forme di partecipazione della cittadinanza, di consapevolezza, di controllo, addirittura di “hacking” di dati che potrebbero essere la base di forme di appropriazione della cosa pubblica e di resistenza al potere (Baack, 2015).

Ecco che l’utopia dell’accesso ai dati s’imbatte con un problema non nuovo ma tipico della società digitale e dell’“Open” in tutte le sue forme: il tema dell’abbondanza, che richiama immediatamente la competenza necessaria per navigarla. Il fatto che numerosi dataset siano estraibili o siano addirittura aperti e accessibili online in portali pubblici non li rende immediatamente comprensibili. Alcuni autori paragonano il problema dell’appropriazione dei dati da parte della cittadinanza al lungo dibattito sul digital divide (Gurstein, 2011); perché l’accesso ai dati da parte della cittadinanza si trasformi in controllo delle politiche pubbliche sarebbe necessario comprendere quali sono i problemi e gli oggetti tracciati attraverso i dati, avendo poi le capacità di sintesi per segnalare eventuali criticità (Zuiderwijk, Janssen, Choenni, Meijer, & Alibaks, 2012). E questo sarebbe il livello più basso di uso dei dati pubblici, se teniamo conto dei problemi di generazione e condivisione di dati tra ricercatori in un contesto di apertura della scienza (Janssen, Charalabidis, & Zuiderwijk, 2012).

In questo scenario, appare chiaro che ci sia un gap tra potenzialità intravviste dal fenomeno sociale e di innovazione tecnologica dei big e open data, e le pratiche correnti.

È vero che l’evoluzione dei suddetti movimenti è stata subito oggetto di studio delle scienze sociali, in particolare le scienze economiche (problemi dell’innovazione, modelli di business basati su big data, marketing), le scienze politiche (e-Government e Open Government, cittadinanza digitale e partecipazione civica attraverso l’appropriazione dell’informazione pubblica) e la sociologia della scienza (Open Science, accessibilità della conoscenza scientifica pubblica, nuove forme di scholarship nell’era digitale). Tuttavia, la configurazione del problema come problema pedagogico, ovvero di natura formativa, sembra aver ricevuto minore attenzione. Per esempio, già nel 2010 Davies lamentava la mancanza di appropriazione di Open Data all’interno del settore educativo (Davies, 2010). Con alcune esperienze e dibattiti pionieri sugli Open Data come Open Educational Resources, Atenas, Havemann, & Priego (2015) proponevano i primi passi per pensare forme di uso educativo dei dati disponibili in rete. E benché sia stato coniato il termine data literacy (Stephenson & Schifter Caravello, 2007), come la suddetta forma di alfabetizzazione vada acquisita sia nel processo che nel risultato di competenza, sembra essere un punto tutto da esplorare nel più ampio e riconosciuto territorio della numeracy, ovvero il far di conto (Gould, 2017; Vahey et al., 2012).

Dunque, la complessità del problema dovrebbe spronare un dibattito pedagogico che punti a far convergere diversi ambiti della ricerca educativa: dalla ricerca sui profili emergenti e le competenze specialistiche necessarie per la copertura di nuove professionalità operanti in settori di business ad alta innovazione, al luogo che l’alfabetizzazione ai dati dovrebbe avere nella formazione di base scolastica e universitaria. Insomma ciò che potrebbe reclamarsi alla ricerca educativa è il consolidamento di modelli di competenze, strumenti e metodologie per l’alfabetizzazione ai dati come aspetto fondamentale del far di conto: dall’obbligo scolastico alle situazioni di vita quotidiana nell’adultità, alle forme di sviluppo professionale.

Allora la ricerca educativa dovrebbe riprendere quell’iniziale sforzo di Huff nel lontano 1954. Non essendo statistico di formazione ma un giornalista, egli toccava con mano i problemi della misinformation; ed è così che decise con la sua opera di compiere un’operazione delicata e necessaria, ovvero quella di fornire strumenti perché chiunque potesse approcciare la lettura e la comprensione dei dati in chiave critica e contestualizzata.

Dalla prima edizione di Huff sono passati 63 anni. E da allora, come abbiamo prima messo in evidenza con il nostro breve ex-cursus sul nuovo fenomeno dei big e open data, il problema si è intensificato, perché il dato è entrato in scena non solo attraverso aspetti comunicativi, ma anche in quanto è al centro dell’innovazione produttiva e della partecipazione civica.

L’obiettivo del mio capitolo, nel constesto del volume della Ranieri è quello di riflettere sul problema dell’alfabetizzazione ai dati come una delle frontiere della numeracy, emergente proprio dalla presenza di nuovi fenomeni socio-tecnici quali i big e open data. Nel capitolo tento di collocare il concetto di data literacy entro il campo della numeracy e oltre la statistical literacy, difendendo la tesi per la quale sia necessario parlare di questa nuova forma di alfabetizzazione. Mi occupo della descrizione di alcune prassi e approcci formativi emergenti, riflettendo sugli scenari di ricerca educativa e di sperimentazione formativa. In questo senso, presteremo particolare attenzione alla data literacy nel contesto del e-engagement e le nuove forme di cittadinanza attiva, nonché alla data literacy nell’ambito dello sviluppo professionale degli insegnanti. Siffatto impianto concettuale ci consentirà di elaborare alcune conclusioni che forniranno al lettore delle chiavi di interpretazione ed eventuali suggerimenti pratici da spendere sul piano professionale per il consolidamento della data literacy in quanto campo di studio e applicazione educativa.

RIFERIMENTI

Atenas, J., Havemann, L., & Priego, E. (2015). Open Data as Open Educational Resources: Towards Transversal Skills and Global Citizenship. Open Praxis, 7(4), 377–389. https://doi.org/10.5944/openpraxis.7.4.233

Baack, S. (2015). Datafication and empowerment: How the open data movement re-articulates notions of democracy, participation, and journalism. Big Data & Society, 2(2), 205395171559463. https://doi.org/10.1177/2053951715594634

Bowen, M., & Bartley, A. (2014). The Basics of Data Literacy. Helping your students (and you!) to make sense of data. Arlington, VA, US.: National Science Teachers Association.

Davies, T. (2010). Open data , democracy and public sector. Interface, 1–47. Retrieved from http://practicalparticipation.co.uk/odi/report/wp-content/uploads/2010/08/How-is-open-government-data-being-used-in-practice.pdf

Gould, R. (2017). Data Literacy is Statistical Literacy. Statistics Education Research Journal, 16(1), 22–25. Retrieved from https://iase-web.org/documents/SERJ/SERJ16(1)_Gould.pdf

Gurstein, M. B. (2011). (2011). Open data: Empowering the empowered or effective data use for everyone? | Gurstein | First Monday. First Monday, 16(2), 1–8. https://doi.org/10.1177/0170840601223003

Huff, D., & Geis, I. (1954). How to Lie with Statistics [trad.it “Mentire con le statistiche”] (Traduzione). Pescara: Monti&Ambrosini.

Janssen, M., Charalabidis, Y., & Zuiderwijk, A. (2012). Benefits, Adoption Barriers and Myths of Open Data and Open Government. Information Systems Management, 29(4), 258–268. https://doi.org/10.1080/10580530.2012.716740

Merton, R. K. (1973). The normative structure of science. In R. K. Merton (Ed.), The Sociology of Science: Theoretical and Empirical Investigations. Chicago, Illinois: University Chicago Press.

Stephenson, E., & Schifter Caravello, P. (2007). Incorporating data literacy into undergraduate information literacy programs in the social sciences. Reference Services Review, 35(4), 525–540. https://doi.org/10.1108/00907320710838354

Vahey, P., Rafanan, K., Patton, C., Swan, K., van ’t Hooft, M., Kratcoski, A., & Stanford, T. (2012). A cross-disciplinary approach to teaching data literacy and proportionality. Educational Studies in Mathematics, 81(2), 179–205. https://doi.org/10.1007/s10649-012-9392-z

Zuiderwijk, A., & Janssen, M. (2014). Open data policies, their implementation and impact: A framework for comparison. Government Information Quarterly, 31(1), 17–29. https://doi.org/10.1016/j.giq.2013.04.003

Zuiderwijk, A., Janssen, M., Choenni, S., Meijer, R., & Alibaks, R. S. (2012). Socio-technical Impediments of Open Data. Electronic Journal of E-Government, 10(2), 156–172. https://doi.org/10.1641/b570402