Investigación Educativa y datos abiertos: ¿Cuán lejos estamos del paradigma Open Science?

architecture buildings business car — Photo by Kaique Rocha on Pexels.com

Este año, como parte de mi proyecto de investigación Ramón y Cajal, me he lanzado quijotescamente contra los molinos de viento de la investigación educativa. De la que no se habla bien y sobre la que hay muchas discusiones pendientes respecto de su calidad (Biesta, 2007; Slavin, 2002)

Por inclinación personal y también porque creo uno de los ámbitos en los que un investigador no puede dejar de formarse son sus herramientas (y las ideologías detrás de éstas) he ido siguiendo la agenda de los varios debates sobre la metodología de la investigación educativa. En verdad cuando avanzamos en la investigación, siempre se nos llama banalmente a hablar de algún método, software o enfoque de investigación que hemos aplicado factualmente y que conocemos bien. Algunos colegas lo hacen desapasionadamente, entran en la pequeña provincia del universo de la metodología de la investigación que les toca. Por ejemplo “uso el software SPSS y trabajo en diseños experimentales controlados”; o bien “me dedico a la investigación etnográfica” o peor aún “soy experto de ATLAS.ti”. Esta visión puede ser necesaria por su pragmatismo: la investigación encierra aspectos técnicos y esos aspectos técnicos requieren competencias específicas. Todavía, el investigador no es un técnico. Es un intelectual, que balancea su trabajo técnico con una dosis de imaginación sobre los problemas de investigación que enfrenta; y sobre todo, con la utilidad social de lo que hace, en su sentido último (bueno, en el CERN se dedican por medio siglo a acelerar partículas, pero el fin último de esa investigación es avanzar el conocimiento humano del universo; ¿¡¡¡les parece poco!!!?).

el investigador no es un técnico. Es un intelectual, que balancea su trabajo técnico con una dosis de imaginación sobre los problemas de investigación que enfrenta; y sobre todo, con la utilidad social de lo que hace, en su sentido último

Vengamos al punto. El discurso de la ciencia abierta, la Open Science, ha entrado desde ya hace casi dos décadas en las agendas de los gobiernos nacionales (particularmente en Australia, y luego en Europa). En este post me he dedicado un poquito a clarificar la cuestión (pero en italiano, lo siento). Y naturalmente, ha ido evolucionando, generando nuevas condiciones de trabajo para los investigadores, que de tener que tratar de adquirir habilidades para la “eResearch” pasaron a la “Digital Science”. Y hoy, iluminados por los estandartes cada vez más evidentes de una ciencia pública (pues claro, sus productos son sostenidos por las tasas de los buenos e ignaros ciudadanos), difundida y usable, de la que los beneficiarios últimos se sientan partícipes, hemos entrado de lleno en el paradigma de la ciencia abierta o “Open Science” (DG CONNECT EUROPEAN COMMISSION, 2013; European Commission, 2015, 2016). Este paradigma requiere que el conocimiento científico sea abierto y accesible, por trasparencia, no sólo desde sus resultados (publicaciones científicas) sino desde el diseño de la investigación (los esquemas e hipótesis sobre las que se basa el investigador para invertir tiempo y dinero en una serie de actividades de investigación en el laboratorio o en el campo, a través de experimentos o desarrollos). Y fundamentalmente, se pide, con el auge de la digitalización, que sean abiertos los datos recogidos y tratados por el investigador o grupo de investigadores. Esto ha generado el movimiento Open Data en el ámbito científico (¡atención! Hay un movimiento Open Data en el ámbito de la administración pública, pero esa es otra historia. Aunque este movimiento tenga sus raíces en el gran ruido que el tema del big data está generando por todos lados, tiene sus fundamentos bien claros: si los datos de la investigación se abren, el avance de la ciencia será más rápido en cuanto los investigadores podrán consultar y trabajar sobre bases de datos compartidas (por ejemplo, el caso de la investigación genética); habrá mayor transparencia, pues los experimentos y otras investigaciones podrán ser replicadas, confirmando o generando una perspectiva crítica sobre un determinado estudio; habrán posibilidades de innovación y de apropiación por parte de la sociedad del conocimiento que hoy por hoy parece estar en la “torre de marfil” académica. Y hasta aquí, nos parece una utopía a conquistar. Pues no, hay varios campos de la investigación científica que están tan avanzados, que ya pueden hablar de verdaderas comunidades de uso integradas entre investigación de base e innovación en el ámbito industrial (en los campos de las ciencias de la tierra, de la investigación espacial o de la investigación en salud). El avance es tal, que ya se han desarrollado aplicativos para bucear en datos abiertos, lo que significa que hay buenos niveles de tesaurización y que la jungla de datos se ha convertido en un jardín en el que se puede circular, en el que varios jardineros minuciosos han podado lo que sobraba, han acomodado las rosas, y saben los nombres de las especies de plantas que allí crecen.

Me pregunté cómo iban las cosas en la investigación educativa, rama que se coloca bajo las Ciencias Sociales. Y haciéndome esa pregunta, me fui a bucear entre varios de los proveedores de datos abiertos ya existentes en el mercado. Subrayo, mercado, pues parece que la tendencia es usar repositorios internacionales y privados, más que los repositorios digitales institucionales…y ¡ay! El capítulo doloroso de los bibliotecarios, muchos se han ido a publicar sus datillos en redes sociales académicas. Cómo ResearchGate…-qué ¿no es neutro? -. –amigo mío, quisiera que sepas que pertenece a la Bill y Melinda Foundation; luego sobre esto podemos reflexionar, pero por ahora los datos de tu investigación podrían estar en un server con base en California-.

Afronté mi búsqueda en repositorios como OpenAire (el portal de la Comisión Europea para la investigación financiada en ese espacio geográfico) y para mi sorpresa observé que los objetos terminaban frecuentemente en Zenodo (data repository) o Figshare. Observé también que muchos datos iban a Mendeley.data, el simpático reference manager que mutó en el tiempo y fue convirtiéndose en un camaleón que quiere parecerse a una red social académica pero no lo es; a un repositorio de datos pero no lo es. Lo que sabemos es que ahora pertenece a Elsevier (casa editorial con notorios comportamientos monopólicos en el tema de las publicaciones científicas). En este ejercicio, recordé un viejo repositorio de datos de experimentos de psicología educacional y cognitiva “DataShop” y para mi maravilla descubrí que los americanos ya están avanzando fuertemente en su tarea de generar un ámbito de agrupación de la investigación educativa, a través de su portal “LearnSphere”.

Mis amigos de la alegre compañía de investigadores en ciencias de la educación: los datasets[1] que encontré en estos territorios agrestes, poseían metadatos poco comprensibles, estaban compuestos por archivos ilegibles, o simplemente…¡No eran datasets!

Se me ocurrió entonces revisar un poco más sistemáticamente los datos abiertos referidos al campo de la investigación en tecnologías educativas. Y lo llevé a discusión en la “Networked Learning Conference 2018”, en un workshop que intitulé “Pathways to Openness in Networked Learning Research: The case of Open Data”. He dejado en Academia la presentación que contiene links a todos los materiales producidos.

Resultados: con un pequeñísimo grupo de personas, un debate interesante pero también preocupante. Según los participantes, estamos a los albores de la apertura de datos en la investigación en tecnologías educativas y aún falta mucho camino por hacer y marchar en relación al tema.

Sin embargo, luego de haber trabajado en unos ejercicios respecto a colocarse en relación a esta perspectiva dentro de la propia institución, surgió en modo interesante una fuerte motivación individual, en contextos institucionales bastante abiertos a dialogar sobre el tema.

Lo que falta es no sólo una visión de qué datos abrir y para qué abrirlos (es decir de la utilidad de este movimiento) sino también de cómo podría impactar esta tarea en la carrera de un investigador.

Pues bien, allá vamos: tratar de demostrar estas preocupaciones “bottom-up” podría llegar a generar interés a nivel de policy making. Pienso principalmente en la importancia de cambiar la modalidad de evaluación de la carrera científica. Pero bueno, ¡Estoy hablando casi del final de un libro en el que estamos leyendo el prólogo!

REFERENCIAS

Biesta, G. (2007, February 1). Why “what works” won’t work: evidence-based practice and the democratic deficit in educational research. Educational Theory. https://doi.org/10.1111/j.1741-5446.2006.00241.x

DG CONNECT EUROPEAN COMMISSION. (2013). Digital Science in Horizon 2020. Brussels. Retrieved from https://ec.europa.eu/digital-single-market/en/news/digital-science-horizon-2020

European Commission. (2015). Consultation on ‘Science 2.0’: Science in Transition. Brussels. Retrieved from https://ec.europa.eu/research/consultations/science-2.0/consultation_en.htm

European Commission. (2016). Open innovation, open science, open to the world – a vision for Europe | Digital Single Market. Luxembourg. https://doi.org/doi:10.2777/061652

Slavin, R. E. (2002). Evidence-Based Education Policies: Transforming Educational Practice and Research. Educational Researcher, 31(7), 15–21. https://doi.org/10.2307/3594400

[1] Un dataset es una matriz de datos compuesta por N casos y N variables. En general los casos se colocan en las filas, y las variables (o sea las dimensiones o atributos de los casos) se colocan en las columnas. La evolución de las técnicas de tratamiento de datos ha llevado a que los datasets no sean legibles sólo por humanos, sino que se configuren como “machine readable” legibles a través de técnicas computacionales o literalmente “por la máquina”. Estos últimos procedimientos permiten procesar enormes cantidades de datos. Si el dataset se ajusta correctamente a los principios “machine readable”, claro está.