Datos aquí y allá: un fenómeno emergente
La revolución digital comenzó a principios de la década de los noventa al compartir la información, en términos de textos. Más tarde, esa información se convirtió en multimodal y se compartieron más audios y videos que nunca. Luego, la web se volvió social y nos encontramos lanzando más y más contenido personal a través de las redes sociales y los sitios de redes sociales. Hoy en día, la información digitalizada que subyace a la enorme masa de transacciones en la web, expandida por nuestros teléfonos móviles y por el Internet de las cosas, es la base de un cambio sin precedentes. Sin preocuparnos, vamos aquí y allá en la web dejando nuestras huellas digitales que se convierten en datos cuantificables: cuántos clics en esa imagen o video, cuántas publicaciones en esa red social, cuántos amigos participamos en nuestras propias imágenes; compreas en tiendas, tiempo de caminata, ritmo cardíaco mientras andas en bicicleta por la ciudad. Nuestro yo está cuantificado (Lupton, 2016) y las prácticas de seguimiento de nuestra información digital nos están llevando a dar sentido a nuestras actividades diarias o formas de participación que van desde las prácticas sociales (deportes, turismo, trabajo, etc.) hasta prácticas altamente personales (preferencias de tiempo libre, salud, citas, etc.) a través de los datos agregados representados en las interfaces gráficas o “dashboards“.
Esta enorme cantidad de datos que quedan en la web se utilizan como parte del tejido social contemporáneo, incluidos los servicios públicos y los nuevos modelos de negocios. El llamado movimiento “Big Data” atrajo entusiastas sobre el tesoro de datos para configurar nuevos modelos de negocios, nuevos servicios y nuevos empleos (Kitchin, 2015). Sin embargo, más recientemente ha abarcado una serie de inquietudes, principalmente relacionadas con los problemas éticos que subyacen a los algoritmos utilizados para extraer datos. ¿De quién son los datos? ¿Con qué consentimiento se extraen? ¿Sobre qué supuestos teóricos se construyen los modelos matemáticos adoptados para dar sentido a los datos dispersos? O incluso más éticamente peligroso, ¿qué otras operaciones, servicios y recomendaciones pretendemos poner en práctica a lo largo de esos modelos? Estos son el tipo de preguntas sobre la mesa en el estado actual del juego, y los algoritmos han sido cuestionados como “armas de destrucción matemática” en los términos adoptados por Cathy O’Neil, una matemática cuyo trabajo inicial se relacionó con los motores de Big Data y avanzó hacia las preocupaciones éticas y el debate político de tales datos (O’Neil, 2016).
Mientras estos debates se volvieron cada vez más polémicos, la disponibilidad de datos activó otros movimientos más constructivos en un equilibrio entre las cuentas utópicas y distópicas sobre datos (boyd y Crawford, 2012). Tras la digitalización incremental y la solicitud de control público sobre las actividades financiadas con fondos públicos, se hizo evidente que los datos obtenidos de tales actividades debían estar disponibles para la sociedad (Zuiderwijk y Janssen, 2014). Así nació el movimiento de Datos Abiertos, no para contrastar sino para complementar el concepto de Big Data, abriendo un sentido de democratización del conocimiento posible a través de los datos masivos. De hecho, el movimiento de datos abiertos está integrado en el activismo relacionado con el acceso abierto y la ciencia abierta (OKF – Open Knowledge Foundation, n.d.; Sieber & Johnson, 2015). El discurso del monitoreo público y la oportunidad de generar nuevas habilidades y nuevos empleos basados en datos abiertos surgieron rápidamente. De acuerdo con esto, los ciudadanos podrían ser “hackers” comprometidos en el control de la transparencia gubernamental, pero también en acciones socialmente relevantes como la ayuda humanitaria, como el caso del apoyo del análisis de ayuda disponible en caso de terremoto, sobre la base de datos de geologización (Johnson & Robinson, 2014 ); ciudades inteligentes (Wolff, Kortuem, & Cavero, 2015), eHealth (UKtransparency & Cabinet Office UK, 2012) debate político para la resistencia al poder (Baack, 2015), entre otras experiencias.
Sin embargo, la utopía del acceso a los datos se encontró con un problema que no era nuevo en su configuración, pero sí en su contenido. Nos referimos al problema típico de la brecha digital en la era de Internet y a todos los discursos sobre la apertura digital. El tema de la abundacia, recuerda inmediatamente la competencia para navegar en tal abundancia (Jenkins, 2009).
La datificación como problema de investigación y práctica educativa
Algunos autores comparan el problema de la apropiación de datos por parte de la ciudadanía al largo debate sobre la brecha digital (Gurstein, 2011). De hecho, para que el acceso a los datos por parte de los ciudadanos se convierta en control de la política pública, la ciudadanía debe comprender qué problemas y qué objetos se analizan a través de los datos rastreados; también deben poseer habilidades para resumir datos en narrativas efectivas integradas con visualizaciones de datos (Zuiderwijk, Janssen, Choenni, Meijer, & Alibaks, 2012). Y este sería el nivel más bajo de uso de datos públicos, si tomamos en cuenta la recopilación y el intercambio de datos entre los investigadores que operan en el paradigma de Ciencia abierta (Janssen, Charalabidis y Zuiderwijk, 2012). La literatura considerada descubre una brecha entre el potencial disruptivo de los datos grandes y abiertos y las prácticas actuales y emergentes. Como problema de investigación, esta brecha está recibiendo cada vez más atención, desde el enfoque de Economía y Administración a nuevos modelos de negocios e innovación abierta (Huizingh, 2011); a Po-litical Sciences sobre e-engagement y gobierno abierto a través de Open Data (Sieber & Johnson, 2015); o la Sociología de la ciencia con estudios que enfocan las formas de apertura de datos como clave para una estrategia de Ciencia Abierta (Salmi, 2015).
En el área de investigación educativa, parece que varias líneas de investigación están comenzando a avanzar en la exploración del problema. Una primera preocupación ha sido la alfabetización de datos y la alfabetización de datos de los maestros de escuela (Gould, 2017; Mandinach & Jimerson, 2016; Raffaghelli, 2018), profundizando en temas relacionados con los marcos conceptuales y las actividades para mejorar las habilidades de los estudiantes que van más allá de la elaboración estadística. También se ha considerado el uso cada vez mayor de datos como evidencia de enseñanza y educación de calidad. No específicamente relacionados con la alfabetización de datos de los docentes, pero como una preocupación emergente, podemos mencionar las prácticas basadas en los datos relacionadas con el análisis de aprendizaje tanto por docentes como por estudiantes (Ferguson, 2012; Persico y Pozzi, 2014; Wasson, Hansen y Netteland, 2016). Más recientemente, la idea de utilizar Open Data como recursos de educación abierta también ha despertado interés, pero parece que todavía hay pocas prácticas implementadas (Atenas, Havemann y Priego, 2015; Raffaghelli, 2018). Por último, los enfoques críticos para el problema de la datos y las nuevas alfabetizaciones requeridas para tratar con datos personales han surgido muy recientemente (Lupton & Williamson, 2017; Pangrazio & Selwyn, 2018).
La dataificación del aprendizaje a lo largo de la vida.
The datafied social context translates in several practices in education that could be considered “data-driven”. According to Williamson (2016, p. 404)
“Educational data science is an emerging, transdisciplinary field, building on both data scientific practices and existing knowledges from the learning sciences (itself a combination of psychological, cognitive and neurological sciences)”
[La ciencia de los datos educativos es un campo emergente y transdisciplinario que se basa tanto en las prácticas de datos científicos como en los conocimientos existentes de las ciencias del aprendizaje (en sí, una combinación de ciencias psicológicas, cognitivas y neurológicas). Mi traducción]
Si nos basamos en los avances de la ciencia computacional, y en instrumentos como el “machine-learning“, “natural language processing” y la interacción humana con el ordenador (Human Computer Interaction); para cruzar estos instrumentos con los de la la ciencia de datos (Piety, Behrens & Pea, 2013, citado en Williamson, 2016, p. 404), el campo ofrece una serie de posibilidades para realizar un seguimiento de las actividades de los alumnos y mostrar visualizaciones sintéticas, basadas en conceptos pedagógicos. Con el tiempo, los datos visualizados deben respaldar acciones positivas como la orientación pedagógica de los educadores, el apoyo a los alumnos en riesgo, el empoderamiento y la personalización y la autorregulación (Viberg, Hatakka, Bälter y Mavroudi, 2018). El hecho interesante es que estos enfoques no se relacionan solo con niveles educativos específicos (educación escolar, educación superior, aprendizaje profesional) o tipos de aprendizaje (formal, informal y no formal).
En la Educación Superior, la ciencia de datos se ha abocado al estudio de las analíticas de aprendizaje creando un sector de investigación cuyas contribuciones exploran mayormente las formas de utilizar los datos masivos de los estudiantes no solo para respaldar los procesos de enseñanza y aprendizaje, sino también con fines institucionales, como es el caso de la analítica académica (Ferguson, 2012 ; Siemens et al., 2011). De hecho, los datos de los estudiantes se recogen de forma masiva a través de la combinación de sistemas de gestión de aprendizaje o del aprendizaje en línea, pero también a través de actividades cuyos fines son administrativos. Numerosos estudios han abordado temas como la prevención del abandono escolar, el apoyo para mejorar el diseño del aprendizaje, el monitoreo y la evaluación, la retroalimentación de los estudiantes y la autorregulación. Sin embargo, el estado actual de desarrollo muestra poco avance en la aceptación de las analíticas de aprendizaje, con problemas específicos en cuanto a la validación auténtica de los modelos de analíticas y su escalabilidad, por ejemplo en el caso de analíticas predictivas y paneles de control o “dashboards” para el aprendizaje (Viberg et al., 2018). Además, los problemas éticos respecto a los datos de los estudiantes no se consideran suficientemente, y no hay en políticas institucionales que integren las analíticas de aprendizaje como parte de modelos de educación de calidad (Vuorikari et al., 2016).
Parece que la fiabilidad teórica y empírica de las analíticas y la minería de datos en educación sigue siendo un problema abierto. Si bien es cierto que la falta de contextos auténticos de validación genera un problema respecto de la consistencia empírica, quizás sean más preocupantes los temas de la validez teórica, política y ética de los constructos que se encuentran detrás de la agregación de datos, el modelado y la visualización de los mismos. Además, la recopilación de datos se realiza en contextos donde los alumnos no siempre son conscientes del tipo de datos publicados, un problema que introduce la cuestión ética de las formas de vigilancia habilitadas en la universidad que conlleva un dilema entre lan protección de la privacidad personal, el enfoque personal al yo cuantificado (hasta que punto me “gusta” ver mis datos y manipularlos), y los usos institucionales del big data.
Lo cuál crea un escenario complejo, que requiere conocimiento de instrumentos, estrategias de acción y un debate ético a la base que apoye no sólo prácticas sino la formulación de políticas institutioncales. Y ello nos lleva a la siguiente pregunta…
¿Por qué la alfabetización en datos es crucial para la práctica docente en las instituciones de educación superior?
Los docentes universitarios tienen que afrontar una serie de cuestiones respecto a las prácticas “data-driven”. Más allá del conocimiento de los instrumentos (como las analíticas) y de su “adoración” como panaceas de resolución de todos los problemas didácticos, el académico debe construir una mirada crítica que le permita integrar coherentemente el uso de datos digitalizados y masivos en su tarea. En primer lugar, debe evitar las trampas de la visión ingenua y positivista sobre el desarrollo de la minería de datos educativos.
Vale la pena recordar, en este punto el trabajo conceptual de sociólogos posmodernos como Pierre Bourdieu, así como Gilles Deleuze y Félix Guattari.
El primer concepto relaciona cuestiones de poder simbólico (Bourdieu, 1986), que abordan la generación de la política y la estética de los paneles de mando como visualizaciones organizadas de conceptos psico-fisio-neuropedagógicos. Estos son supuestamente objetivos, pero siempre abarcan semiosis arraigadas en la ciencia como discurso del poder. Las tecnologías basadas en datos están, por lo tanto, profundamente enredadas con fenómenos políticos y clasistas que definen discursos dominantes de “normalidad” en el desarrollo cognitivo así como el adecuado comportamiento social y profesional relacionado con el rendimiento en el aprendizaje. Además, estos discursos dominantes se encuentran detrás del diseño de dispositivos, aplicaciones y algoritmos que predicen comportamientos. Varios investigadores señalan los riesgos de un enfoque ingenuo en la aplicación de algoritmos que abarquen una fuerte estigmatización de los estudiantes pobres y lentos, con el exceso de modelos basados en datos anteriores recopilados (Prinsloo, 2017; Perrotta & Williamson, 2018), así como los mitos de una universidad eficiente que personalizará, y por lo tanto fragmentará, toda la experiencia social de la relación pedagógica estudiante-docente en la cuál éstos elaboran conocimiento académico (Williamson, 2018).
El segundo concepto abrazado aquí se refiere a los assemblages (ensamblajes) como una colección de cosas que han sido reunidas a través de un proceso de construcción de sentido en relación a una práctica social. El concepto fue acuñado por Gilles Deleuze y Félix Guattari (Deleuze & Guattari, 1987) como marco ontológico que define la naturaleza cambiante de las entidades sociales y su interconexión. De hecho, los ensamblajes capturan la idea de que los datos son entidades que operan conjuntamente con las definiciones sociales utilizadas para darles sentido, las formas en que se recopilan los datos, si el sistema obliga o ignora el consentimiento, y si los datos extraídos son compatibles con las políticas de administración y control a través de instrumentos como tableros, informes institucionales, clasificaciones, etc. Estas entidades están mediadas por algoritmos, que son conceptualizaciones matemáticas “accionables”. Por ejemplo, después de que un estudiante obtiene una puntuación, o después de hacer varios clics en los recursos en un entorno en línea, las operaciones estadísticas conducirán a la predicción de los resultados de aprendizaje, y un algoritmo puede activar un mensaje web o un tutor de inteligencia artificial en el caso en el que el estudiante sea clasificable como “difícil” o “a riesgo”. El simple hecho de seleccionar apoyo pedagógico, o simplemente informar al estudiante de que los resultados del aprendizaje serán probablemente negativos al final de un semestre, implica unos supuestos pedagógicos. Sobre esta base, podemos asumir que los conjuntos de datos conllevan componentes socio-materiales, como por ejemplo las creencias sobre el aprendizaje efectivo, los prejuicios sobre la capacidad del usuario final para adoptar el sistema, los mitos sobre la efectividad misma de los sistemas; y la segunda, las infraestructuras requeridas, el modelado estadístico, el código computacional y las interfaces digitales.
Como uno puede bien imaginarse, estos procesos requiere una alfabetización específica en el contexto educativo digitalizado, que podríamos denominar “alfabetización pedagógica de datos”. Más allá de la discusión en torno a la masificación y la centralidad de los conjuntos de datos en la sociedad, observamos que la extracción de datos educativos incluye la necesidad de comprender las materialidades y las prácticas sociales enredadas en un entorno determinado basado en datos educativos. Dentro de este marco, la alfabetización en datos no solo debe abordar la comprensión técnica de los paneles de aprendizaje y los datos subyacentes utilizados. Los docentes universitarios, así como los estudiantes, deben tener la oportunidad de comprender las conexiones entre los conjuntos de datos y la complejidad de su propia experiencia como personas que aprenden (aprendizaje profesional por un lado, y aprendizaje académico formal por el otro), con otras fuentes de datos que son complejas, inconmensurables y efímeras, como las conversaciones que dejan impresiones profundas y desencadenan ideas de valor heurístico para la construcción de su propia identidad.
Entonces, en el punto en el cuál un docente, en su contexto institucional de referencia define un modelo de datos que informen, guíen y permitan mejorar su práctica docente, debe pensar en el modo en el que estos datos pueden ser compartidos hacia un paradigma de práctica (educativa) abierta. Los datos recogidos y visualizados sobre una práctica educativa pueden ser sistematizados e informar comunidades de práctica profesional, ser usados como Open Data o bien, simplemente, generar formas de transparencia para alumnos presentes y futuros. En este sentido, se puede hablar de una Scholarship of Open Teaching and Learning, que como fuera tempranamente visto por Ernst Boyer (quien acuñó el acrónimo SOTL, scholarship of teaching and learning), implica formas avanzadas de reflexión y sistematización de prácticas didácticas en la educación superior.
Esta es una reflexión al inicio de un camino de trabajo en el tema, pero también una invitación al empeño de otros docentes en experimentaciones didácticas, workshops, seminarios y espacios para la reflexión profesional.
La bibliografía consultada ha sido recogida completamente en el grupo abierto de Mendeley: https://www.mendeley.com/community/big-data-open-data-data-literacy/