De la falacia del algoritmo a la sinécdoque mediática.

Sí que necesitamos alfabetizarnos en datos: dos ejemplos de problemas de analfabetismo en datos en un post (regalo de Navidad)

La semana pasada salió un artículo en el País que leí con avidez, dado que éste invitaba a profundizar los alfabetismos de la postdigitalidad (datos, algoritmos detrás de la escena digital visible), ante las concepciones erradas de los algoritmos. Sin embargo, al leer el artículo algo empezó a hacerme ruido.

“Un estudio (…) identifica a mayores, personas con niveles educativos inferiores y
mujeres como los grupos más propensos a confundir las verdaderas capacidades de estas herramientas”

Y ahí nomás me zambullí a leer el artículo original publicado en la revista portuguesa Media and Communication. Me interesaba desenredar la cuestión de la confusión femenina.

Observé que la síntesis del copete periodístico implicaba una generalización importante. Anticipo mi reflexión final: el punto sobre el que me llevó a explorar más allá de ese copete fue el imaginarme el impacto de esa generalización en el colectivo interesado (las mujeres). Una copete, un texto rápido que no comunica errado, sino con una sinécdoque (la parte por el todo) poco feliz. Un copete en el que el dato sintetizado, narrado, se llevó la lectura del dato contextualizado y específico para comprender las limitaciones de la afirmación conclusiva.

Mi preocupación es el impacto que puede tener la generalización “las mujeres” en jóvenes mujeres que trabajan o estudian como ingenieras, que quieren desarrollarse como informáticas y están haciendo esfuerzos en un sistema hostil. Lo formulo de manera más concreta, para que imaginemos juntos ese impacto.

¿Qué impacto puede tener la lectura de un artículo que presenta a “las mujeres” como aquellas que menos entienden de algoritmos en alguien que realiza selección de personal, o en un docente universitario, o en las mismas mujeres que nos adentramos con tanta falta de confianza en nuestra capacidad misma en el ámbito de la tecnología?

Si bien las referencias que he mencionado antes son convergentes en el señalar una brecha digital, es evidente también que se necesita reflexionar sobre los por qués y los cómos alrededor de un dato surgido.

Mi curiosidad sobre la ignorancia femenina se basó también en otras muchas mías lecturas cruzadas en las que las mujeres han estado luchando por hacerse camino en el mundo de los algoritmos y la datificación, no sólo con autoridad, sino con originalidad.

De hecho, es que el campo de estudios críticos sobre ciencia y tecnología, y en particular de crítica de la datificación, está bien nutrido por autoras como Caterine d’Ignazio y Stefanie Klein (Data Feminism), Shoshana Zuboff (Capitalismo de Vigilancia) Annette Markham (Pedagogía crítica para la alfabetización en datos), Linda Taylor (Justicia de datos) Virginia Eubanks (Automating Inequality), Cathy O’Neil (Weapons of Math Destruction), Sava Saheli (Screening Surveillance Series), Mimi Onuoha (Missing Data), Ruha Benjamin (Race after technology), Hannah Fry (Hello World).

Pero vamos al estudio en sí.

Creencias erradas sobre los algoritmos: Mis observaciones sobre las limitaciones del estudio

Voy a empezar diciendo que la calidad de revisión de la literatura y el enfoque del estudio son por demás interesantes y están bien planteados. Los elementos teóricos se alinean bien con la configuración de la herramienta adoptada (el cuestionario). Pero allí paramos. Algunas de las limitaciones que observé.

Además de haber sido llevado a cabo en Holanda y no ser el resultado de un trabajo internacional para hablar de “las mujeres” y de haber elegido una caracterización binaria y cis (Hombres/Mujeres), el estudio reporta que este último grupo tiene problemas de propensión a la confusión en relación a algoritmos. De los 2,106 participantes, 48% eran mujeres. No hay tablas bivariadas, pero sí se indica que de los 2106 el 51.71% tenían 55 años o más. Si aplicamos la proporción hipotética, logramos que de 2106 participantes, 1011 eran mujeres y alrededor de la mitad de ellas (unas 500) podían ser mujeres de más de 55 años, más cerca de la generación de “boomers” que de la de los Millenials.
Como bien sabemos, para quien no nació en la era de las redes es difícil digerir que detrás de una estructura haya poder. Se asume el dominio y la jerarquía como aspecto intrínseco a las estructuras sociales. Las mismas personas que responden que un algoritmo no puede estar sesgado, responderían que un médico tiene autoridad para decidir y no equivocarse, o que un juez aplica justicia sobre sólidas leyes.
Sabemos también que las culturas participativas y más transversales han sido señaladas como una característica de interacción con medios por parte de los jóvenes (por ejemplo en el trabajo de Henry Jenkins).
Pero además, también sabemos, a partir de la investigación en STEM y mujeres en la ciencia y la tecnología, que los grandes sesgos de expectativa de performance y la baja autoeficacia (ejemplo aquí) de las niñas y mujeres persiste hasta hoy. Por ejemplo el estudio OCDE del 2017 reporta que:

Girls do better in reading and boys continue to do better in mathematics, on average, in PISA testing, but in recent years most OECD countries have recorded a narrowing of gender gaps in PISA scores. Outside the OECD, educational opportunities for girls and young women frequently remain constrained by attitudes, social institutions, and the absence of infrastructure supporting girls. Nevertheless, overall, the difference between boys’ and girls’ secondary school participation is slowly narrowing in developing countries.
Las niñas obtienen mejores resultados en lectura y los niños siguen obteniendo mejores resultados en matemáticas, en promedio, en las pruebas PISA, pero en los últimos años la mayoría de los países de la OCDE han registrado una reducción de las brechas de género en las puntuaciones de PISA. Fuera de la OCDE, las oportunidades educativas para las niñas y las mujeres jóvenes con frecuencia siguen estando limitadas por las actitudes, las instituciones sociales y la ausencia de infraestructura de apoyo a las niñas. No obstante, en general, la diferencia entre la participación de niños y niñas en la escuela secundaria se está reduciendo lentamente en los países en desarrollo.

A mayor razón entre las mujeres de una cierta edad. En particular, muchas mujeres de la edad mayoritaria en el citado estudio, aprendieron que la tecnología era campo de hombres y del que nada había que preguntar o aprender. Un campo dominado y de dominio.

Sabemos, por último, que las mujeres tienen menos tiempo (por ejemplo aquí) y por ello podría ser más difícil relacionarse con la tecnología por la imposición social del trabajo de cuidado de las personas en la familia, lo que implica que efectivamente puedan tener menos experiencias de exposición a algoritmos. Esta suposición está apoyada por las oportunidades que tienen las niñas de acceso a la tecnología, como lo indica este estudio UNICEF:

Gender inequality in the physical world is replicated in the digital world.
There is a large gap in women and girls’ digital adoption and use compared to men and boys.
La desigualdad de género en el mundo físico se replica en el mundo digital.
Existe una gran brecha en la adopción y el uso digital de mujeres y niñas en comparación con los hombres y los niños.

El estudio que estamos analizando presenta otras características que yo considero metodológicamente débiles. Por ejemplo, introduce la pregunta sobre los algoritmos en el cuestionario con la siguiente frase: “The following questions are about your awareness of the use of algorithms in the media (e.g., algorithms that recommend relevant content to you).” // “Las siguientes preguntas se refieren a su conocimiento del uso de algoritmos en los medios (p. Ej., Algoritmos que le recomiendan contenido relevante)”.

Esta definición es circular y nunca descubre los elementos del concepto abstracto (algoritmo) sobre el que pregunta. Se podría haber usado un ejemplo más concreto en un contexto de medios sociales (desde los algoritmos de recomendación hasta los algoritmos de ubicación de contenido o de orden de contenidos de búsqueda en motores de navegación). Como sabemos, cuando se responde a un cuestionario se “recuperan” en la memoria elementos relacionados con la experiencia propia. Si la persona no comprende, entonces recupera elementos errados, o peor aún “imagina” lo que está respondiendo. La respuesta se transforma en número y realizamos comodamente estadísticas descriptivas e inferenciales…sobre una respuesta sesgada.

No observé, en ningún momento, un análisis de validez y confiabilidad de las escalas likert aplicadas. Si bien las escalas tienen una base teórica contundente, me sorprendió no encontrar alguna medida de consistencia interna que indique que la estructura del cuestionario es estable y que los sujetos tienden a seleccionar una combinación estable de respuestas según sus propias características. Tal parece que había un cierto apuro por pasar a usar el dato recogido a la modelización (la regresión lineal múltiple realizada) para indicar los predictores.

Finalmente, la cuestión de las concepciones falsas en materia de algoritmos en el grupo “mujeres” no se discute en el párrafo dedicado a la discusión y conclusiones. A la luz de la evidencia que he traído en este párrafo, la brecha digital y de género podría haber sido comentada.

A mi parecer, un estudio cuantitativo que focaliza una cuestión tan delicada no puede no tomarse la responsabilidad de indagar, o por lo menos cuestionar, posteriormente, las razones de los fenómenos que simplemente son descriptos a través de un cuestionario. Una serie de preguntas abiertas podría haber corregido o ampliado los resultados. También, con entrevistas previas, se podría haber analizado si había problemas de comprensión de los enunciados. Y finalmente, con algunas entrevistas posteriores, se podrían haber profundizado los posicionamientos y razones de los grupos con mayores concepciones erróneas. Este ejercicio es parte del trabajo de investigación, y como mínimo, se han de mencionar estas limitaciones invitando al trabajo futuro.

Sin dudas, podríamos “tomar la posta” y ocuparnos de ese estudio sucesivo.

Alfabetización en datos: de entender los algoritmos a leer y comentar los datos de la investigación científica.

Para volver a mi planteamiento inicial, mucho más grave aún me parece el segundo problema de alfabetización en datos que noté, en cambio, en el artículo periodístico. Comunicar con tono terminante en un artículo periodístico el problema, sin una apropiada lectura de las limitaciones del estudio, sin un cruce de otras fuentes de investigación, deja al lector con una idea del todo polarizada.

El o la periodista está supuestamente preparado para analizar ese tipo de informaciones, si bien no puede entrar en el procedimiento de investigación específico. Es decir, el periodista puede leer las limitaciones de un estudio y comparar fuentes o estudios. Es claro, no tenemos tanto tiempo.
Cabe preguntarse si aquí es falta de entrenamiento del periodista, o bien un modo de comunicar “clickero”. De los que miraron el copete, cuántos habrán ido a leer el artículo periodistico entero y cuántos irían al artículo científico. Sabemos que pocos.

Mi preocupación aquí es que hablamos de un medio serio, relevante, y entonces no podemos no tener en cuenta el impacto que la cultura de la rapidez y la superficialidad de los medios sociales tiene cuando envuelve (con el share y el like y el comentario breve) al hacer circular la información que viene de un medio profesional. Cabe preguntarse si esa misma rapidez del medio social no ha contaminado el medio profesional.

En cualquier caso, en un punto estoy completamente de acuerdo.
Es necesario trabajar sobre la falacia del algoritmo omnipotente, como parte de un programa de educación en medios. Y también cabe enseñar la “data storytelling” desde temprana edad, para que un resultado comentado en un abstract no nos impida leer con mayor profundidad y atención los datos sobre los que se basa tal conclusión.