La trampa nominalista en el análisis de Big Data
«El nominalismo, antes la novedad de unos pocos,» escribió Jorge Luis Borges, «hoy abarca a toda la gente; su victoria es tan vasta y fundamental que su nombre es inútil. Nadie se declara nominalista porque no hay quien sea otra cosa.» «Es por esto por lo que incluso los proyectos exitosos de Big Data frecuentemente no logran tener impacto,» no escribió (salvo en algunos volúmenes guardados en la Biblioteca de Babel), pero su entendible omisión no hace al diagnóstico menos cierto.
El nominalismo, para sobresimplificar el concepto lo suficiente para nuestro caso, es simplemente la presunción de que sólo porque hay muchas cosas en nuestro mundo a las que llamamos sillas, esto no implica que el concepto en sí de una silla sea real en un sentido concreto, que existe una Silla Última, “verdaderamente verdadera,” tal vez ubicada en frente de la Mesa Última. Tenemos cosas que llamamos sillas, y tenemos la palabra “silla”, y estas son suficientes para nuestras casas y mentes, incluso si algunos carpinteros no logran conciliar el sueño por las noches, perseguidos por atisbos de muebles ideales.
Esta se ha vuelto una forma de pensar común y bastante exitosa, por lo que es natural que sea la base de lo que es tal vez la aproximación standard al análisis de Big Data. Nombres, números, y símbolos son cargados en las computadoras (identificadores de cuentas, contadores de acciones, tiempos, fechas, coordenadas, precios, números, etiquetas de todas clases), y son luego procesados de manera obsesiva, de forma casi cabalística, organizando y re-organizándolos para encontrar y clarificar cualquier estructura matemática, y tal vez poder explicativo o incluso predictivo, que puedan tener — y toda esta manipulación de datos, en gran parte, toma lugar como si nada fuese real excepto las relaciones entre los símbolos, los esquemas de datos, y las correlaciones estadísticas. No culpemos por esto a las computadoras: realmente trabajan en cuevas platónicas llenas de bits, y otros bits son la única manera en la que pueden recibir noticias del mundo exterior.
Esto funciona bastante bien; de hecho, lo suficientemente bien como para hacer de Big Data una enorme industria con un amplio impacto económico y, cada vez más, político, pero también puede fallar de formas drásticas pero peligrosamente discretas. Porque desde el punto de vista de los algoritmos, sí existen cosas tales como los ideales platónicos: nosotros. Un registro en una base de datos siempre habla sobre algo en el mundo real —una persona, un evento, un objeto— y no es en sí mismo ni completo ni importante. Un analista puede estudiar una base de datos de formas matemáticamente sofisticadas, pero sin conocimiento y conciencia sobre la realidad que los números describen (y que siempre es una descripción parcial), es muy fácil llegar a resultados incorrectos e incluso éticamente monstruosos. A pesar de la mística y utilidad del «Big Data», aprovecharlo de manera efectiva requiere tener siempre en mente que el mapa no es el territorio, y que la base de datos no es la realidad. De ahí que el científico de datos, como individuo o organización, no debe saber solamente de matemáticas e informática; esas son sus herramientas básicas, pero no puede carecer de otros conocimientos sobre lo que está investigando, o al menos de tener conciencia de su ignorancia, y la capacidad de preguntar y aprender. Apropiadamente realizado, el análisis de datos es la aplicación de matemáticas inferenciales a datos abstractos, junto a la constante consciencia de y sospecha sobre la realidad que los datos describen, y de lo que esté faltante, estos Bits No Registrados, pueden significar para el problema en cuestión.
Juegos multi-usuario masivos han fallado porque su análisis estratégico confundió al jugador-en-la-computadora (en búsqueda, digamos, de joyas) con el jugador-en-el-mundo-real (que buscaba diversión, y le importaban las joyas solo en tanto en que esto fuese divertido). Motores de recomendación técnicamente perfectos no tienen a veces ningún efecto en el comportamiento del usuario, porque incluso los mejores ítems son simplemente aburridos para empezar. Una vez, pasé una hora intentando entender la súbita caída en el uso de cierta aplicación en algunos países pero no en otros, hasta que me di cuenta de que era Ramadán, y que esos países estaban ocupados celebrándolo.
Los programadores de software tienen que ser nominalistas – es el placer y el privilegio de los programadores el trabajar, generalmente y lo más posible, en universos simbólicos de elegancia auto-contenida – y los matemáticos están dedicados al juego de encontrar cuanta verdad pueda obtenerse tan solo de los símbolos en sí y de sus relaciones abstractas. Siendo un poco de ambas cosas, los analistas de datos son muy propensos a perderse en el juego de los números, los algoritmos, y el código. El truco es poder hacerlo sin olvidar la fundamental falsedad de todo modelo – podemos apuntar a tener en nuestros modelos tanto de la complejidad del mundo como sea posible, pero hay siempre (¿por ahora?) mucho más que queda afuera, y es parte del trabajo del analista, y tal vez su obligación epistemológica primaria, el estar alerta a esto, entender cómo los Bits No Registrados pueden ser la parte más importante de lo que está tratando de entender, y de estar siempre abierto y dispuesto a expandir su modelo para incluir aún más aspectos del mundo.
Las consecuencias de no hacerlo pueden ser más que técnicas o económicas. La civilización contemporánea es imposible sin el uso de los datos abstractos para entender y organizar a las personas, pero las más terribles formas de barbarie contemporánea, en sus escalas más demenciales, serían imposibles sin el deliberado olvido de las realidades detrás de los datos.