Big data: la venganza de Francis Bacon

Él era la máquina más perfecta de observar y razonar que haya visto el mundo.

Watson en «Un escándalo en Bohemia».

En el año 2008, Chris Anderson anunció en un artículo el final de la teoría. No de una teoría en concreto, sino de «la teoría» en general, de la teorización como método científico. ¿Por qué? En su opinión, el método científico clásico de aventurar hipótesis a partir de la observación para así encontrar causas que puedan explicar lo observado, estaba siendo sustituido por la recopilación de datos en bruto. Anderson recibió muchas críticas, que le recordaron que no existen los datos puros y que todo dato lo es porque hay una teoría previa que lo convierte en dato. Aunque Anderson rectificó y moderó sus afirmaciones, es cierto que en los últimos años se han producido grandes cambios que explican el porqué de su provocativa tesis y que parecen dar nueva vida a la idea baconiana (y holmesiana) de dejar hablar a los datos, de aquellas tablas de presencia y ausencia en las que se acumulaban datos y más datos. El gran cambio que se ha producido, gracias a los ordenadores, internet y el mundo digital, es la llegada de los datos masivos o big data.

En Big data, Viktor Mayer-Schönberger y Kenneth Cukier explican lo que significa la «revolución de los datos masivos». Hasta ahora, explican, disponíamos de muchos datos, de muchísimos datos. Gracias a ellos, podíamos investigar, hacer estadísticas, desarrollar cálculos probabilísticos, algo que se ha convertido en imprescindible en casi todas las ciencias actuales, desde la física cuántica a la biología, la medicina, la economía o la sociología. Sin embargo, en los últimos años los datos han crecido de una manera tan asombrosa que todo lo que hasta ahora habíamos observado durante la historia de la humanidad se está convirtiendo en una pequeña muestra comparado con lo que se puede observar en apenas unos años, meses e incluso días: «En solo unas semanas, un telescopio de Nuevo México, el Sloan Digital Sky recopiló más datos que los reunidos en toda la historia de la astronomía. Su sucesor, el Gran Telescopio Sinóptico de Investigación, recopilará en cinco días toda la información acumulada por el anterior desde 2000[272]».

No solo eso; estos datos, en vez de desbordarnos por completo, como lo harían si fueran analógicos, son ahora almacenables y analizables gracias a los ordenadores. De hecho, de toda la información existente hoy en día, el 98% es digital y solo un 2% es analógica, es decir, libros, periódicos, películas en celuloide, billetes de todo tipo[273]. En la actualidad, al menos en ciertas situaciones, podemos obtener todos los datos, no un simple muestreo o selección. Un buen ejemplo es la cámara Lytro, que captura no un único plano de luz, sino haces de todo el campo luminoso, «unos once millones». Eso significa que el fotógrafo no necesita enfocar al hacer la foto, ya que la cámara ha recogido literalmente toda la información, por lo que podrá enfocar después, con los datos digitales. Aquí, aparte de la decisión de qué fragmento del paisaje se quiere encuadrar y del momento del día, no hay más teorización previa.

Mientras que los métodos estadísticos obtienen sus asombrosos resultados a través del análisis de una muestra más o menos grande, los datos masivos están permitiendo que en ciertas situaciones dispongamos no de una parte, sino de todos los datos. Un ejemplo notable es el avance de la inteligencia artificial en el ajedrez. En los años ochenta del pasado siglo todavía se decía que un ordenador nunca podría ganar al campeón mundial de ajedrez, pero hoy en día se ha dejado de plantear el asunto porque sabemos que máquinas bastante modestas podrían ganar a cualquier campeón mundial, aunque todavía sería interesante un duelo entre todos los grandes maestros de ajedrez contra el mejor de los ordenadores. Si se trata de finales con seis piezas o menos, los ordenadores ya conocen todos los movimientos posibles y son imbatibles. También conocen todos los datos en juegos como las damas, por lo que es imposible vencer a un ordenador… a no ser que se trate de otro ordenador.

Un Sherlock Holmes actual sin duda contaría con la ayuda de estos increíbles recopiladores y procesadores de información en sus investigaciones y consultaría Google o sus archivos privados a través de un smartphone, como sucede en la serie Sherlock, en vez de en su pequeña biblioteca de Baker Street. Pero los datos masivos traen consigo otra consecuencia importante para la investigación, pues nos permiten, a través de su análisis informático, descubrir ciertas correlaciones, cosas que aparecen juntas a menudo. Una correlación no es sinónimo de causa, pues tan solo significa que encontramos una coincidencia entre dos cosas o sucesos, no que uno sea la causa del otro. La ciencia busca causas, pero las correlaciones sin más también pueden llevar a muy interesantes descubrimientos. Francis Galton, el sobrino de Darwin que está en el origen del uso de las huellas dactilares en la identificación, fue precisamente quien definió el concepto de correlación en 1888, «al observar que la estatura de un hombre guardaba relación con la longitud de sus antebrazos». Holmes aplica este conocimiento varias veces, como en Estudio en escarlata. «En nueve casos de diez puede deducirse la estatura de un hombre por la longitud de sus pasos. Se trata de un cálculo bastante sencillo, aunque no tiene objeto el molestarle a usted con números».

Lo anterior ilumina de una manera inesperada todo lo que hemos dicho acerca de la acumulación de datos o información aparentemente inútil, como los escalones que llevan al piso de Holmes y Watson en Baker Street: en casos como la cámara Lytro o el conocimiento de la historia de la criminología o de los diferentes tipos de ceniza, a menudo es importante no ya saber qué vas a hacer con esos datos, sino saber que con esos datos, con esas informaciones, tal vez harás cosas que ahora ni siquiera sospechas. Pensar que se pueden recoger datos sin una teorización previa es una ingenuidad, ya lo hemos visto, pero pensar que todos los datos, toda la información se recoge en función de una teorización previa estricta y consciente no es menos ingenuo, pues a menudo actuamos como la cámara Lytro: recogemos todo lo que entra en nuestro campo perceptivo sin saber qué haremos después con ello. Una de las diferencias entre Holmes y los policías y detectives de Scotland Yard es que ellos buscan algo y solo encuentran eso que buscan, mientras que Holmes busca y encuentra, pero no siempre algo concreto y definido de antemano. Holmes no divide de manera dogmática lo que percibe en dos campos incomunicables de datos significativos y datos no significativos. Como es obvio, el detective tiene métodos para encontrar datos significativos en lugares como el barro, en el que pueden haber quedado marcadas las pisadas, pero también está abierto a considerar que algo que a los demás les parece un detalle sin importancia podría ser la clave del enigma.

No tan elemental
cubierta.xhtml
sinopsis.xhtml
titulo.xhtml
info.xhtml
cap01.html
cap02.html
cap03.html
cap04.html
cap04_0001.html
cap04_0002.html
cap04_0003.html
cap04_0004.html
cap04_0005.html
cap05.html
cap06.html
cap06_0001.html
cap07.html
cap07_0001.html
cap07_0002.html
cap07_0003.html
cap07_0004.html
cap08.html
cap08_0001.html
cap08_0002.html
cap08_0003.html
cap08_0004.html
cap08_0005.html
cap09.html
cap09_0001.html
cap09_0002.html
cap09_0003.html
cap09_0004.html
cap10.html
cap10_0001.html
cap10_0002.html
cap10_0003.html
cap10_0004.html
cap11.html
cap11_0001.html
cap11_0002.html
cap11_0003.html
cap11_0004.html
cap11_0005.html
cap11_0006.html
cap11_0007.html
cap11_0008.html
cap12.html
cap12_0001.html
cap12_0002.html
cap12_0003.html
cap12_0004.html
cap12_0005.html
cap12_0006.html
cap12_0007.html
cap12_0008.html
cap12_0009.html
cap13.html
cap13_0001.html
cap13_0002.html
cap13_0003.html
cap13_0004.html
cap13_0005.html
cap13_0006.html
cap14.html
cap15.html
cap15_0001.html
cap15_0002.html
cap16.html
cap16_0001.html
cap16_0002.html
cap16_0003.html
cap17.html
cap17_0001.html
cap17_0002.html
cap17_0003.html
cap17_0004.html
cap18.html
cap18_0001.html
cap18_0002.html
cap18_0003.html
cap18_0004.html
cap18_0005.html
cap19.html
cap19_0001.html
cap19_0002.html
cap19_0003.html
cap19_0004.html
cap20.html
cap20_0001.html
cap21.html
cap21_0001.html
cap21_0002.html
cap21_0003.html
cap22.html
cap22_0001.html
cap22_0002.html
cap22_0003.html
cap22_0004.html
cap22_0005.html
cap22_0006.html
cap23.html
cap23_0001.html
cap23_0002.html
cap23_0003.html
cap23_0004.html
cap23_0005.html
cap23_0006.html
cap23_0007.html
cap23_0008.html
cap23_0009.html
cap23_0010.html
cap23_0011.html
cap23_0012.html
cap23_0013.html
cap23_0014.html
cap24.html
cap24_0001.html
cap25.html
autor.xhtml
notas.xhtml