Ahogándose en datos

Peter Vogelgesang

Si hubiesen existido equipos de grabación cuando Abraham Lincoln pronunció el discurso de Gettysburg, ciertamente su voz hubiese quedado registrada para la posteridad. Mientras que el discurso de Lincoln requirió sólo cinco minutos, la persona que habló antes que él lo hizo por una hora y media, logrando que la mitad de la audiencia se retirara antes de que hablara el presidente. La mitad que se retiró, simplemente no pudo resistir la cantidad de palabras que precedieron lo que habían venido a escuchar.

Este evento de hace tiempo tipifica un problema actual: ¿qué información se debe guardar y cuál se debe perder? Por lo general uno no puede saber el valor de la información hasta algún momento del futuro, por lo cual se la debe mantener toda, al efecto de tener disponible la que resulte importante cuando se la necesite. Por ejemplo, lo que hablan entre sí los pilotos de aeronaves y el personal de las torres de control adquiere importancia sólo en aquellas trágicas ocasiones en que un avión tiene un accidente. La única forma de asegurarse de que sean preservadas las conversaciones que puedan resultar importantes es grabar todas.

La extensión resultante de este mecanismo —asignar un grabador a cada fuente de información en el mundo— es una imposibilidad lógica. Desarrollar un sistema de clasificación de la información que permita ubicar con rapidez y exactitud lo que se busca en un archivo tan gigantesco también es imposible.

Un modo de guardar gran cantidad de información sin usar un enorme número de equipos de grabación sería registrar una parte del espectro electromagnético. Si se graban señales de antena que cubran la parte más usada del espectro (10 KHz a 200 MHz), se capturarán comunicaciones de onda larga, radio AM y FM, varios canales de TV, y servicios radiales de emergencia. Del mismo modo se pueden capturar llamados telefónicos, teletipo radial, conversaciones entre aeronaves y sus torres de control, comunicaciones punto a punto, y toda otra información que se emita por ondas. Luego, todo esto debe ser accesible junto a datos del momento en que ocurrieron y la localización geográfica de las fuentes de señal.

Se puede registrar una gran parte del espectro electromagnético durante un año (desde una antena en un punto del planeta) en un área de almacenamiento con la superficie de 36 manzanas de una ciudad. Para decirlo de otro modo, se necesitarían 16 millones de discos ópticos que, apilados en forma vertical, alcanzarían una altura de 22.000 metros. La misma cantidad de discos, ubicados en pilas de 2 metros y medio de alto y dejando un pequeño espacio para pasillos de acceso, ocuparían más de 1100 metros cuadrados de superficie.

Tres cuestiones principales

No es nada nuevo que hay una necesidad cada vez mayor de guardar más en cada vez menos lugar (la última consecuencia de esto sería grabar todas las cosas en un lugar nulo). En los últimos 40 años la industria ha respondido a esta necesidad aprendiendo a usar menor superficie del medio de registro para guardar cada bit de información. En la actualidad, tanto los medios magnéticos de registro como los ópticos guardan un bit en dimensiones de orden menor al micrón. Con respecto a los sistemas de registro futuros, las tres cuestiones principales serán disminuir el tiempo de registro y lectura de los datos, aumentar la capacidad de guardar información e incrementar la velocidad de acceso en la recuperación de lo registrado.

El registro de datos es un proceso bidimensional: uno guarda datos sobre superficies. En consecuencia, uno debe desplazarse sobre estas áreas a la búsqueda de datos, moviendo los transductores, el medio en sí, o ambas cosas a la vez. El límite máximo de cuán rápido se pueden grabar o leer los datos queda establecido por la velocidad a que se pueden mover esos elementos. Algunos grabadores digitales mueven sus cabezales rotativos miles de kilómetros cada hora sobre la superficie de una cinta magnética. Es imposible incrementar indefinidamente la velocidad de transferencia de los datos con el recurso de aumentar la velocidad de los transductores y la del medio de registración.

La capacidad de grabación se puede aumentar, también, escribiendo bits en áreas más pequeñas o usando más superficie para registro. Sin embargo, al aumentar el área el tiempo para acceder a un punto específico de esta superficie también aumentará, por lo tanto llevará más tiempo recuperar la información. En consecuencia, es evidente que la velocidad de acceso, la capacidad y el ritmo al que se graba tienden a ser mutuamente excluyentes.

Una respuesta a este dilema es grabar simultáneamente en diferentes superficies. Este sistema incrementa la velocidad de registro en un número directamente proporcional a las superficies usadas. El cabezal rotativo de un grabador magnético helicoidal de alta performance contiene varias cabezas que están en contacto con la cinta en forma simultánea y graban o leen datos en paralelo. El ritmo de registro de datos es incrementado en proporción con el número de cabezas usadas. Las pistas son grabadas diagonalmente y tienen longitudes iguales a la circunferencia del cabezal rotativo.

Para recorrer la cinta de esta forma se requieren mecanismos de gran precisión. Las pistas, que tienen sólo una milésima de pulgada de ancho, deben ser grabadas con precisión una al lado de otra sin superponerse ni dejar un espacio excesivo entre sí. Además, durante la lectura las cabezas deben seguir las pistas sin desviarse más que un diez por ciento del ancho de las mismas, lo que significa una diezmilésima de pulgada. La unidad de lectura debe mantener esta precisión sobre una cinta flexible que tiene variaciones de ancho de más o menos una milésima de pulgada. La coincidencia de los cabezales con las pistas se mantiene controlando la velocidad de avance de la cinta.

Esta dimensiones críticas demuestran que la mayoría de las limitaciones existentes en la grabación de datos son limitaciones de precisión mecánica. A pesar de esas dificultades, los fabricantes han construido sistemas que pueden grabar digitalmente a un ritmo tan alto como 1 gigabit por segundo. Por supuesto, en este momento tales sistemas son muy caros.

Revolución necesaria

La necesidad de precisión mecánica y la complejidad de los sistemas de grabación se podría evitar usando métodos totalmente electrónicos que no necesiten movimiento y que usen tres dimensiones en lugar de dos para registrar los datos. Si se quiere, la grabación en cinta magnética es en un volumen en lugar de una superficie, dado que la cinta está envuelta sobre sí misma en delgadas capas. Pero la cinta es angosta y extremadamente larga, y se necesita un largo tiempo para ir de una punta a la otra. Históricamente, la cinta magnética ha sido utilizada en aplicaciones en las que el tiempo de acceso no es crítico.

El uso de una tercera dimensión en un medio de registro puede ser una solución poderosa. Imagine una matriz de dos dimensiones en la que cada cruce es una llave que está cerrada si el dato es 1 o abierta si el dato es 0. Si cada cruce tiene un volumen de 1/1000 de pulgada cúbica (25 micrones) entonces una pulgada cuadrada contiene un millón de cruces y un millón de bits. Si uno agrega capas de igual espesor una encima de otra hasta formar un cubo, la capacidad aumenta mil veces, para producir una capacidad potencial de 1000 millones de cruces.

El viejo sistema de memoria de núcleos usado en las primeras computadoras estaba organizado en forma cúbica. El problema es que un núcleo magnético ocupaba una fracción apreciable de pulgada, y no sólo era grande la parte de los núcleos sino que ésta estaba acompañada invariablemente de grandes racks de circuitos de conmutación imprescindibles para manejarlos.

Un volumen de 1/1000 de pulgada cúbica es más o menos 300 veces mayor que el volumen de material magnético necesitado para guardar un bit en una cinta magnética. Debería haber algún tipo de llave muy simple que entrara en este volumen relativamente grande, pero la tecnología necesaria estuvo fuera del alcance de los diseñadores durante décadas. Los circuitos integrados se acercan ahora a este ideal. En la actualidad, la tecnología de circuitos integrados puede permitir la capacidad y los costos necesarios para reemplazar los discos magnéticos y también algunos tipos de almacenamiento de datos en cinta.

Memorias serie de alta velocidad

Los astronautas del Apolo dejaron un grupo de reflectores ópticos en la superficie de la Luna. Un haz de luz que toque este conjunto retornará hacia la fuente de iluminación siguiendo el mismo camino. Imagine un haz láser modulado digitalmente a 2 gigabits por segundo siendo proyectado desde la Tierra sobre ese grupo de reflectores. El tiempo de tránsito (a la velocidad de la luz) es de 2,58 segundos, de modo que un haz así podrá contener 5,16 gigabits de datos antes de que el primero de ellos llegue de vuelta a la Tierra. Dicho en otras palabras, 5160 millones de bits estarán extendidos entre la Tierra y la Luna en la forma de paquetes de fotones de unos 15 centímetros de largo.

Después de completar un viaje de ida y vuelta, los pulsos son detectados, regenerados y usados para modular de nuevo el haz de láser. La información registrada circula en la forma de una corriente sin fin de pulsos de luz. Se borra, agrega o extrae información con sólo interrumpir por un momento el haz en los lugares correctos y hacer los cambios deseados. Aquí tiene usted una memoria de 5,16 gigabits con un tiempo de acceso promedio de 1,29 segundos y libre del todo de elementos mecánicos.

Si se usa luz de 100 longitudes de onda diferentes en forma simultánea, se incrementa la capacidad del sistema a medio terabit. La velocidad de transferencia de los datos aumenta a 200 gigabits por segundo, pero el tiempo de acceso sigue en 1,29 segundos. No está mal. Y usted deberá admitir que el medio usado para registrar los datos es barato.

Obviamente, el sistema tal como se lo describe es impracticable por diversas razones, pero podría ser realizable utilizando un satélite sincrónico que tenga contacto visual constante con la Luna. De cualquier modo, el ejemplo muestra que una memoria serie es usable si es suficientemente larga y su velocidad de propagación es rápida.

Una fibra óptica tan larga como la distancia a la Luna sería muy cara como medio de transmisión debido a que usar quince centímetros de fibra óptica para cada bit es algo antieconómico. Además, la atenuación de la luz en grandes distancias es excesiva, y los pulsos de luz no se mantendrían coherentes en otro medio que no sea el vacío del espacio. Se necesita una forma de energía que se propague mucho más lento que la luz y mucho más rápido que el sonido y que se mantenga coherente en largas distancias.

Tecnología de registración versus memoria natural

El cerebro humano pesa alrededor de 1300 gramos y tiene un volumen aproximado de 1300 cm3. Los investigadores estiman que el cerebro contiene entre 10.000 y 100.000 millones de neuronas. Si uno toma el número mayor y lo ubica en un cubo, entonces tendremos, a lo largo de cualquier eje del mismo, unas 1062 neuronas por pulgada.

Una cinta magnética tiene alrededor de 1000 pistas por pulgada de ancho. Puede guardar 60.000 bits por pulgada lineal, por lo tanto la densidad es de 60 millones de bits por pulgada cuadrada. La cinta está enrollada sobre sí misma dentro de su carrete, y dado que muchas cintas tienen sólo dos milésimas de pulgada de espesor, se puede estimar una densidad de 2000 capas de cinta por pulgada radial.

La densidad de información de una cinta magnética es alrededor de dos órdenes de magnitud mayor que la densidad de neuronas en el cerebro humano. Por supuesto, el cerebro realiza muchas más funciones que memorizar. Además, es capaz de registrar mucho más que un bit por neurona.

Los científicos estiman que el cerebro humano tiene una capacidad equivalente a 10^14 bits de memoria digital, número que resulta ser un orden de magnitud mayor que la capacidad de las cintas magnéticas. Sin considerar los méritos comparativos de los sistemas de memoria vivos o inanimados, el uso de tres dimensiones es de gran ayuda para obtener gran densidad volumétrica de registro de datos.

La cinta magnética provee un medio tridimensional, dado que está enrollada sobre sí misma en su carrete. Pero uno sólo puede acceder a los datos desenrollando la cinta hasta encontrar el lugar donde está registrada la información que se busca, un proceso que puede tardar minutos. Un disco, por otra parte, provee acceso rápido a los datos debido a que toda la superficie pasa por el cabezal en cada vuelta, pero el disco es un plano (no tiene la tercera dimensión), de modo que tiene una capacidad limitada.

Una nueva era

Las computadoras grandes y rápidas usadas para aplicaciones numéricas que tienen acceso rápido a cantidades muy grandes de información no encajan bien en ciertas aplicaciones. El control de robots y la capacidad de visión, por ejemplo, pueden ser manejadas con mayor eficiencia usando otro tipo de arquitecturas. Computadoras digitales muy bien programadas pueden manejar brazos robóticos simples y máquinas muy especializadas, pero los robot hechos para propósitos generales necesitan “ver” en qué están trabajando para adaptarse a un entorno que cambia rápida y constantemente. Lo ideal es que las computadoras puedan ver imágenes de TV a la velocidad que se generan, responder a la voz humana y comunicarse usando lenguaje hablado.

Una arquitectura que ofrece ese potencial es la de redes neurales, que, al igual que el cerebro, no devuelven respuestas numéricas precisas hasta el décimo dígito decimal pero manejan aproximaciones, cercanías, probabilidades y generalizaciones. ¿Por qué usar esta arquitectura? Hay diversas razones.

Primero, la lógica debe ser adaptable en lugar de programada. Mientras que las computadoras digitales requieren programas organizados con precisión que controlan en secuencia cada operación, las máquinas de redes neurales modifican su lógica interna en base a los estímulos y la experiencia. En otras palabras, aprenden. Segundo, la computadora debe ser capaz de tener su propia entrada de imágenes, sonidos y sensores táctiles. Tercero, la máquina controlada debe responder en tiempo real a los estímulos externos. Finalmente, la lógica interna de la máquina se debe adaptar a los cambios en las condiciones externas y a las diferentes misiones que se le encomienden.

El lenguaje hablado es un buen ejemplo para ilustrar el uso de las redes neurales. Es, después de todo, un código de audio relativamente simple que describe objetos (sustantivos), acciones (verbos) y modificadores (adjetivos y adverbios). Los lenguajes primitivos empezaron con la pronunciación de secuencias de sonidos en las que la combinación de éstos determinaba cosas y acciones. Luego, mientras la civilización se desarrollaba, la gente codificó las palabras sustituyendo sonidos por símbolos escritos. El diccionarios es, en realidad, un libro de códigos.

Muchas imágenes contienen combinaciones complejas de líneas, curvas, ángulos, puntos, brillos, sombras y otras características demasiados numerosas para nombrarlas aquí. El desafío en el desarrollo de máquinas con visión es aprender qué características de la imagen son importantes para comprenderla y desarrollar redes neurales que procesen imágenes en tiempo real. Las técnicas digitales son, simplemente, muy complejas y muy lentas para esto. Una razón para construir redes neurales adaptables internamente es que se les puede enseñar a reconocer imágenes, en lugar de usar cableados fijos o rigurosamente programados desde fuera.

La interpretación de sonidos es también compleja. La gente que diseña sistemas personales de reconocimiento de voz se sorprende constantemente de la habilidad del cerebro para reconocer lenguaje hablado distorsionado, invertido o modificado en frecuencia.

Imagine una matriz de dos dimensiones doblada de tal modo que sus entradas y salidas estén del mismo lado del plano. Enróllela hasta que sea un objeto tridimensional. Estas estructuras en forma de cornucopia están presentes en gran número en el cerebro. Es probable que una gran parte del cerebro sea una gigantesca hoja plana doblada en la que las operaciones en tres dimensiones que se realizan en el sentido del espesor sean sólo unos pocos centenares. El cerebro logra su velocidad no porque corre con un pulso de reloj muy rápido, sino usando una lógica que maneja visualizaciones, sonidos, sensaciones, sabores y olores que están codificados a un nivel mucho mayor que los bits que se mueven en torrentes en un computador digital.

Memoria y lógica

Si uno se pone a construir máquinas que manejen sonidos e imágenes, diseñando esas máquinas para usar la información en trabajos de tiempo real, es probable que use circuitos que no sean distinguibles como memoria o lógica. Por cierto, memoria y lógica serán una misma cosa. En lugar de ser cableados, los circuitos de memoria/lógica se adaptarán a los estímulos produciendo las respuestas requeridas y luego fijando esas respuestas. En otras palabras, las máquinas serán programadas por la experiencia.

Los humanos que busquen la nueva computadora de este tipo deberán usar un criterio diferente que el que usan cuando compran una digital. La eficiencia se medirá por el cociente de inteligencia y cuánto aprendizaje ha recibido, en lugar de considerar la longitud de palabra, tamaño de memoria y velocidad de pulso de reloj. En el futuro uno encontrará un “curriculum” de la computadora, es decir una declaración de la capacidad inherente de la máquina (su inteligencia) y una lista de los tipos de entrenamiento que ha recibido.

Las nuevas arquitecturas requerirán nuevas tecnologías en fenómenos y elementos de conmutación, estructuras, interconexión y encapsulados. Mientras que la electrónica de estado sólido y el registro magnético y óptico de datos tienen su lugar en otras arquitecturas, otras tecnologías, tal como la electroquímica, pueden jugar un rol dominante en la nueva.

Arriesgando un pronóstico

Predecir progresos tecnológicos puede ser algo peligroso para la reputación de uno, dado que siempre puede haber revoluciones imprevistas. A pesar de todo predigo que, salvo que los científicos aprendan a guardar información en moléculas, la tendencia a lograr bits más y más pequeños llegará a un fin en un futuro muy corto. El énfasis pasará de las mejoras en los medios a las mejoras a nivel de sistema, de modo de cumplir con la creciente demanda de la era de la información.

Las velocidades de manejo de datos aumentarán y el tiempo de acceso se hará menor por medio del uso de transductores activados en forma simultánea en estructuras inteligentes y baratas. La capacidad podrá ser incrementada usando grandes áreas de registro recorridas por dichas estructuras de nuevas maneras. Los sistemas de registro llevarán dentro gran números de bloques (o medios) de registro que podrán cargar con facilidad sin intervención humana. La cinta, debido a su gran densidad volumétrica de registro, es probable que nunca se abandone.

Una vez que estos sucesos se cumplan, se verá emerger un nuevo tipo de computadora, una que se podrá sentar en la toma de energía más cercana a comer con usted.