El sitio web más importante del mundo del que nunca escuchaste hablar

La desaparición de contenido en internet pone en riesgo nuestra memoria colectiva, pero hay una iniciativa que la defiende.

Lo que está en internet rara vez es para siempre.

Nuestras vidas digitales se reparten entre plataformas y aplicaciones en las que confiamos para que preserven nuestras fotos, correos electrónicos o sagaces observaciones. Sabemos que las empresas quiebran y los desastres ocurren, pero en el día a día nada nos hace pensar en eso. Mañana hago el backup.

Cada vez que hacemos clic y encontramos lo que buscamos, reforzamos nuestra ilusión de la permanencia digital. Cuando las cosas funcionan, los archivos digitales nos otorgan cierta tranquilidad, cierta comodidad, cierta seguridad de que estarán allí cuando los busquemos. Nadie piensa en el camión de la basura hasta que deja de pasar, ni en la fragilidad de nuestra dependencia de Internet como archivo cultural hasta que es tarde.

Si te gusta Receta para el desastre podés suscribirte y recibirlo en tu casilla los jueves.

La información digital es fantástica: puede copiarse sin perder calidad, puede ser manipulada por máquinas, clasificada y analizada en cantidades masivas, y cruzar el planeta en un instante. Pero una vez que se pierde es para siempre. Las virtudes de su inmaterialidad también son su mayor defecto.

Como lo describe Adrienne LaFrance: “La web, tal como aparece en un momento dado, es una fantasmagoría. No es un lugar en ningún sentido confiable de la palabra. No es un repositorio. No es una biblioteca. Es un mosaico en constante cambio de un perpetuo ahora”.

Basta con buscar un viejo correo, un tuit de hace años o un enlace citado en un libro para descubrir que ya no lleva a ninguna parte. Generamos más información que nunca y la perdemos a un ritmo igualmente alarmante.

Cenital no es gratis: lo banca su audiencia. Y ahora te toca a vos. En Cenital entendemos al periodismo como un servicio público. Por eso nuestras notas siempre estarán accesibles para todos. Pero investigar es caro y la parte más ardua del trabajo periodístico no se ve. Por eso le pedimos a quienes puedan que se sumen a nuestro círculo de Mejores amigos y nos permitan seguir creciendo. Si te gusta lo que hacemos, sumate vos también.

Sumate

Los números son elocuentes: aproximadamente el 38% de las páginas web de 2013 ya no existen, y un 8% de los sitios disponibles en 2023 desaparecieron en apenas un año. El 23% de las páginas de noticias y el 21% de los sitios gubernamentales (especialmente locales) contienen enlaces rotos. Además, el 54% de las páginas de Wikipedia incluyen referencias a enlaces inaccesibles, y uno de cada cinco tuits deja de estar disponible en un par de meses. La vida promedio de una página en internet es de unos 100 días. Nuestra idea de Internet como el pináculo del conocimiento humano pinta un sombrío paisaje.

Esta erosión digital ocurre por motivos técnicos, como rediseños de sitios que alteran URLs sin mantener compatibilidad o el abandono de tecnologías obsoletas (como Flash), motivos económicos (alguien olvidó pagar las cuentas), pero también por factores legales, como disputas de propiedad intelectual o privacidad, como el derecho al olvido, que llevan a la eliminación de contenidos.

Frente a esta realidad, y con la ambiciosa misión de garantizar el “acceso universal a todo el conocimiento” y preservar el contenido y la historia de la web, en 1996 se fundó el sitio web más importante del mundo que quizá nunca hayas escuchado nombrar: el Internet Archive (Archivo de Internet). Aunque hoy existen más de mil millones de sitios web, por aquel entonces eran apenas tres mil.

Como explican en su sitio, el Archivo comenzó apenas un año después del despegue comercial de la web con el propósito de preservarla: tal como lo que se publica en los periódicos, el contenido en la web era efímero, pero nadie lo estaba archivando. Su famosa Wayback Machine (algo así como “máquina del tiempo”), que se usa para revisar versiones anteriores de sitios web incluso cuando ya no existen, preserva actualmente casi 900 mil millones de páginas web, que permiten seguir una línea de tiempo de la evolución de internet, pero también garantizar que la historia no pueda reescribirse sin dejar rastro.

Sin embargo, esto es solo la punta del iceberg: su programa de digitalización de libros suma más de 44 millones de obras y procesa aproximadamente 4.400 volúmenes diarios. Sus colecciones incluyen 15 millones de grabaciones de audio (desde música hasta programas de radio históricos), 10 millones de videos (películas, documentales, noticieros), más de un millón de programas de software y casi 5 millones de imágenes. El Archivo, además, se encarga de desarrollar herramientas para manejar formatos obsoletos y garantizar que aquello que fue creado con tecnología desaparecida siga siendo accesible. Todo este material está disponible gratuitamente, siguiendo aquel principio de la cultura libre y la ética hacker que defiende que el conocimiento no debe estar sujeto a barreras económicas.

Este esfuerzo no es un capricho académico o un simpático pasatiempo. En un mundo donde declaraciones públicas, evidencia periodística y documentos oficiales pueden modificarse o desaparecer con un clic, los archivos digitales se convierten en herramientas esenciales para la memoria viva de la democracia. La naturaleza selectiva de lo que se preserva en línea, impulsada por intereses comerciales o políticos, conduce inevitablemente a un registro histórico sesgado e incompleto.

Si no podemos verificar la autenticidad y la confiabilidad de la información, no podemos apoyarnos en ella. El Archivo permite contrastar versiones, verificar cambios y recuperar información eliminada. En este sentido, y sin exagerar, cumple una función similar a la que tuvieron las primeras bibliotecas públicas en la era de la imprenta: democratizar el acceso al conocimiento y servir como contrapeso al control centralizado de la información.

Es demasiado tentador asumir que si algo no está en internet no existe, pero es tan estúpido como cuando Homero dice que “la televisión siempre tiene razón”. Para que algo publicado en internet perdure, alguien debe tomar la decisión activa de guardarlo. Como señala LaFrance: “Lo efímero está integrado en la arquitectura misma de la web, que estaba destinada a ser un sistema de mensajería, no una biblioteca”.

Mientras un libro impreso puede durar siglos con cuidados básicos, un archivo digital depende de una compleja cadena tecnológica e institucional. Esto genera la “paradoja de la prehistoria digital”: tenemos más registros físicos de civilizaciones antiguas que de los primeros treinta años de la computación (1960–1990), y aproximadamente el 80% de los datos en los que se apoyan las investigaciones científicas de los años 90 han desaparecido para siempre.

Esto encuentra un paralelo con lo que sobrevivió de la Antigüedad. Lo que se perdió en la mayoría de los casos no fue por deliberada destrucción, sino porque nadie consideró que fuera importante guardarlo. Si de Aristóteles nos quedan sus escritos técnicos y tratados filosóficos destinados a la enseñanza en vez de sus obras literarias, ampliamente leídas en la Antigüedad, no fue por una conspiración en su contra.

De los casi 9 millones de libros impresos en los primeros 50 años luego de la invención de la imprenta de Gutenberg, no sobrevivió más que un puñado. Más recientemente, el 90% de los originales del cine mudo argentino y la mitad del cine sonoro se perdieron, principalmente por la ausencia de políticas estatales efectivas y continuas, pero también porque no se supo reconocer que preservarlos podía tener importancia.

Las consecuencias no son solo historiográficas o científicas, sino también cognitivas: aunque la evidencia lejos está de ser concluyente, hay sospechas de que nuestra dependencia en dispositivos que almacenan información podría afectar nuestra capacidad para retenerla y procesarla. Si la memoria individual y colectiva descansan sobre cimientos tan inestables, la base del conocimiento compartido se vuelve endeble.

Aun así, la tarea de preservación que encara el Internet Archive enfrenta enormes desafíos. Contra viento y marea, sufre constantes ataques: desde demandas de parte de las editoriales, que a principios de la pandemia acordaron el préstamo digital de libros pero luego cambiaron de parecer, hasta ataques contra su infraestructura.

También enfrenta retos complejos, como equilibrar la preservación histórica con el “derecho al olvido” y la privacidad individual. Incluso su modelo económico es frágil y se apoya en donaciones privadas e institucionales, que le permiten mantener su enorme infraestructura. En parte, como sucede con Wikipedia, su compromiso con el acceso gratuito limita sus fuentes de ingresos en un contexto donde es difícil convencer sobre el valor de preservar lo digital hasta que desaparece.

A todo esto se suma un nuevo desafío, difícil de anticipar: la irrupción masiva de contenido generado por modelos de lenguaje grandes (LLMs) como ChatGPT, especialmente desde fines de 2022. Esta rápida proliferación de textos e imágenes generados automáticamente está saturando la web a una velocidad demencial. Este fenómeno genera un dilema en cuanto a la preservación de información, ya que es necesario diferenciar entre el contenido creado por humanos — que posee un contexto y un potencial valor histórico — y el vasto volumen de material sintético, frecuentemente repetitivo, de baja calidad o incluso engañoso.

Un archivo indiscriminado podría disminuir la calidad del registro histórico, dificultando en el futuro la identificación de información auténtica y confiable. Pero además supone el desafío de elegir qué preservar, bajo el riesgo de estar guardando porquerías sin valor que incluso pueden “envenenar” el entrenamiento de las mismas máquinas.

Del mismo modo en que no encontramos valor en una casilla de correo repleta de SPAM, vamos en camino a una web donde lo que encontraremos no será más que su imagen borrosa, donde colapsaremos ante un textopocalipsis en el que los límites entre el ingenio humano y la regurgitación automática de copias baratas se desdibujen, incluso al punto de empeorar el rendimiento de los modelos entrenados con esa información.

El Archivo de Internet ahora cumple una nueva función: mostrarnos cómo era la web antes de noviembre de 2022. Las máquinas se lo van a agradecer.

Investiga sobre el impacto político y social de la tecnología. Escribe «Receta para el desastre», un newsletter acerca de ciencia, tecnología y filosofía, y desde 2017 escribe «Cómo funcionan las cosas», un newsletter que cruza ciencia, historia, filosofía y literatura desde la exploración de la curiosidad.