Internet Archive e la straordinaria impresa di aver preservato il suo millesimo miliardesimo sito web.

Internet Archive, uno dei più importanti progetti di biblioteca online, ha appena raggiunto un traguardo storico. Dopo quasi 30 anni di impegno, questa organizzazione no-profit ha archiviato con successo il suo millesimo miliardesimo sito web. Questo evento segna una svolta fondamentale nel campo dell'archiviazione digitale, soprattutto nel contesto di un internet che sta diventando una parte indispensabile della vita, ma anche sempre più difficile da controllare e instabile.

Questa immagine illustra la biblioteca digitale Internet Archive, che dal 1996 ha archiviato trilioni di pagine web. (Fonte: Sinem Görücü)

Sebbene Internet offra innumerevoli vantaggi, la sostenibilità non è mai stata la sua caratteristica distintiva. I contenuti digitali sono intrinsecamente effimeri, e in genere esistono solo finché il loro proprietario ha le risorse e la volontà di mantenerli.

Un esempio lampante è il disastro dei dati di MySpace del 2019. A causa di un errore tecnico durante una migrazione dei server, il social network ha inavvertitamente cancellato tutti i contenuti musicali e i dati degli utenti caricati tra il 2003 e il 2015. In una sola notte, circa 50 milioni di canzoni di 14 milioni di artisti sono andate perse per sempre da internet.

Questi sono proprio gli scenari che l'Internet Archive si sforza di prevenire. Dal 1996, l'organizzazione si prefigge l'obiettivo di creare una "documentazione permanente dell'evoluzione di Internet". Utilizzano sistemi automatizzati di raccolta dati per eseguire il backup dei siti web pubblici, e ricevono anche contributi da volontari, come edizioni cartacee, registrazioni audio e molti altri formati multimediali rari.

Dopo quasi trent'anni, questo archivio ha accumulato oltre 866 miliardi di pagine web e 41 milioni di documenti digitalizzati. Con circa 500 milioni di pagine aggiunte quotidianamente, il volume totale attuale dei dati è stimato intorno ai 100.000 terabyte, l'equivalente della capacità di archiviazione di 50.000 iPhone di fascia alta attualmente in commercio.

Tuttavia, la "biblioteca dell'umanità" si trova ad affrontare nuove sfide a causa dell'esplosione dell'intelligenza artificiale (IA). Le aziende tecnologiche stanno ora sfruttando in modo aggressivo i dati online per addestrare modelli linguistici complessi, spesso in condizioni legali poco chiare. Per proteggersi, molte grandi testate giornalistiche come il New York Times e il Guardian hanno iniziato a bloccare l'accesso agli strumenti di archiviazione per salvaguardare i diritti d'autore sui contenuti generati dall'IA.

Questa reazione è del tutto comprensibile, data la mancanza di un quadro giuridico specifico che garantisca un adeguato risarcimento ai creatori. Tuttavia, ciò rende inavvertitamente più difficile che mai la preservazione dell'ecosistema informativo dell'umanità. In futuro, raggiungere un consenso tra tutte le parti in merito a diritti e responsabilità sarà fondamentale per la continua esistenza dell'Internet Archive e per il suo obiettivo di preservare 2 trilioni di pagine web.

Minh Hoan

Fonte: https://vtcnews.vn/internet-archive-va-ky-tich-bao-ton-trang-web-thu-1-000-ty-ar1004480.html