Một phần dữ liệu trên Internet đã biến mất hoàn toàn. Ảnh: Yale Alumni Magazine. |
Chúng ta đang sống trong thời đại kỹ thuật số hiện đại, với sức chứa không giới hạn. Hiện nay, hầu hết thế hệ đều đăng tải hình ảnh, video lên mạng như một cách lưu trữ kỷ niệm an toàn. Tuy vậy, nghịch lý là thông tin lại dễ mất hơn bao giờ hết.
Theo IDC, đến 2025, thế giới sẽ tạo ra trên 180 zettabytes dữ liệu mỗi năm, nhưng phần lớn khá tạm thời và không được quản lý đúng cách. Giờ đây, mỗi người sở hữu cho mình lượng nội dung gấp 4.000 lần so với 15 năm trước, chưa kể hộp thư với cả nghìn email.
Các nhà lưu trữ số bày tỏ lo ngại về một kỷ nguyên đen tối kỹ thuật số, khi có quá ít hoặc không tìm thấy dữ liệu về một khoảng thời gian nhất định, khiến nó hoàn toàn biến mất. Hơn nữa, với sự bùng nổ của AI, nội dung nguyên bản do con người tạo ra trở nên đặc biệt khan hiếm.
“Tràn” bộ nhớ kỹ thuật số
Gần 90-95% dữ liệu toàn cầu được tạo ra trong những năm trở lại đây. Với sự gia nhập của nhiều nền tảng mạng xã hội, Digital Silk dự đoán lượng nội dung sẽ tăng hơn gấp đôi so với hiện nay vào năm 2028, đạt mức 394 zettabytes.
Mỗi người sản xuất, cũng như tiêu thụ lượng dữ liệu đáng kinh ngạc. Digital Silk cho biết mỗi ngày người dùng Instagram đăng 95 triệu hình ảnh và video lên nền tảng. Mỗi giờ lướt TikTok của một người sẽ tiêu hao 840 MB dữ liệu. Các lượt nghe nhạc, xem video trên Spotify, YouTube cũng tiêu tốn lượng tài nguyên số không đếm xuể.
Lưu trữ dữ liệu là một công việc không hồi kết, và đang trở nên ngày càng khó khăn. Xã hội ngày nay tạo ra quá nhiều thứ, đến mức tự chúng ta phải xóa bỏ nhiều hơn mỗi năm để tiếp tục vòng xoáy này. Các nhà lưu trữ cũng phải chọn lọc thứ gì nên giữ và cần bỏ bớt để trống chỗ.
Thông tin từ những người nổi tiếng là một trong những dạng khó lưu trữ. Tại Thư viện Anh, khi một chiếc laptop hay điện thoại của người có ảnh hưởng được gửi đến, Callum McKean, người phụ trách lưu trữ kỹ thuật số chính của thư viện, sẽ sao chép toàn bộ ổ cứng để tạo ra một bản gốc.
![]() |
Lượng dữ liệu đang trở nên quá tải cho các nhà lưu trữ. Ảnh: The Atlantic. |
Sau đó, các nhà lưu trữ sẽ tạo ra một phiên bản tuyển chọn, trong đó lọc bỏ các thông tin nhạy cảm, tương tự như cách họ xử lý hồ sơ giấy. Có nhiều phần mềm được quảng bá là sẽ giúp giảm tải công việc này, nhưng không hoàn hảo. Trong một số trường hợp, họ phải rà soát từng tệp một cách thủ công.
Hàng triệu tin nhắn, hình ảnh được gửi đi hàng giờ qua vô số ứng dụng nhắn tin. Tạp chí MIT Technology cho rằng thông tin hiện nay đang trở nên mong manh hơn bao giờ hết khi các nền tảng như YouTube, Facebook, hoàn toàn có khả năng biến mất một ngày nào đó.
Điều này từng xảy ra trước đây. MySpace, mạng xã hội quy mô lớn đầu tiên, dường như do sơ suất, từng xóa toàn bộ ảnh, video và file âm thanh được tải lên trước năm 2016. Tháng 6/2024, hơn 20 năm báo chí âm nhạc cũng đã biến mất khi kho lưu trữ của MTV News bị gỡ khỏi internet.
Không phân biệt được nội dung AI
Ở diễn biến khác, dù gần đây được tạo ra tràn lan, không phải nội dung nào cũng đảm bảo tính xác thực. Các chuyên gia tại Cloudfare, đơn vị vận hành một trong những mạng Internet lớn nhất thế giới, đã bày tỏ lo ngại về việc AI tạo sinh đã làm “ô nhiễm” dữ liệu nguyên bản từ con người.
Trí tuệ nhân tạo được huấn luyện để học theo con người. Nhưng với tình hình hiện nay đa phần nội dung trên mạng đều được tạo bởi AI, chúng sẽ có nhiều khả năng tự sao chép chính mình, làm loãng chất lượng.
Các nhà khoa học đã so sánh hiện tượng này với thảm hoạ ô nhiễm thép sau Thế chiến II, khi toàn bộ thép trên mặt đất bị ảnh hưởng bởi phóng xạ, không đảm bảo được tính chính xác. Những tài liệu trước năm 2022, thời điểm AI ra mắt, càng trở nên khan hiếm và có nhiều nguy cơ biến mất nếu không được lưu trữ kịp thời.
Nhiều diễn đàn từng là nơi chia sẻ, là trung tâm sinh hoạt văn hóa số của người trẻ như Yahoo 360 đã bị xóa sổ khỏi Internet. Trong khi đó, nền tảng hiện đại như Facebook, TikTok, thậm chí cả Reddit, từng là nơi trao đổi của mọi người, giờ bị chi phối bởi thuật toán và nội dung AI tạo sinh.
![]() |
Wayback Machine, một trong những dự án lưu trữ ảnh chụp màn hình của các trang web đã biến mất. Ảnh: Internet Archive. |
Những nội dung nguyên bản do con người tạo ra ngày nay lại bị xóa đi rất nhanh theo chính sách riêng tư, hay quy định lưu trữ ngắn hạn. Nhiều ứng dụng nhắn tin như Instagram, Whatsapp, Snapchat cho phép người dùng cài đặt thời gian tin nhắn biến mất. Hay nhiều tính năng như story, vanish mode ra đời để khuyến khích các dạng nội dung ngắn hạn.
Nội dung nguyên bản có vai trò quan trọng, đảm bảo tính nền tảng cho hầu hết phát hiện sau này. Theo Business Insider, việc bảo tồn dữ liệu này cho phép chúng ta xây dựng một tương lai đáng tin cậy.
Ngày càng nhiều thông tin không chọn lọc được tạo ra hàng ngày sẽ thế chỗ cho nội dung cũ. Tờ The Atlantic nhận định rằng các sử gia có thể đánh mất quyền tiếp cận những tài liệu riêng tư mang tính tiết lộ sâu sắc, dẫn đến khả năng một “kỷ nguyên đen tối kỹ thuật số” sắp đến.
Nguồn: https://znews.vn/ky-nguyen-den-toi-ky-thuat-so-dang-den-post1560393.html
Bình luận (0)