สิ่งที่กำลังจะกลายเป็นเพียงความทรงจำบนอินเทอร์เน็ต

การเพิ่มขึ้นอย่างรวดเร็วของเนื้อหาที่สร้างโดย AI ได้สร้างปัญหาด้านความน่าเชื่อถือ เนื่องจากข้อมูลที่มาจากมนุษย์ล้วนๆ กำลังหายากขึ้นเรื่อยๆ

ZNews•09/06/2025

เนื้อหาที่สร้างสรรค์โดยมนุษย์ล้วนๆ เป็นหนึ่งในทรัพยากรที่หายากในยุคปัญญาประดิษฐ์ (AI) ภาพ: Advertising Week

การปรากฏตัวของ ChatGPT ในปี 2022 ก่อให้เกิดการเติบโตอย่างรวดเร็วของเนื้อหาที่ขับเคลื่อนด้วย AI บนอินเทอร์เน็ต Gartner คาดการณ์ว่าภายในปี 2026 เนื้อหาบนอินเทอร์เน็ต 90% จะถูกสร้างขึ้นโดย AI ซึ่งรวมถึงข้อความ รูปภาพ และ วิดีโอ

ปัญญาประดิษฐ์ได้รับการฝึกฝนให้เข้าใจความคิดของมนุษย์ อย่างไรก็ตาม หากไม่มีข้อมูลที่สร้างขึ้นโดยมนุษย์อย่างแท้จริงอีกต่อไป เทคโนโลยีนี้จะใช้ข้อมูลเก่าของตัวเอง เหมือนกับเครื่องถ่ายเอกสารที่คัดลอกตัวเอง

นักวิจัยหลายคนเปรียบเทียบเนื้อหาต้นฉบับที่สร้างขึ้นโดยมนุษย์กับเหล็ก "บริสุทธิ์" ในยุคปัจจุบัน ซึ่งเทียบเท่ากับความหายากและความยากลำบากในการค้นหา พวกเขากังวลว่าหากไม่มีใครเก็บสำเนาข้อมูลไว้ก่อนปี 2022 อินเทอร์เน็ตจะสูญเสียความสมบูรณ์ไปโดยสิ้นเชิง

หายนะทางประวัติศาสตร์กำลังเกิดขึ้นซ้ำรอย

ในยุคหลังสงครามนิวเคลียร์ นักวิทยาศาสตร์ ค้นพบว่าเหล็กทั้งหมดที่ผลิตหลังปี 1945 ปนเปื้อนไปด้วยสารกัมมันตรังสี ระเบิดปรมาณูได้ปนเปื้อนชั้นบรรยากาศด้วยรังสี ซึ่งแพร่กระจายไปยังโลหะที่ผลิตในสภาพแวดล้อมนั้น

ผลที่ตามมาคือเหล็กจำนวนมากไม่สามารถนำไปใช้กับอุปกรณ์วัดที่มีความแม่นยำสูง เช่น เครื่องวัดรังสีไกเกอร์และเซ็นเซอร์ที่มีความไวสูงอื่นๆ ได้ ทางแก้คือการนำเหล็กเก่าจากเรือรบที่จมลงก่อนสงคราม ซึ่งจมอยู่ก้นมหาสมุทรลึกๆ กลับมาใช้ใหม่ เพื่อไม่ให้ได้รับผลกระทบจากกัมมันตรังสี

สำหรับนักพัฒนา AI นั้น โมเดลส่วนใหญ่ได้รับการฝึกฝนโดยใช้ชุดข้อมูลขนาดใหญ่ของข้อมูลมนุษย์ที่รวบรวมจากอินเทอร์เน็ต แต่หากซอฟต์แวร์ในปัจจุบันเรียนรู้จากข้อความที่สร้างขึ้นในอดีต โมเดลเหล่านั้นอาจล้มเหลว ทำให้ความเป็นเอกลักษณ์และความลึกซึ้งของโมเดลลดลง

เรือรบฮินเดนเบิร์ก ซึ่งจมลงในระหว่างสงครามโลกครั้งที่ 1 ได้รับการกู้ขึ้นมาแล้ว ภาพ: Reuters Connect

วิล อัลเลน รองประธานของ Cloudflare ซึ่งเป็นผู้ให้บริการเครือข่ายอินเทอร์เน็ตที่ใหญ่ที่สุดแห่งหนึ่ง ของโลก กล่าวว่า สิ่งนี้ทำให้เนื้อหาที่มนุษย์สร้างขึ้น โดยเฉพาะอย่างยิ่งเนื้อหาที่สร้างขึ้นก่อนปี 2022 มีค่ามากขึ้น เขาให้เหตุผลว่ามันช่วยให้โมเดล AI รวมถึงสังคมโดยรวม สามารถยืนหยัดอยู่บนพื้นฐานของความเป็นจริงร่วมกันได้ หากปราศจากรากฐานนั้นแล้ว ทุกอย่างก็จะซับซ้อนขึ้น

แพลตฟอร์มมีความสำคัญอย่างยิ่งในสาขาเทคโนโลยีขั้นสูง เช่น การแพทย์ กฎหมาย หรือภาษี ตัวอย่างเช่น แพทย์ควรพึ่งพาเนื้อหาที่เขียนโดยผู้เชี่ยวชาญและงานวิจัยที่เป็นข้อเท็จจริง ไม่ใช่แหล่งข้อมูลที่สร้างขึ้นโดย AI

ภัยคุกคามนี้กำลังกลายเป็นความจริงเช่นกัน หนึ่งปีหลังจากที่ ChatGPT เปิดตัว นักลงทุนร่วมทุน Paul Graham เล่าว่าเขาต้องค้นหาเนื้อหาเก่าๆ เพื่อค้นหาข้อมูลอย่างง่ายๆ เพื่อหลีกเลี่ยง “เนื้อหาหลอกลวง SEO ที่สร้างโดย AI” Malte Ubl ซีทีโอของสตาร์ทอัพ AI Vercel ตอบว่า Graham กำลังกรองเนื้อหาบนอินเทอร์เน็ต “ก่อนที่มันจะถูกปนเปื้อนด้วย AI”

แมตต์ ริคาร์ด อดีตวิศวกรของกูเกิลเห็นด้วยกับเรื่องนี้ เขาเขียนไว้ในบล็อกโพสต์เมื่อปี 2023 ว่า AI รวบรวมข้อมูลจากอินเทอร์เน็ต แต่ในปัจจุบัน เนื้อหาบนอินเทอร์เน็ตส่วนใหญ่ถูกสร้างขึ้นโดย AI เอง “การตรวจจับผลลัพธ์จากแชทเนอร์นั้นทำได้ยากมาก การหาข้อมูลฝึกฝนที่ไม่ถูกดัดแปลงโดย AI จะยากขึ้นเรื่อยๆ” ริคาร์ดอธิบาย

การ "ค้นหาเหล็กบนพื้นทะเล"

คำตอบของปัญหานี้อยู่ที่การเก็บรักษาข้อมูลที่มนุษย์สร้างขึ้นก่อนยุคปัญญาประดิษฐ์ (AI) จะเฟื่องฟู หนึ่งในผู้บุกเบิกในด้านนี้คือ จอห์น เกรแฮม-คัมมิง สมาชิกคณะกรรมการและประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Cloudflare

โครงการของเขา เว็บไซต์ LowBackgroundSteel.ai แสดงรายการชุดข้อมูล เส้นทาง และสื่อต่างๆ ที่มีอยู่ก่อนปี 2022 ตัวอย่างหนึ่งที่ยกมาคือ Arctic Code Vault ของ GitHub ซึ่งเป็นคลังซอฟต์แวร์โอเพนซอร์สที่ฝังอยู่ในเหมืองถ่านหินร้างในนอร์เวย์ โดยมีข้อมูลตั้งแต่เดือนกุมภาพันธ์ 2020

โครงการอนุรักษ์ข้อมูลมนุษย์ของเกรแฮม-คัมมิง ภาพถ่าย: Lowbackgroundsteel.ai

แหล่งข้อมูลอีกแหล่งที่เขายกมาคือ “wordfreq” ซึ่งเป็นโครงการที่ติดตามความถี่ใน การใช้ คำบนโลกออนไลน์ โดยนักภาษาศาสตร์ Robyn Speer เป็นผู้ดูแลโครงการนี้จนถึงปี 2021

สเปียร์กล่าวว่า "ปัญญาประดิษฐ์ (AI) ได้ทำให้ข้อมูลปนเปื้อน" เธอยกตัวอย่างกรณีที่ ChatGPT หมกมุ่นกับคำว่า "delve" มากเกินไป จนทำให้คำนี้ปรากฏขึ้นบ่อยครั้งในช่วงหลัง ซึ่งทำให้ข้อมูลบนอินเทอร์เน็ตผิดเพี้ยนไป ทำให้ข้อมูลเหล่านั้นไม่น่าเชื่อถือในการสะท้อนวิธีการเขียนและการคิดของมนุษย์

โมเดล AI ที่ได้รับการฝึกฝนบางส่วนจากเนื้อหาที่สร้างขึ้นสามารถเร่งกระบวนการทำงานและลดความน่าเบื่อในงานสร้างสรรค์ได้ อย่างไรก็ตาม นอกเหนือจากประสิทธิภาพแล้ว ผู้ใช้อาจยังคงต้องพึ่งพาเนื้อหาต้นฉบับที่สร้างโดยมนุษย์เพื่อการประเมินที่แม่นยำ เช่นเดียวกับการใช้ "เหล็กคุณภาพต่ำ" สำหรับการวัดที่แม่นยำ

นักวิทยาศาสตร์ได้พัฒนาวิธีการต่างๆ ในการผลิตเหล็กโดยใช้ออกซิเจนบริสุทธิ์ ตามรายงานของ Business Insider สิ่งนี้เตือนเราว่าการอนุรักษ์อดีตอาจเป็นหนทางเดียวที่จะสร้างอนาคตที่มั่นคงได้

ที่มา: https://znews.vn/thu-sap-thanh-hoai-niem-บน-internet-post1559151.html