एंथ्रोपिक: विशाल एआई मॉडलों को 'जहर' देने के लिए थोड़ी मात्रा में डेटा ही पर्याप्त है

चैटबॉट डेवलपमेंट कंपनी क्लाउड के नए शोध से पता चलता है कि अरबों पैरामीटर वाले बड़े भाषा मॉडल को भी थोड़ी मात्रा में डेटा से 'विषाक्त' किया जा सकता है।

Báo Tuổi Trẻ•13/10/2025

Anthropic: Chỉ lượng tài liệu nhỏ cũng đủ 'đầu độc' mô hình AI khổng lồ - Ảnh 1. — एंथ्रोपिक ने चेतावनी दी है कि एआई प्रतिक्रियाओं को विकृत करने के लिए दुर्भावनापूर्ण डेटा डालना कल्पना से कहीं अधिक आसान है - फोटो: फ्रीपिक

चैटबॉट क्लाउड के डेवलपर, आर्टिफिशियल इंटेलिजेंस कंपनी एंथ्रोपिक ने हाल ही में शोध प्रकाशित किया है, जिसमें दिखाया गया है कि बड़े भाषा मॉडल (एलएलएम) को "विषाक्त" करना, अर्थात एआई प्रतिक्रियाओं को विकृत करने के लिए दुर्भावनापूर्ण डेटा डालना, कल्पना से कहीं अधिक आसान है।

साइबर न्यूज के अनुसार, केवल 250 विशेष रूप से तैयार किए गए दस्तावेज़ एक निश्चित ट्रिगर वाक्यांश का सामना करते समय एक जनरेटिव एआई (जेनएआई) मॉडल को पूरी तरह से गलत उत्तर देने के लिए पर्याप्त हैं।

चिंता की बात यह है कि मॉडल का आकार इस जोखिम को कम नहीं करता। पहले, शोधकर्ताओं का मानना था कि मॉडल जितना बड़ा होगा, "बैकडोर" स्थापित करने के लिए उतने ही ज़्यादा दुर्भावनापूर्ण डेटा की ज़रूरत होगी।

लेकिन एंथ्रोपिक का दावा है कि 13 बिलियन पैरामीटर मॉडल - जो 20 गुना अधिक डेटा पर प्रशिक्षित है - और 600 मिलियन पैरामीटर मॉडल को केवल "विषाक्त" दस्तावेजों की एक छोटी संख्या के साथ समझौता किया जा सकता है।

एंथ्रोपिक ने ज़ोर देकर कहा, "यह खोज इस धारणा को चुनौती देती है कि एक हमलावर को प्रशिक्षण डेटा के एक निश्चित प्रतिशत पर नियंत्रण रखना ही चाहिए। वास्तव में, उन्हें केवल एक बहुत ही छोटी और निश्चित मात्रा की ही आवश्यकता हो सकती है।"

कंपनी ने चेतावनी दी है कि ये कमजोरियां एआई प्रणालियों की सुरक्षा के लिए गंभीर खतरा पैदा कर सकती हैं और संवेदनशील क्षेत्रों में प्रौद्योगिकी के अनुप्रयोग को खतरे में डाल सकती हैं।

विषय पर वापस जाएँ

खान क्विन

स्रोत: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm