
Η Anthropic προειδοποιεί ότι η εισαγωγή κακόβουλων δεδομένων για την παραμόρφωση των απαντήσεων της Τεχνητής Νοημοσύνης είναι πολύ πιο εύκολη από ό,τι φανταζόταν - Φωτογραφία: FREEPIK
Η εταιρεία τεχνητής νοημοσύνης Anthropic, η εταιρεία ανάπτυξης του chatbot Claude, μόλις δημοσίευσε έρευνα που δείχνει ότι η «δηλητηρίαση» μεγάλων γλωσσικών μοντέλων (LLM), δηλαδή η εισαγωγή κακόβουλων δεδομένων για την παραμόρφωση των απαντήσεων της τεχνητής νοημοσύνης, είναι πολύ πιο εύκολη από ό,τι φανταζόταν.
Σύμφωνα με το Cyber News, μόνο 250 ειδικά κατασκευασμένα έγγραφα είναι αρκετά για να κάνουν ένα μοντέλο γενετικής Τεχνητής Νοημοσύνης (GenAI) να δώσει εντελώς λανθασμένες απαντήσεις όταν συναντά μια συγκεκριμένη φράση ενεργοποίησης.
Ανησυχητικά, το μέγεθος του μοντέλου δεν μειώνει αυτόν τον κίνδυνο. Προηγουμένως, οι ερευνητές πίστευαν ότι όσο μεγαλύτερο είναι το μοντέλο, τόσο περισσότερα κακόβουλα δεδομένα θα χρειάζονταν για την εγκατάσταση μιας «κερκόπορτας».
Αλλά η Anthropic ισχυρίζεται ότι τόσο το μοντέλο των 13 δισεκατομμυρίων παραμέτρων – που έχει εκπαιδευτεί σε περισσότερα από 20 φορές περισσότερα δεδομένα – όσο και το μοντέλο των 600 εκατομμυρίων παραμέτρων μπορούν να παραβιαστούν με τον ίδιο μικρό αριθμό «δηλητηριασμένων» εγγράφων.
«Αυτό το εύρημα αμφισβητεί την υπόθεση ότι ένας εισβολέας πρέπει να ελέγχει ένα ορισμένο ποσοστό των δεδομένων εκπαίδευσης. Στην πραγματικότητα, μπορεί να χρειάζεται μόνο ένα πολύ μικρό σταθερό ποσό», τόνισε ο Anthropic.
Η εταιρεία προειδοποιεί ότι αυτά τα τρωτά σημεία θα μπορούσαν να θέσουν σε σοβαρούς κινδύνους την ασφάλεια των συστημάτων τεχνητής νοημοσύνης και να απειλήσουν την εφαρμογή της τεχνολογίας σε ευαίσθητες περιοχές.
Πηγή: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
Σχόλιο (0)