Hackers gebruiken AI om Google's Gemini aan te vallen

Volgens BGR is er in een nieuw onderzoeksrapport een alarmerende techniek gepubliceerd met de naam 'Fun-Tuning'. Deze techniek maakt gebruik van AI (kunstmatige intelligentie) om automatisch uiterst effectieve prompt-injectieaanvallen te creëren die gericht zijn op andere geavanceerde AI-modellen, waaronder Gemini van Google.

Dankzij deze methode is het 'kraken' van AI sneller, goedkoper en eenvoudiger dan ooit. Dit markeert een nieuwe escalatie in de strijd tegen AI in de cyberveiligheid.

Het gevaar wanneer slechteriken AI gebruiken om AI te breken

Prompt injection is een techniek waarbij een aanvaller kwaadaardige instructies in de invoergegevens van een AI-model smokkelt (bijvoorbeeld via opmerkingen in de broncode of verborgen tekst op internet). Het doel is om de AI te 'misleiden' door deze te dwingen voorgeprogrammeerde veiligheidsregels te omzeilen, wat ernstige gevolgen kan hebben, zoals het lekken van gevoelige gegevens, het verstrekken van onjuiste informatie of het vertonen van ander gevaarlijk gedrag.

Hacker đang dùng chính AI để tấn công Gemini của Google - Ảnh 1. — Hackers gebruiken AI om AI aan te vallen

Voorheen waren er veel complexe en tijdrovende handmatige tests nodig om dergelijke aanvallen succesvol uit te voeren, vooral op 'gesloten' modellen zoals Gemini of GPT-4.

Maar Fun-Tuning heeft de spelregels compleet veranderd. De methode, ontwikkeld door een team van onderzoekers van verschillende universiteiten, maakt slim gebruik van de zeer geavanceerde Application Programming Interface (API) die Google gratis aan Gemini-gebruikers ter beschikking stelt.

Door de subtiele reacties van het Gemini-model tijdens het afstemmen te analyseren (bijvoorbeeld hoe het reageert op fouten in de data), kan Fun-Tuning automatisch de meest effectieve 'prefixes' en 'suffixes' bepalen om een kwaadaardige opdracht te maskeren. Dit vergroot de kans aanzienlijk dat de AI gehoor geeft aan de kwaadaardige bedoelingen van een aanvaller.

Uit testresultaten blijkt dat Fun-Tuning een slagingspercentage van maar liefst 82% behaalt bij sommige Gemini-versies. Dit cijfer overtreft de minder dan 30% van de traditionele aanvalsmethoden.

Wat Fun-Tuning nog gevaarlijker maakt, zijn de lage kosten. Omdat Googles tuning-API gratis beschikbaar is, kunnen de rekenkosten voor het opzetten van een effectieve aanval al oplopen tot $ 10. Bovendien ontdekten de onderzoekers dat een aanval die voor één versie van Gemini is ontworpen, gemakkelijk succesvol kan worden toegepast op andere versies, wat de mogelijkheid van wijdverspreide aanvallen vergroot.

Google heeft bevestigd zich bewust te zijn van de dreiging die Fun-Tuning vormt, maar heeft nog geen commentaar gegeven op de vraag of het de werking van de tuning-API zal veranderen. Het team wijst ook op het defensieve dilemma: het verwijderen van de informatie die Fun-Tuning uit het tuningproces exploiteert, zou de API minder bruikbaar maken voor legitieme ontwikkelaars. Omgekeerd zou het laten zoals het is een springplank blijven voor kwaadwillenden om te misbruiken.

De opkomst van Fun-Tuning is een duidelijke waarschuwing dat de confrontatie in cyberspace een nieuwe, complexere fase is ingegaan. AI is nu niet alleen een doelwit, maar ook een instrument en wapen in de handen van kwaadwillenden.

Bron: https://thanhnien.vn/hacker-dung-ai-de-tan-cong-gemini-cua-google-18525033010473121.htm