De speeltuin van de Ai Whisperer

Waar de overheid en het bedrijfsleven Ai zien als een efficiëntieslag, ziet een groeiende community van ethisch hackers het als de nieuwe en vooral intellectuele uitdaging.

Gevaarlijk kun je zeggen, maar je zou ook kunnen zeggen ‘gelukkig maar’. Want zij leggen kwetsbaarheden van Ai bloot waar wij blind voor zijn.

Een uitdaging die smeekt om onder handen te worden genomen

Voor de gemiddelde gebruiker is een Ai-model zoals ChatGPT of Claude een handige assistent. Maar voor een specifieke groep onderzoekers is het een schaakbord. Een uitdaging die smeekt om onder handen te worden genomen.

In deze wereld gaat het niet om het stelen van data of het platleggen van servers met brute kracht. Het gaat om de kunst van de overtuiging. Waar traditionele hackers zoeken naar een vergeten komma in de code, zoeken deze ‘Ai whisperers’ naar de juiste combinatie van woorden.

Een jailbreak is hier een eretitel. Het betekent dat je een AI-model zover hebt gekregen dat het zijn eigen, door de ontwikkelaars ingebouwde guardrails negeert.

Claude werd omgevormd tot een malwarefabriek

Kevin Zwaan, Lead Researcher bij Q-Cyber, is een van de meest prominente figuren in deze beweging. Zijn recente demonstratie, waarbij hij Anthropic’s Claude in acht uur tijd omvormde tot een malwarefabriek, is een schoolvoorbeeld van hoe deze community te werk gaat. Inmiddels zijn ze al zover dat het in de helft van de tijd gaat.

Het was geen exploit. Het was een psychologisch spel. Hij overtuigde het model simpelweg om zijn eigen veiligheidsprotocollen te vergeten.

Voor Zwaan en zijn vakgenoten is dit geen kwaadaardigheid; het is noodzakelijk onderzoek. Ze begrijpen dat als zij een model kunnen overtuigen om malware te schrijven of desinformatie te genereren, kwaadwillenden dat ook kunnen.

In het onderzoek dat Zwaan samen met prof. dr. Yuri Bobbert publiceerde, wordt dit fenomeen socio-technische manipulatie genoemd. Het is de erkenning dat AI-veiligheid niet langer uitsluitend een wiskundig of technisch probleem is, maar een psychologisch en taalkundig vraagstuk.

De reflex van veel organisaties is om deze experimenten met argusogen te bekijken. Maar we hebben deze community harder nodig dan ooit. De overheid en het bedrijfsleven integreren LLM’s in hoog tempo in kritieke processen. Zonder de onorthodoxe, creatieve en soms ronduit dwarse blik van hackers zoals Zwaan, bouwen we een digitale infrastructuur op een fundament van vals vertrouwen.

De experimenteerdrift van deze community is geen bedreiging; het is onze beste verdedigingslinie. Zij vinden de gaten voordat de echte aanvallers dat doen.

In een wereld waar AI steeds meer beslissingen neemt, is de vraag niet óf een model gemanipuleerd kan worden, maar wie het als eerste ontdekt.

Lees het volledige onderzoek van Yuri Bobbert en Kevin Zwaan hier: https://lnkd.in/ew-9p2DU