2 w. ago
Dikter kan lura chattbotar att bryta mot sina säkerhetsregler
En ny studie från universitetet La Sapienza i Rom och tankesmedjan Dex AI visar att AI-chattbotar kan luras att bryta mot sina säkerhetsregler om de får instruktioner i diktform, rapporterar Wired. Metoden kan bland annat användas för att få språkmodeller att avslöja information om kärnvapen, barnpornografi och skadlig kod. De poetiska instruktionerna fungerade på samtliga 25 chattbotar som testades, bland annat från företag som Open AI, Meta och Anthropic. I genomsnitt lyckades handskrivna dikter i 62 procent av fallen, medan maskingenererade dikter hade en framgångsgrad på cirka 43 procent. Forskarna skriver att det fungerar eftersom dikter använder oväntade ordval, metaforer och ovanlig syntax, vilket förvirrar modellernas semantiska kartor. På så sätt kan de kringgå de områden där säkerhetssystemen normalt skulle utlösas. Resultaten har delats med Open AI, Meta och Anthropic. Forskarna har valt att inte publicera några konkreta exempel på de poetiska promptarna, eftersom det bed...
Politics