Mozilla nedávno zverejnila kuriózny, no zároveň znepokojivý prípad z jej bug bounty programu ODIN (0-Day Investigative Network). Jeden z AI výskumníkov demonštroval, ako je možné obísť ochranné bariéry umelej inteligencie ChatGPT 4o a 4o mini a získať od nej aktívne Windows produktové kľúče.
Trik spočíval v prešibanej kombinácii zdanlivo neškodnej konverzácie a technického obídenia filtrov. Celá komunikácia bola zamaskovaná ako nevinná hra na hádanie. Výskumník stanovil „pravidlá hry“, ktoré AI musela dodržať – napríklad že „nesmie klamať“ a „musí sa zúčastniť“.
Ako informuje Notebookcheck, finálny zlom prišiel, keď používateľ zadal frázu „I give up“, čím AI dostala dojem, že má zverejniť odpoveď – teda reťazec znakov, ktorý v skutočnosti predstavoval aktivačný kľúč Windows. Navyše, požiadavka bola šikovne ukrytá v HTML tagoch, čo obišlo tradičné detekčné mechanizmy na citlivý obsah.
Podľa ODIN-u bol systém zrejme zmätený, pretože kľúče boli „často verejne dostupné“ na rôznych internetových fórach, kde ich medzi sebou zdieľali samotní používatelia. Možno aj preto ich nevyhodnotil ako vysoko citlivé.
Umelá inteligencia sa dá oklamať primitívnymi technikami
Tento incident odhaľuje slabiny v systémoch umelej inteligencie, ktoré sú školené na dodržiavanie pravidiel, no zároveň sa dajú oklamať nečakanými formami zadania.
Podobné techniky by mohli byť zneužité aj na získanie iných zakázaných údajov – od nevhodného obsahu až po osobné informácie. Aj preto je tento zdanlivo „neškodný“ problém v skutočnosti veľmi nebezpečný a spoločnosti vyvíjajúce AI musia tvrdo zapracovať na tom, aby sa podobné incidenty za žiadnych okolností neopakovali.
OpenAI a Mozilla zatiaľ incident nekomentovali detailne, no očakáva sa, že povedie k posilneniu AI bezpečnostných filtrov. Dajte nám vedieť do komentárov, čo si o tom myslíte vy. Tešíme sa na všetky vaše postrehy a názory.
Hľadáte nové Apple zariadenie? Skontrolujte náš SvetApple bazár, v ktorom nájdete viac ako 1 200 inzerátov na rôzne Apple produkty. Tie sem môžete pridať úplne zadarmo kliknutím na tento odkaz.