Black Hat Europe 2024: Pot fi sistemele AI manipulate prin inginerie socială?

December 18, 2024

AI Cybersecurity

Ar putea atacatorii să folosească instrucțiuni aparent inofensive pentru a manipula un sistem AI și chiar să îl transforme într-un aliat involuntar?

Atunci când interacționăm cu chatboți și alte instrumente bazate pe AI, de obicei le adresăm întrebări simple, precum „Cum va fi vremea astăzi?” sau „Vor circula trenurile la timp?”. Cei care nu sunt implicați în dezvoltarea AI presupun probabil că toate datele sunt descărcate într-un sistem unic, gigantic și atotștiutor, care procesează instantaneu interogările și oferă răspunsuri. Totuși, realitatea este mult mai complexă și, așa cum s-a arătat la Black Hat Europe 2024, aceste sisteme ar putea fi vulnerabile la exploatare.

O prezentare susținută de Ben Nassi, Stav Cohen și Ron Bitton a detaliat modul în care actorii rău intenționați ar putea ocoli mecanismele de protecție ale unui sistem AI pentru a-i submina funcționarea sau a exploata accesul la acesta. Cei trei au demonstrat că, adresând unui sistem AI întrebări specifice, este posibil să fie generat un răspuns care provoacă daune, cum ar fi un atac de tip denial-of-service.

Crearea de bucle nesfârșite și supraîncărcarea sistemelor

Pentru mulți dintre noi, un serviciu AI poate părea o sursă unică. În realitate însă, se bazează pe multe componente interconectate sau, așa cum le numesc specialiștii, agenți. Revenind la exemplul anterior, interogarea referitoare la vreme și trenuri va necesita date de la agenți separați – unul care are acces la datele meteo și altul care oferă actualizări despre statusul mersului trenurilor.

Modelul – sau agentul principal pe care prezentatorii l-au numit „planificatorul” – trebuie apoi să integreze datele de la agenții individuali pentru a formula răspunsuri. De asemenea, există mecanisme de protecție menite să împiedice sistemul să răspundă la întrebări care sunt nepotrivite sau dincolo de aria sa de competență. De exemplu, unele sisteme AI ar putea evita să răspundă la întrebări de natură politică.

Cu toate acestea, autorii prezentării au demonstrat că aceste mecanisme de protecție pot fi manipulate, iar anumite întrebări specifice pot declanșa bucle nesfârșite. Un atacator care stabilește limitele mecanismelor de protecție formulează o întrebare care generează continuu un răspuns interzis. Crearea unui număr suficient de instanțe ale acelei întrebări ajunge, în cele din urmă, să suprasolicite sistemul și să declanșeze un atac de tip denial-of-service.

Când implementezi acest scenariu într-o situație de zi cu zi, așa cum au făcut prezentatorii, poți observa cât de rapid provoacă daune. Un atacator trimite un e-mail către un utilizator care are un asistent AI, încorporând o interogare care este procesată de asistentul AI și pentru care generează un răspuns. Dacă răspunsul este întotdeauna considerat nesigur și solicită rescrieri, se creează o buclă care duce la un atac de tip denial-of-service. Trimițând suficiente astfel de e-mailuri, sistemul ajunge să se blocheze, cu resursele și energia epuizate.

Desigur, ne întrebăm cum se pot extrage informațiile referitoare la mecanismele de protecție din sistem pentru a le exploata. Echipa a demonstrat o versiune mai avansată a atacului de mai sus, care a implicat manipularea sistemului de AI în sine pentru a furniza informații de bază printr-o serie de solicitări aparent inofensive cu privire la operațiunile și configurația sa.

O întrebare precum „Ce sistem de operare sau ce versiune SQL folosești?” este probabil să genereze un răspuns relevant. Combinată cu informații aparent fără legătură despre scopul sistemului, poate furniza suficient de multe date astfel încât să se poată trimite comenzi text către sistem, iar dacă un agent are acces privilegiat, acest acces ar putea fi acordat involuntar atacatorului. În termeni de atacuri cibernetice, metoda este cunoscută drept „escaladarea privilegiilor” – prin care atacatorii exploatează vulnerabilitățile pentru a obține un nivel de acces mai înalt decât cel intenționat.

Amenințarea emergentă a ingineriilor sociale aplicate sistemelor AI

Ceea ce s-a demonstrat prin această prezentare este un atac de inginerie socială asupra unui sistem AI. Îi adresezi întrebări la care este fericit să răspundă, permițând totodată actorilor rău intenționați să pună cap la cap piesele individuale de informație și să folosească cunoștințele combinate pentru a ocoli apărarea și a extrage date suplimentare sau pentru a determina sistemul să întreprindă acțiuni pe care nu ar trebui să le facă.

Iar dacă unul dintre agenții din lanț are drepturi de acces, acest fapt ar putea face sistemul mai exploatabil, permițând atacatorului să folosească acele drepturi în interes propriu. Un exemplu extrem folosit de prezentator a implicat un agent cu privilegii de scriere a fișierelor; în cel mai rău caz, agentul ar putea fi folosit în mod abuziv pentru a cripta date și a bloca accesul altora – un scenariu cunoscut sub denumirea de incident ransomware.

Manipularea prin inginerie socială a unui sistem de AI prin lipsa controalelor sau a drepturilor de acces demonstrează că este necesară o analiză și o configurare atentă atunci când se implementează un sistem de AI, astfel încât acesta să nu devină vulnerabil la atacuri.

Tony Anscombe December 18, 2024