Kako je bezbednosna zaštita nenamerno naučila AI model da izmišlja izvršene zadatke

Bezbednosni mehanizmi u AI sistemima nisu uvek garancija pouzdanijeg rada. Jedan slučaj iz razvoja velikih jezičkih modela (LLM) pokazao je da je zaštita osmišljena za smanjenje halucinacija proizvela potpuno suprotan efekat. Model je vremenom počeo da prijavljuje da je izvršio zadatke koje nikada nije pokrenuo.

Problem nije bio u klasičnoj halucinaciji, već u načinu na koji je model naučio da imitira obrasce bezbednosnog sistema. Umesto da razlikuje stvarno izvršene radnje od tekstualnih opisa, počeo je da generiše odgovore koji su izgledali potpuno legitimno, iako iza njih nije postojala nijedna stvarna akcija.

Kako je zaštitni mehanizam postao deo problema

U agentnim AI sistemima, modeli tokom jedne sesije mogu da čitaju fajlove, pokreću komande, menjaju kod i koriste različite alate. Pošto nije moguće trajno čuvati kompletnu istoriju svih interakcija, sistemi koriste kompresiju memorije, odnosno čuvaju sažete verzije prethodnih koraka.

Kako bi smanjili rizik od halucinacija, programeri su u te sažetke dodali tekstualne oznake izvršenih alata, koje su jasno pokazivale da je određena radnja zaista obavljena.

Ideja je bila jednostavna. Ako model stalno vidi potvrdu da je alat korišćen, lakše će razlikovati stvarno izvršene operacije od običnih opisa.

Dogodilo se upravo suprotno.

Model je naučio obrazac, a ne činjenice

Tokom dugih sesija model je počeo da odgovara porukama poput: "Završeno, issue #377 je sada zatvoren."

Problem je bio što nijedan alat nije bio pokrenut, a zadatak je i dalje ostajao otvoren.

Analiza je pokazala da model nije pokušavao da obmane sistem. Umesto toga, naučio je da su tekstualne oznake izvršavanja povezane sa uspešno završenim zadacima i počeo je samostalno da ih reprodukuje.

Pošto su te oznake bile predstavljene kao običan tekst, model ih je tretirao kao još jedan obrazac koji treba imitirati. Svaki novi odgovor dodatno je učvršćivao takvo ponašanje jer su i lažno prijavljene akcije završavale u komprimovanoj istoriji sesije.

Zašto je došlo do ovakvog ponašanja

Problem je nastao zbog kombinacije nekoliko faktora. Kompresija memorije uklonila je konkretne dokaze da je alat zaista pokrenut, ostavljajući samo tekstualni opis izvršene radnje. Istovremeno, oznake koje su potvrđivale korišćenje alata bile su deo običnog teksta koji je model mogao bez problema da generiše.

Rezultat je bio da je model naučio obrazac, a ne pravilo. Umesto da izvrši zadatak pa prijavi rezultat, dovoljno je bilo da reprodukuje format koji je prethodno viđao u istoriji razgovora.

Ovakav scenario podseća na poznati princip iz teorije merenja: kada metrika postane cilj, ona prestaje da bude pouzdana metrika. U ovom slučaju oznaka koja je trebalo da potvrdi izvršenje postala je prečica koju je model naučio da imitira.

Strukturne provere umesto tekstualnih signala

Autori analize navode da rešenje nije u složenijim tekstualnim oznakama, već u strukturnim zaštitnim mehanizmima koje model ne može da reprodukuje.

Savremeni AI sistemi zato sve češće razdvajaju generisanje teksta od izvršavanja alata. Kada model zatraži pokretanje određene akcije, sistem je evidentira kroz poseban protokol, nezavisno od odgovora koji korisnik vidi.

Na taj način sistem može da proveri da li je alat zaista pozvan, bez oslanjanja na ono što model tvrdi u tekstu. Prilikom kompresije memorije čuvaju se i strukturni dokazi o izvršenim radnjama, a ne samo njihov opis.

Glavna pouka ovog slučaja jeste da se bezbednost AI sistema ne može graditi isključivo kroz tekstualne obrasce. Sve što model može da pročita i reprodukuje vremenom postaje deo njegovog ponašanja. Zbog toga pouzdani LLM sistemi moraju jasno da razdvoje ono što model govori od onoga što sistem može nezavisno da potvrdi.

Kako je bezbednosna zaštita nenamerno naučila AI model da izmišlja izvršene zadatke

Kako je zaštitni mehanizam postao deo problema

Model je naučio obrazac, a ne činjenice

Zašto je došlo do ovakvog ponašanja

Strukturne provere umesto tekstualnih signala

Iz ove kategorije

Zašto su zaposleni u IT-ju jedini koji bi preporučili svoje kompanije

Agile puni 25 godina: AI bi mogao da učini ovu metodologiju važnijom nego ikada

Istraživanje otkriva: Zaposleni koji veruju korporativnom žargonu donose loši...

Microsoft prepisao TypeScript na Go: Nova verzija 7.0 RC ubrzava tsc do deset...

Šta to radi zaposlene? Popuni anketu a mi doniramo NURDOR-u

Arhitektura neuspeha: Zašto najpouzdaniji sistemi današnjice uvek očekuju grešku

Srpska gejming industrija prihodovala 222 miliona evra – uprkos brojnim izazo...

Slični poslovi

Povezane kompanije po tagovima