Z razmahom velikih jezikovnih modelov se je pojavila nova vrsta groženj, saj lahko v dokumente ali druge vire, ki jih ti modeli dobijo kot vhodne podatke, preprosto podtaknemo besedila z zlemi nameni. Ta jezikovne modele pretentajo, da bodisi ne delujejo tako, kot pričakuje uporabnik, ali pa delujejo drugače od želja in omejitev avtorjev. Raziskovalci iz podjetja za računalniško varnost Palo Alto Networks
so pokazali, da za zlom okov zadostujejo že dovolj dolgi in napol razumljivi stavki.
Če poziv (
prompt) oblikujemo tako, da je čim daljši in po možnosti napisan v polomljenem jeziku s slabo slovnico, lahko jezikovne modele prevaramo in se prebijemo mimo varovalk. Te vsebujejo vsi javno dostopni modeli velikih podjetij, ki si ne morejo privoščiti, da bi modeli ustvarjali sovražni govor, nezakonito pornografijo ali navodila za izdelavo razstreliv. Zanašajo se na odpornost varovalk, ki pa ni absolutna.
Raziskovalci so analizirali dejstvo, da trening ne prepreči ustvarjanja škodljivih odzivov, le zelo močno zmanjša verjetnost, da se to zgodi (
refusal-affirmation logit gap). Pokazali so, da je to dejstvo moč izrabiti. Razlog se skriva v dejstvu, da ti modeli videzu navkljub ne znajo razmišljati in razumeti, zato tudi ne razumejo koncepta škodljivosti, čeprav lahko nekatere vsebine označijo kot take. Modeli zgolj iščejo nadaljevanje besedila, ki je najbolj verjetno. Škodljivih vsebin ne ustvarjajo, ker se med urjenjem naučijo, da takšno besedilo prinaša zelo malo točk. To pa se da prelisičiti, če nakopičimo stavke brez ločil in reda (
run-on sentences). Ločila so tista ključna, ki ponovno vzpostavijo filtre in negativno ocenijo škodljive odzive. Če ločil ni, se navodila zgolj kopičijo.
Direktor raziskav umetne inteligence pri podjetju Billy Hewlett je dejal, da je možno verjetnost za škodljive odzive zmanjšati, nikoli pa ne bo nič. Praktična rešitev je zunanje ali ločeno preverjanje odziva modelov, ne pa zanašanje na benevolentnost modelov.
Kdo bi si mislil, da je rešitev za umetno inteligenco tako zelo običajna: zunanji nadzor in varovalke.
[st.slika 75766]