Stavek, ki jim vsem vlada

4 hours ago 22

ARTICLE AD

Z razmahom velikih jezikovnih modelov se je pojavila nova vrsta groženj, saj lahko v dokumente ali druge vire, ki jih ti modeli dobijo kot vhodne podatke, preprosto podtaknemo besedila z zlemi nameni. Ta jezikovne modele pretentajo, da bodisi ne delujejo tako, kot pričakuje uporabnik, ali pa delujejo drugače od želja in omejitev avtorjev. Raziskovalci iz podjetja za računalniško varnost Palo Alto Networks so pokazali, da za zlom okov zadostujejo že dovolj dolgi in napol razumljivi stavki. Če poziv (prompt) oblikujemo tako, da je čim daljši in po možnosti napisan v polomljenem jeziku s slabo slovnico, lahko jezikovne modele prevaramo in se prebijemo mimo varovalk. Te vsebujejo vsi javno dostopni modeli velikih podjetij, ki si ne morejo privoščiti, da bi modeli ustvarjali sovražni govor, nezakonito pornografijo ali navodila za izdelavo razstreliv. Zanašajo se na odpornost varovalk, ki pa ni absolutna. Raziskovalci so analizirali dejstvo, da trening ne prepreči ustvarjanja škodljivih odzivov, le zelo močno zmanjša verjetnost, da se to zgodi (refusal-affirmation logit gap). Pokazali so, da je to dejstvo moč izrabiti. Razlog se skriva v dejstvu, da ti modeli videzu navkljub ne znajo razmišljati in razumeti, zato tudi ne razumejo koncepta škodljivosti, čeprav lahko nekatere vsebine označijo kot take. Modeli zgolj iščejo nadaljevanje besedila, ki je najbolj verjetno. Škodljivih vsebin ne ustvarjajo, ker se med urjenjem naučijo, da takšno besedilo prinaša zelo malo točk. To pa se da prelisičiti, če nakopičimo stavke brez ločil in reda (run-on sentences). Ločila so tista ključna, ki ponovno vzpostavijo filtre in negativno ocenijo škodljive odzive. Če ločil ni, se navodila zgolj kopičijo. Direktor raziskav umetne inteligence pri podjetju Billy Hewlett je dejal, da je možno verjetnost za škodljive odzive zmanjšati, nikoli pa ne bo nič. Praktična rešitev je zunanje ali ločeno preverjanje odziva modelov, ne pa zanašanje na benevolentnost modelov. Kdo bi si mislil, da je rešitev za umetno inteligenco tako zelo običajna: zunanji nadzor in varovalke. [st.slika 75766]

Read Entire Article

Stavek, ki jim vsem vlada

ARTICLE AD

Related

Roke razkrivajo vašo starost - kako jih pomladiti?

Konzole se ne ceníjo

Microsoft razvil dva lastna modela umetne inteligence

Kaos na slovenskih cestah: dolenjka zaprta zaradi nesreče, p...

Kako prepoznati popoln trenutek za trgatev grozdja? Znaki, k...

Beli vratič: Naravno lajšanje glavobolov, migren in artritis...

Ali gre digitalizacija v Sloveniji v pravo smer?

RIGHT SIDEBAR TOP AD

Trending

Popular

5 nasvetov, kako pripraviti vrt na jesen, da bo spomladi buj...

Več kot prijatelja? Zoë Kravitz in Harryja Stylesa ujeli pri...

Pirc Musarjeva sprejela palestinsko delegacijo: 'Palestinci ...

Papež ministrantom: Čudovito je biti duhovnik!

Danska ukinja davek na knjige in stavi na bralno kulturo

RIGHT SIDEBAR BOTTOM AD