Anthropicov Tristan Hume
je opisal zanimiv metaproblem, ki ga imajo v podjetju pri preizkušanju novih kandidatov za zaposlitev. Zadnji dve leti uporabljajo test, ki ga lahko kandidati odnesejo domov in rešijo, kar je v dobu velikih jezikovnih modelov lahko problem. Z vsako novo izdajo Clauda morajo test prenoviti, saj ga Claude reši bolje kot velika večina kandidatov.
Od leta 2024 je test reševalo dobrih tisoč kandidatov, izmed katerih so jih več deset tudi zaposlili. To so inženirji, ki so razvijali vse nove verzije od Claude 3, pri čemer so se odlično odrezali. Vsak novi Claude je prejšnje teste v enakem časovnem oknu rešil bolje od velike večine ljudi. Claude 4 je bil boljši od večine, Claude 4.5 pa od vseh. Če so imeli ljudje na voljo neomejeni čas, so tisti najboljši še premagali Claude 4.5.
Konkretni testi so sprva trajali štiri ure, kasneje dve. Kandidati so reševali realistični problem, na voljo pa so imeli vsa orodja, tudi umetno inteligenco. To je smiselno, ker ta obsežnejših in kompleksnejših nalog še ne zna v celoti rešiti in jo tudi pri delu uporabljajo kot pomoč. A za 4-urni test več kot zadostuje.
Tako mora Anthropic z vsako novo generacijo Clauda prilagoditi tudi teste.
[st.slika 76110]