Nekoč je bil robots.txt

4 hours ago 19
ARTICLE AD
Vsako spletišče je imelo v korenskem direktoriju datoteko robots.txt, v kateri so bila navodila za pajke, ki se plazijo po internetu. V njej smo lahko na primer Googlove robotke prijazno prosili, naj posameznih podstrani ne indeksirajo, in začuda so se tega vsi držali. V svetu, kjer ni nihče upošteval do not track, se je robots.txt tri desetletja zanašal na dejstvo, da so pajki mož beseda. Toda robots.txt počasi, a zanesljivo izgublja svojo vlogo. Google je v dokumentaciji svoje storitve Google NotebookLM potihoma zapisal, da ne bo upoštevala robots.txt. V utemeljitve piše, da ne gre za klasične pajke, temveč spletne agente, ki delujejo po navodilih uporabnika, ki jih v nekem trenutku sproži. Podobno bo verjetno kmalu veljajo tudi za druge spletne agente. Razmerje med pajki in uporabniki bilo v zgodnjih letih interneta 14:1, kar je bilo znosno. Danes je to razmerje več tisoč. ClaudeBot ima to razmerje 70.900:1. A robots.txt, ki se je rodil 1. februarja 1994, ni umrl danes, temveč že prej. Izumil ga je Martijn Koster, čigar strežnik je počepnil pod okvarjenim pajkom Websnarf. Tedanji internet je bil majhna in povezana skupnost, v kateri se je verjelo na besedo. RobotsNotWanted.txt, kot se je datoteka imenovala spočetka, se je zato zanašala na pajke, da bodo razumeli namig, da niso dobrodošli. In so ga. Google, Yahoo, AltaVista in Lycos so stran zapustili, če so v robots.txt našli ustrezna navodila. Prvi žebelj v krsto mu je zabil Internet Archive, ki je leta 2017 prenehal spoštovati robots.txt. Trdil je, da so nameni in naloge internetnega arhiva pomembnejši in bolj plemeniti od želja skrbnikov strani. Plaz se ni več ustavil, internet pa se je fragmentiral. Cloudflare jih blokira, nekatere strani omogočajo dostop prek plačljivih API, druge so podpisale ekskluzivne pogodbe o dostopu za posamezne agente. OpenAI ni nikoli spoštoval robots.txt, njegovo razmerje pa je 1.700:1. Danes je robots.txt le relikt preteklosti, čeprav je - že globoko v svoji irelevantnosti - dobil celo RFC. [st.slika 75875]
Read Entire Article