Robot txt, la storia del file che gestisce internet

di Clax78 · Pubblicato 24 Aprile 2024 · Aggiornato 29 Aprile 2024

Si chiama robot-txt e di solito si trova all’indirizzo yourwebsite.com/robots.txt. Questo file permette a chiunque gestisca un sito web – grande o piccolo, blog di cucina o multinazionale – di dire al web chi è ammesso e chi no. Quali motori di ricerca possono indicizzare il vostro sito? Quali progetti di archiviazione possono prendere una versione della vostra pagina e salvarla? I concorrenti possono tenere sotto controllo le vostre pagine per i loro archivi? Siete voi a decidere e a dichiararlo al web.

Per tre decenni, un minuscolo file di testo ha impedito il caos di Internet. Questo file di testo non ha alcuna particolare autorità legale o tecnica e non è nemmeno particolarmente complicato. Rappresenta una stretta di mano tra alcuni dei primi pionieri di Internet per rispettare i desideri reciproci e costruire Internet in modo che tutti ne traggano beneficio. È una mini costituzione per Internet, scritta in codice.

Indice dei contenuti

Robot txt la storia di un piccolo grande eroe

Non è un sistema perfetto, ma funziona. Una volta, comunque, funzionava. Per decenni, il robots.txt si è concentrato soprattutto sui motori di ricerca: gli permettevate di fare lo scraping del vostro sito e in cambio vi promettevano di rimandare le persone da voi. Ora l’intelligenza artificiale ha cambiato l’equazione: le aziende di tutto il web utilizzano il vostro sito e i suoi dati per creare enormi serie di dati di addestramento, al fine di costruire modelli e prodotti che potrebbero non riconoscere affatto la vostra esistenza.

Il file robots.txt regola un dare e avere; l’IA sembra a molti un prendere e non dare. Ma l‘IA è un settore così ricco e lo stato dell’arte tecnologica sta cambiando così velocemente che molti proprietari di siti non riescono a tenere il passo. E nemmeno l’accordo fondamentale che sta alla base di robots.txt e del web nel suo complesso, che per tanto tempo è stato un “tutti quanti siate tranquilli”, può essere in grado di tenere il passo.

C’erano una volta il robot txt e internet

Agli albori di Internet, i robot avevano molti nomi: spider, crawler, worm, WebAnts, web crawler. La maggior parte delle volte erano costruiti con buone intenzioni. Di solito si trattava di uno sviluppatore che cercava di creare una directory di nuovi siti web interessanti, di assicurarsi che il proprio sito funzionasse correttamente o di creare un database di ricerca – questo accadeva nel 1993 o giù di lì, molto prima che i motori di ricerca fossero presenti ovunque e ai tempi in cui era possibile inserire la maggior parte di Internet nel disco rigido del proprio computer.
L’unico vero problema allora era il traffico: l’accesso a Internet era lento e costoso sia per chi vedeva un sito web sia per chi lo ospitava. Se il sito web era ospitato sul proprio computer, come facevano in molti, o su un software server costruito in modo frettoloso e gestito attraverso la connessione Internet di casa, bastava che qualche robot scaricasse le pagine con eccessivo zelo perché le cose si rompessero e la bolletta del telefono salisse alle stelle.

Gli inventori del file robot txt

Nel corso di alcuni mesi del 1994, un ingegnere e sviluppatore di software di nome Martijn Koster, insieme a un gruppo di altri amministratori e sviluppatori del Web, ha proposto una soluzione chiamata Robots Exclusion Protocol. La proposta era abbastanza semplice: chiedeva agli sviluppatori web di aggiungere al proprio dominio un file di testo semplice che specificasse quali robot non erano autorizzati a perlustrare il sito, o che elencasse le pagine vietate a tutti i robot. (Anche in questo caso, si trattava di un’epoca in cui era possibile mantenere un elenco di tutti i robot esistenti: Koster e alcuni altri hanno fatto proprio questo). Per i produttori di robot, l’accordo era ancora più semplice: rispettare i desideri del file di testo.

Fin dall’inizio, Koster ha chiarito che non odiava i robot, né intendeva sbarazzarsene. “I robot sono uno dei pochi aspetti del web che causano problemi operativi e che fanno soffrire le persone”, disse in un’e-mail iniziale a una mailing list chiamata WWW-Talk (che comprendeva i pionieri di Internet come Tim Berners-Lee e Marc Andreessen) all’inizio del 1994. “Allo stesso tempo forniscono servizi utili”. Koster ha messo in guardia dal discutere se i robot siano buoni o cattivi, perché non importa, sono qui e non scompariranno. Sta semplicemente cercando di progettare un sistema che possa “minimizzare i problemi e massimizzare i benefici”. Nell’estate dello stesso anno, la sua proposta era diventata uno standard, non ufficiale, ma più o meno universalmente accettato.

A giugno, Koster ha nuovamente sollecitato il gruppo WWW-Talk con un aggiornamento. “In breve, si tratta di un metodo per guidare i robot lontano da determinate aree nello spazio URL di un server Web, fornendo un semplice file di testo sul server”, ha scritto. “È particolarmente utile se si dispone di archivi di grandi dimensioni, script CGI con enormi sottoalberi di URL, informazioni temporanee o semplicemente se non si desidera servire i robot”. Aveva creato una mailing list specifica per l’argomento, i cui membri avevano concordato una sintassi e una struttura di base per questi file di testo, avevano cambiato il nome del file da RobotsNotWanted.txt a un semplice robots.txt e tutti erano praticamente d’accordo nel supportarlo.
E per la maggior parte dei 30 anni successivi ha funzionato abbastanza bene.

Robot txt VS AI: una guerra silenziosa

Ma Internet non sta più su un disco rigido e i robot sono molto più potenti. Google li utilizza per effettuare il crawling e l’indicizzazione dell’intero web per il suo motore di ricerca, che è diventato l’interfaccia del web e porta all’azienda miliardi di dollari all’anno. I crawler di Bing fanno lo stesso e Microsoft concede in licenza il suo database ad altri motori di ricerca e aziende. Internet Archive utilizza un crawler per archiviare le pagine web per i posteri. I crawler di Amazon percorrono il web alla ricerca di informazioni sui prodotti e, secondo una recente causa antitrust, l’azienda utilizza queste informazioni per punire i venditori che offrono offerte migliori lontano da Amazon. Aziende di intelligenza artificiale come OpenAI stanno setacciando il web per addestrare modelli linguistici di grandi dimensioni che potrebbero ancora una volta cambiare radicalmente il modo in cui accediamo alle informazioni e le condividiamo.

La capacità di scaricare, archiviare, organizzare e interrogare l’Internet moderno offre a qualsiasi azienda o sviluppatore qualcosa di simile alla conoscenza accumulata in tutto il mondo su cui lavorare. Nell’ultimo anno circa, l’ascesa di prodotti di intelligenza artificiale come ChatGPT, e i grandi modelli linguistici che ne sono alla base, hanno reso i dati di addestramento di alta qualità una delle merci più preziose di Internet.

Che fine faranno i robots.txt con l’AI?

Il robots.txt non è un documento legale e, a 30 anni dalla sua creazione, si basa ancora sulla buona volontà di tutte le parti coinvolte. Disabilitare un bot nella pagina robots.txt è come apporre un cartello “Vietato l’ingresso alle ragazze” sulla propria casa sull’albero: invia un messaggio, ma non reggerà in tribunale. Qualsiasi crawler che voglia ignorare robots.txt può semplicemente farlo, senza temere ripercussioni. (Esistono alcuni precedenti legali relativi al web scraping in generale, ma anche questo può essere complicato e si basa principalmente sul fatto che il crawling e lo scraping sono consentiti). Internet Archive, ad esempio, nel 2017 ha semplicemente annunciato di non rispettare più le regole di robots.txt. “Nel corso del tempo abbiamo osservato che i file robots.txt orientati ai crawler dei motori di ricerca non servono necessariamente ai nostri scopi di archiviazione”, ha scritto all’epoca Mark Graham, direttore della Wayback Machine dell’Internet Archive.

Man mano che le società di intelligenza artificiale continuano a moltiplicarsi e i loro crawler diventano sempre più spregiudicati, chiunque voglia rimanere in disparte o aspettare che l’intelligenza artificiale prenda il sopravvento deve affrontare una partita infinita di whac-a-mole. Deve fermare ogni robot e crawler individualmente, ammesso che sia possibile, facendo anche i conti con gli effetti collaterali. Se l’intelligenza artificiale è effettivamente il futuro della ricerca, come Google e altri hanno previsto, bloccare i crawler dell’intelligenza artificiale potrebbe essere una vittoria a breve termine ma un disastro a lungo termine.