Federico Riva
a- a+

Il file Robots TXT

Il file Robots.txt (è errato al singolareRobot.txt) è un file di testo (come è evidentedalla sua estensione) che è stato pensato proprioper dare delle indicazioni ai motori di ricerca in fasedi spidering. Lo spidering è quellazione compiutaappunto da un motore di ricerca (o spider, crawler, bot), cheè finalizzata allo scaricamento e allimmagazzinamentodi pagine web che sono disponibili pubblicamente in Internet.

 

Il file Robots.txt è fondamentale per varieragioni:

In primis, bisogna pensare che non tutti i siti webche sono pubblicati in rete desiderano essere indicizzati neimotori di ricerca. Può sembrare un paradosso, mamolti siti sono pensati per una cerchia ristretta di utenti enon desiderano ottenere una pubblicità eccessiva o unpubblico diverso da quello che si è scelto di avere.Certo, si tratta di casi isolati rispetto alla maggior partedei siti web (i cui proprietari gradiscono siano visualizzatisempre il più possibile, anche con ricerche query nonperfettamente attinenti), ma sono casi che esistono.

Lo standard per l'esclusione dei robot (che come abbiamodetto è sinonimo di spider) si utilizza un normalefile di testo, da creare attraverso un qualunque text editor(bbedit, textpad, wordpad etc). Questo file deve esserechiamato "robots.txt" e contiene, in unparticolare formato, delle istruzioni che possono impedire atutti o soltanto ad alcuni spider (quindi: motori di ricerca)il prelievo di alcune o tutte le pagine del sito.

Una volta creato il file robots.txt, questo deve esserepubblicato nella  directory principale del sitoweb. Ad esempio, se il sito ha indirizzohttps://www.webmasterpoint.org , il file dovrà essereaccessibile all'indirizzohttps://www.webmasterpoint.org/robots.txt .

Tutti i motori di ricerca conosciuti aderiscono alla aquesta normativa (per quanto non sia stata scritta in nessunalegge nazionale o internazionale) e quindi sonoobbligati (deontologicamente anche se non tecnicamente)a seguire le indicazioni del file robots.txt. Quindi,qualora un motore di ricerca (tipicamente, attraverso unlink) acceda a una qualsiasi delle nostr pagine, la primacosa che esso andrà a verificare sarà lapossibilità (lautorizzazione) a spiderare le pagine diquel sito, informandosi su quali possono essere le sezioni(pagine ) spiderabili (e quindi atte a essere inseritenellindice) e quali no (nel caso ci siano delle limitazioni).In una stessa pagina è possibile indicare quali sono ilink che possono essere seguiti e quelli che invece debbonoessere ignorati, in quanto il proprietario del sito (perragioni che non dobbiamo stare qui a considerare) nongradisce che vengano inserite nellindice del motore diricerca.

E bene ricordare che il file robots.txt serve perdichiarare ai motori di ricerca quali sono le pagine web cheNON debbono essere spiderate. In assenza di questo file,i motori di ricerca si sentono nel diritto di spiderare e diinserire nellindice tutte le pagine relative al sito webindividuato.

Normalmente non conviene limitare gli spider, ma anche quandosi ritiene che sia utile che il proprio sito venga spideratoper intero è bvene inserire comunque un filerobots.txt e questo perché dà al motore diricerca lidea che il sito sia stato costruito correttamente eseguendo tutte le regole della Setiquette, ovverosiadella netiquette applicata e dedicata ai motori diricerca. Un sito che non contenga questo file (nelladirextory principale) può essere perciòconsiderato poco professionale (a prescindere dallaquantità e dalla qualità delle pagine che siconsente di spiderare) e quindi può essere penalizzatoin fase di indicizzazione e soprattutto di posizionamentonelle SERP (Search Engine Page Results).