Federico Riva
a- a+

Il file Robots TXT

Il file Robots.txt (è errato al singolare Robot.txt) è un file di testo (come è evidente dalla sua estensione) che è stato pensato proprio per dare delle indicazioni ai motori di ricerca in fase di spidering. Lo spidering è quellazione compiuta appunto da un motore di ricerca (o spider, crawler, bot), che è finalizzata allo scaricamento e allimmagazzinamento di pagine web che sono disponibili pubblicamente in Internet.

 

Il file Robots.txt è fondamentale per varie ragioni:

In primis, bisogna pensare che non tutti i siti web che sono pubblicati in rete desiderano essere indicizzati nei motori di ricerca. Può sembrare un paradosso, ma molti siti sono pensati per una cerchia ristretta di utenti e non desiderano ottenere una pubblicità eccessiva o un pubblico diverso da quello che si è scelto di avere. Certo, si tratta di casi isolati rispetto alla maggior parte dei siti web (i cui proprietari gradiscono siano visualizzati sempre il più possibile, anche con ricerche query non perfettamente attinenti), ma sono casi che esistono.

Lo standard per l'esclusione dei robot (che come abbiamo detto è sinonimo di spider) si utilizza un normale file di testo, da creare attraverso un qualunque text editor (bbedit, textpad, wordpad etc). Questo file deve essere chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o soltanto ad alcuni spider (quindi: motori di ricerca) il prelievo di alcune o tutte le pagine del sito.

Una volta creato il file robots.txt, questo deve essere pubblicato nella  directory principale del sito web. Ad esempio, se il sito ha indirizzo http://www.webmasterpoint.org , il file dovrà essere accessibile all'indirizzo http://www.webmasterpoint.org/robots.txt .

Tutti i motori di ricerca conosciuti aderiscono alla a questa normativa (per quanto non sia stata scritta in nessuna legge nazionale o internazionale) e quindi sono obbligati (deontologicamente anche se non tecnicamente) a seguire le indicazioni del file robots.txt. Quindi, qualora un motore di ricerca (tipicamente, attraverso un link) acceda a una qualsiasi delle nostr pagine, la prima cosa che esso andrà a verificare sarà la possibilità (lautorizzazione) a spiderare le pagine di quel sito, informandosi su quali possono essere le sezioni (pagine ) spiderabili (e quindi atte a essere inserite nellindice) e quali no (nel caso ci siano delle limitazioni). In una stessa pagina è possibile indicare quali sono i link che possono essere seguiti e quelli che invece debbono essere ignorati, in quanto il proprietario del sito (per ragioni che non dobbiamo stare qui a considerare) non gradisce che vengano inserite nellindice del motore di ricerca.

E bene ricordare che il file robots.txt serve per dichiarare ai motori di ricerca quali sono le pagine web che NON debbono essere spiderate. In assenza di questo file, i motori di ricerca si sentono nel diritto di spiderare e di inserire nellindice tutte le pagine relative al sito web individuato.

Normalmente non conviene limitare gli spider, ma anche quando si ritiene che sia utile che il proprio sito venga spiderato per intero è bvene inserire comunque un file robots.txt e questo perché dà al motore di ricerca lidea che il sito sia stato costruito correttamente e seguendo tutte le regole della Setiquette, ovverosia della netiquette applicata e dedicata ai motori di ricerca. Un sito che non contenga questo file (nella dirextory principale) può essere perciò considerato poco professionale (a prescindere dalla quantità e dalla qualità delle pagine che si consente di spiderare) e quindi può essere penalizzato in fase di indicizzazione e soprattutto di posizionamento nelle SERP (Search Engine Page Results).



Ti potrebbe interessare anche

commenta la notizia

Ci sono 1 commenti
Webuser
volevo sapere..una volta immesso il file Robots.txt nella root principale del sito in Ftp, quanto tempo passa di solito in media prima che venga riulevato dai motori? grazie e ccomplimenti per l'articcolo
Francesco