Molte persone si preoccupano del posizionamento del loro sito web senza conoscere l’importanza (o addirittura l’esistenza) del file robots.txt.
Che cosa è il file robots.txt?
Il file robots.txt è un banale file di testo che va inserito nella cartella di root del proprio sito web e serve ad indicare agli spider dei motori di ricerca quali sono le cartelle a cui accedere (in pratica, quali sono le cartelle da indicizzare)
Tramite questo file possiamo chiedere in modo semplice agli spider di non scansionare determinate cartelle, per esempio perchè contengono dati o immagini riservate. Dobbiamo anche considerare che è inutile che gli spider scansionino alcune cartelle del nostro sito (per esempio quelle relative all’amministrazione o al nostro tema).
Come è fatto il file robotx.txt?
Il file robots.txt è costituito da righe simili alle seguenti:
User-agent: *
Disallow: /cartella (da non scansionareIndicizzare)
Disallow: /cartella (da indicizzare)/file.html (da non scansionare/indicizzare)
Con User-agent indico gli spider a cui mi riferisco (per esempio lo spider di Google si chiama Googlebot).Se inserisco il carattere * significa che le regole valgono per tutti gli spider.
Disallow significa “scansione non permessa, e può riguardare una intera cartella, un file, o un file contenuto in una cartella.
Come edito il file robots.txt?
Il file è un semplice file di testo, quindi fa scritto con un editor di testo (blocco note, notepad++, ecc) e caricato sul vostro server tramite FTP.
Buon lavoro!
{fastsocialshare}