Scrivere un file robots.txt

Un file di testo robot, o file robots.txt (spesso erroneamente indicato come file robot.txt) è un’aggiutna assolutamente fondamentale se scritta con criterio. Aggiungere un file robots.txt alla cartella principale del vostro sito è un processo molto semplice, e avere questo file è in realtà un “segno di qualità” per i motori di ricerca.

Scrivere un file robots.txt

Si ma cos’è un file robots.txt ?

Un file robots.txt è semplicemente un file ASCII o file di testo che dice ai motori di ricerca quali luoghi sono stati autorizzati a scansionare da parte del Web Master, il file robots.txt è anche noto come Standard for Robot Exclusion.

Per scrivere un file robots abbiamo bisogno di il blocco note o di qualsiasi altro programma di scrittura ricordandosi di salvare il file in formato di testo ossia .txt ed il gioco è fatto, inoltre inserire questo file nella root del dominio web.



Ora vi indicherò le varie voci che potranno essere inserite, nel file, ricordandovi che state dicendo ai motori di ricerca dove possono scansionare  il vostro codice del vostro sito web e dove invece non sono autorizzati a vedere, capito questo avete già capito tutto!

User-agent: *
Disallow:

Quando si vuole definire il nome dello spider, ossia del programma che andrà a visionare il nostro codice si inserisce questo script “User-agent:” se successivamente inseriamo l’asterisco vorrà dire che si indicano “tutti”

Per capisci meglio se vuoi che le informazioni vengano lette solo dal crawler di Google dovrai scrivere così: “User-agent: Googlebot”

Scrivendo all’interno del file robots.txt

User-agent: *

Significherà che si dà l’accesso di lettura a tutti gli spider, questo è dato dall’inserimento dell’asterisco.

Puoi anche decidere solo alcuni spider che possano leggere le tue pagine, come nell’esempio qui di seguito

User-agent: Googlebot

User-agent: Mercator

Dopo aver indicato quale spider deve leggere, dovrai inserire cosa vuoi che legga.

Abbiamo a disposizione alcuni semplici comandi che ti elencherò qui di seguito:

– Disallow

– Allow

– Inserimento dentro la SItemap

Andiamo per ordine, Disallow serve per negare l’accesso di lettura ad una determinata sezione, pagina del tuo sito, usato quando non vuoi che venga letto dagli spider, per qualsiasi tua motivazione.

Disallow: / (vuol dire che non vuoi far leggere nulla)
Disallow: / directory (vuol dire che non vuoi far leggere agli spider la sezione directory)
Disallow: / prova.html (significa che non vuoi far leggere magari una pagina specifica)



Si ma perché non si vuol far leggere una determinata sezione del proprio sito web?

Semplicemente perchè non vogliamo sia indicizzata sul motore di ricerca e non venga visualizzata quindi come risposta ad una determinata query (domanda) soggetta a chi ricerca le tue informazioni sul motore stesso.

Per quanto riguarda Allow invece vuoi che gli spider leggano una determinata sezione, sempre per i tuoi buoni motivi, solitamente inserita dopo il comando disallow, così si indica per esempio non voglio le lo spider legga una sezione ad eccezione di una in particolare, qui di seguito un esempio:

User-agent: *
Disallow: /directory/
Allow: /directory/prova-2.php

Quindi voglio che tutti gli spider leggano il mio sito, ma non voglio che leggano la directory ad eccezione della pagina prova-2.php

All’interno di tutti i siti web sono presenti la sitemap, ossia un indice con tutti i link del tuo sito.

Quando giunge sul nostro sito uno spider, questo scansiona prima il file robots.txt, poi si reca sulla scansione del sito web, trovando nel tuo file robots.txtx la posizione della tua sitemap, lo spider impiegherà meno tempo per la scansione e deciderà di premiarti in qunto lo “sforzo” del tempo impiegato alla scansione sarà ridotto, premiandoti in termini di velocità.

Se vuoi inserire un testo che ti ricordi cosa hai scritto ed il perchè nel tuo file robots.txt, puoi inserire l’hastag # prima del testo su ogni riga, questo vorra dire allo spider che il testo contenuto su quqlla riga sarà solo testo splicativo o commento.

#inizio del file robots
User-agent: *
Disallow: /directory/
Allow: /directory/prova-2.php
Sitemap: http://www.miositoweb.com/sitemap.xml

Ricordati che una volta che avrai creato il file robots.txt di inserirlo nella root del tuo sito, spesso e volentieri questa è un operazione che dovrai effettuare via FTP oppure se utilizzi un hosting tipo Aruba.it nel tuo pannello di controllo potrai inserire o modificare il file robots.txt

Avete letto Scrivere il file robots.txt