Come fare?
Mi è capitato di recente di lavoro per un audit SEO di un cliente e notare che aveva una pagina nel sito web che raccoglieva tutta una serie di file PDF, anche abbastanza corposi.
Peccato che il testo di quei PDF era una copia esatta del testo presente nelle pagine istituzionali del sito
In questi si crea un vero e proprio duplicato, che ovviamente non è bene visto dal nostro amico crawler.
Ti dico cosa ho fatto per bloccare la scansione dei file PDF.
Ho modificato il file robots.txt così:
User-agent: *
Disallow: /*.pdf$
La sintassi dice che tutti i crawler no devono scansionare qualsiasi file PDF.
Se invece, hai necessità di bloccare solo un singolo PDF, la sintassi è questa:
User-agent: *
Disallow: /nome-del-tuo-pdf.pdf