logo
close

Meta robots dla plików innych niż HTML

2 sierpnia 2019
simplie Komentarze: 0 Kategoria: Aktualności

Język HTML posiada tag <meta>, za pomocą którego można dostarczyć dodatkowych informacji o samej stronie. Jednym z możliwych zastosowań tego tagu jest np. <meta name=”robots” content=”noindex, nofollow”> – w taki sposób można poinformować roboty wyszukiwarek że (w tym przypadku) nie powinny indeksować danej strony i podążać za linkami na niej. Tag ten jest wygodny, ale niestety na HTML świat się nie kończy – na stronach mogą znaleźć się jeszcze inne pliki które dadzą się zaindeksować, i które mogą zawierać linki.

Aby zablokować indeksację takich plików, można dodać polecenie Disallow do pliku robots.txt, rozwiązując w ten sposób np. problem duplicate content (niektóre CMS potrafią wygenerować plik PDF z artykułem). Jest to jednak rozwiązanie radykalne, które w niektórych przypadkach może być zbyt restrykcyjne. Może też być taka sytuacja że ze względu na strukturę adresów nie da się ich łatwo zablokować w ten sposób. Wtedy trzeba użyć innej metody.

Rozwiązaniem jest wysłanie przez serwer w odpowiedzi dodatkowego nagłówka X-Robots-Tag, za pomocą którego można przekazać polecenia dla botów. Przykładowo w taki sposób można zablować indeksację generowanych plików PDF, a jednocześnie pozwolić botowi na podążanie za linkami w nim umieszczonymi:

Content-type: application/pdf
X-Robots-Tag: noindex, follow

Jeżeli pliki PDF są dynamicznie generowane przez skrypt, to ten skrypt skrypt powinien dokładać ten nagłówek. W przypadku zwykłych plików (umieszczonych bezpośrednio na serwerze) sprawę można załatwić poprzez dodanie odpowiednich wpisów do pliku .htaccess (wymagany jest moduł mod_headers):

<IfModule mod_headers.c>
<Files ~ "\.(pdf)$">
Header set X-Robots-Tag "noindex, follow"
</Files>
</IfModule>

Komentarze

Komentarz

Komentując, akceptujesz Politykę prywatności