
Adrian Pakulski WŁAŚCICIEL / SPECJALISTA SEO
Jesteś zainteresowany
współpracą?
Wisząca w indeksie Google polityka prywatności, polityka ciasteczek czy regulamin Twojej strony internetowej nie tylko obciążają domenę, bo algorytm kwalifikuje je jako duplikaty lub w najlepszym razie jako tzw. thin content, ale i narażają na korespondencję ze strony co mniej uczciwych kancelarii prawnych. Jak wobec tego usunąć z indeksu pliki .pdf w obrębie domeny?
Zanim zabierzesz się za usuwanie z indeksu Google pdf’ów, wpisz do wyszukiwarki wyrażenie:
pdf site:nazwadomeny.pl
Dzięki niemu, wyszukiwarka zwróci Ci wyniki, w których uwzględnione będą wszystkie indeksowane pdf’y. Przejrzyj je i upewnij się, czy aby na pewno chcesz usunąć je z indeksu wszystkie, a może tylko pojedyncze.
Do usunięcia zasadniczo kwalifikują się (o ile są rzecz jasna w formie .pdf’ów) polityki prywatności, polityki cookies, regulaminy, formularze zwrotu, reklamacji, instrukcje obsługi produktów, zagubione załączniki i wiele innych. Pamiętaj, że .pdf’y warto usuwać nie tylko ze względu na fakt, że nie zawierają istotnej z punktu widzenia algorytmicznego zawartości, ale i są częstym powodem wglądu w Twój biznes ze strony prawnej. Na rynku nie brakuje firm, które zbierają informacje na temat niezgodnych z aktualną podstawą prawną wpisów w dokumentach, regulaminach itd.
Niejednokrotnie w przypadku projektów prowadzonych przez naszych Klientach zdarzało się, że w indeksie Google wisiały .pdf’y, zawierające szczegółowe informacje na temat transakcji handlowych z hurtowniami, dokumenty księgowe, prawne i mnóstwo innych. Kontrolowanie tego, do jakich .pdf’ów ma dostęp crawler Google to po prostu dobra praktya bezpieczeństwa danych przedsiębiorstwa.
Pomijam już w tej chwili, że znacznie lepszą praktyką w zakresie przechowywania treści jest po prostu sama strona internetowa. Pdf’y są uciążliwe w czytaniu, nie są przy tym interaktywne i mogą w niekontrolowany sposób wyświetlać się na urządzeniach mobilnych (zdarza się bowiem, że domyślna przeglądarka mobilna zamiast eksplorować pliki .pdf, ściąga je na urządzenie, co bywa uciążliwe).
Co gorsza – często w indeksie wiszą nawet te pdf’y, które nie są podlinkowane bezpośrednio ani wewnętrznie, ani wewnętrznie, ale z są pośrednie ścieżki dotarcia do nich, np. z sitemapy albo dostęp do nich umożliwia niezabezpieczone wywołanie listingu zawartości folderu.
A teraz do sedna.
Jak usunąć wszystkie pliki .pdf z Google?
Jako, że co wysoce prawdopodobne, indeksacji .pdf’ów nie zablokujesz z poziomu swojego CMS’a, to najszybszym sposobem będzie dostanie się do pliku .htaccess na serwerze FTP i dodanie do niego dyrektywy:
<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>
W ten sposób zablokujesz dostęp robotowi Google do wszystkich .pdf’ów, co oznacza, że indeksu z czasem wypadną wszystkie dotychczasowe, ale i w przyszłości – nie będziesz musiał już martwić się o kolejne przypadkowe załączniki.
A jeśli chcesz wykluczyć z indeksu tylko pojedyncze, to użyj takiej dyrektywy:
<Files nazwapliku.pdf>
header set x-robots-tag: noindex
</Files>
W przypadku, kiedy .pdf nie leży luzem w głównym katalogu strony, to wystarczy określić ścieżkę np. w następujący sposób:
<Files /uploads/pdf/guide.pdf>
header set x-robots-tag: noindex
</Files>
I to w zasadzie tyle. Mam nadzieję, że tym materiałem przybliżyłem Wam problem indeksacji .pdf’ów w wyszukiwarce i podpowiedziałem, jak i dlaczego warto byłoby się ich częściowo lub w całości pozbyć.
Tymczasem dzięki za uwagę, mówił do Was Adrian Pakulski paq, do następnego, cześć.

Jesteś ciekawy wyników współpracy z PAQ-Studio
Dowiedz się jak wygenerowaliśmy:
zwiększonego zasięgu w Google
Od 1 marca 2018 r. do 30 października 2021 r. poprawiliśmy widoczność marki Sklep Łuczniczy z poziomu 129 do 433 fraz sprzedażowych widocznych w Google w zasięgu TOP 1-3.
Ocen: Jak wyindeksować .pdf z Google?