4 maja 2021
Adrian Pakulski

Co wyczytasz w logach serwerowych w kontekście SEO?

SEO

Dzisiejszy materiał będzie uzupełnieniem wideo, które mieliście okazję już wcześniej obejrzeć na naszym blogu i kanale o tytule „Log File Analyser a SEO”. Jeśli jeszcze się z nim nie zapoznaliście, to zachęcam – omawiam w nim pokrótce, jak zaimportować logi serwerowe do Screaming Froga Log File Analysera, jak wyglądają podstawowe metryki, jakie można w nim mierzyć, a dziś omówimy sobie kilka przykładów i scenariuszy oraz procesów, jakie powinny otworzyć się w Waszych firmach, jeśli prowadzicie SEO inhouse’owo lub w agencjach, które Was prowadzą i to nawet po takiej dość pobieżnej analizie tychże logów.

Dla przykładu zaimportujemy sobie logi serwerowe Paq Studio – i tu pojawia się w ogóle pytanie, czy Paq Studio jest dobrym punktem odniesienia dla analizowania logów serwerowych? Myślę, że z portfolio moglibyśmy wyciągnąć bardziej reprezentatywne domeny, bo mamy tutaj do czynienia z małym WordPressem, małym też ruchem na nim, nie mniej – nie każdy chce logi serwerowe udostępniać publicznie.

Zacznijmy od posortowania sobie danych ze względu na aktywność GoogleBota smartfonowego – nie ilość danych, jakie pobiera a liczbę zapytań, liczbę zdarzeń. Widać, że najwyższa aktywność GoogleBota jest w widoku strony głównej, co jest oczywiste, a tuż za nią pojawia się wpis na blogu, dotyczący boldowania tekstu.

I okej – teraz – pytania, jakie wypadałoby sobie zadać w tym kontekście: 1. co jest powodem tak dużej aktywności GoogleBota w tym widoku? czy umiemy odpowiedzieć sobie na to pytanie? 2. czy to dobrze, że akurat ten widok zbiera tak dużo sesji GoopleBota? i ostatecznie 3. co z tym faktem zrobić? jak wykorzystać tę informację?

Żeby odpowiedzieć sobie na pytanie, dlaczego akurat ten widok jest najpopularniejszy – byłoby dobrze równolegle posługiwać się zwykłym Screaming Frogiem i Majesticiem albo Ahrefsem, bo aktywność robota na tym widoku będzie wypadkową albo rozkładu aktywności bota w architekturze informacji, czyli linkowania wewnętrznego, albo faktu, że ten konkretny zasób, ten konkretny widok, podstrona jest podlinkowana gdzieś z zewnątrz – i trzeba będzie sprawdzić gdzie.

I tutaj małe wtrącenie – starajcie się pozyskać możliwie, jak najbardziej kompletną próbkę logów serwerowych, bo do zupełnie innych wniosków dojdziecie, analizując logi serwerowe z 1 doby, a do innych, jeśli będziecie pracowali na logach z zakresu ostatnich 14 albo 30 dni. Co prawda w naszym przykładzie posługujemy się próbką logów z 7 dni, to jednak przyjmijcie, że dobrą praktyką byłoby tych przynajmniej 14 dni – to też zależy, czy macie tych zdarzeń, które możecie analizować wystarczająco dużo, czy też nie. Pomijam przy tym fakt, że analiza logów nie jest absolutnym must have w każdej kampanii, dlatego jeśli macie małą stronę złożoną z 5 widoków i nie ma tam jakichś niestandardowych rozwiązań, to pewnie zakup Log File Analysera niewiele wnosi, ale jeśli mowa już np. o e-commerce, to idzie tam znaleźć już sporo ciekawych smaczków.

Wracając – sprawdźmy, czy ten nasz analizowany widok jest, aby na pewno mocno podlinkowany w architekturze informacji. No po to, aby potwierdzić, albo obalić tę hipotezę, że ten artykuł zbiera sporo crawlingu GoogleBota, bo jest – i tutaj załóżmy – np. jest podlinkowany ze strony głównej. Zakładamy, że nie wiemy tego na tym etapie.

W zwykłym Screaming Frogu szukam tego widoku na temat boldowania tekstu. Sprawdzam najpierw wizualną prezentację, aby odpowiedzieć sobie na pytanie, gdzie mniej więcej zagnieżdżona jest ta publikacja. I widać, że jest to widok, który jest dość głęboko zaszyty, bo żeby robot mógł się do niego dostać, musi odwiedzić przynajmniej kilka widoków pośrednich. Oczywiście ten tzw. force-directed crawl diagram jest pewnym uproszczeniem, bo jak zobaczycie w przefiltrowanym widoku tabelarycznym, są 4 unikalne widoki, które kierują do tego materiału, przy czym 3 to widoki paginacji (czyli dość słabe widoki), ale 1 z nich to dość popularny materiał pt. „Ile kosztuje założenie bloga?”. I sam ten artykuł „ile kosztuje założenie bloga” ma już jakieś pojedyncze aktywności GoogleBota, które też mogą być źródłem ruchu w tym widoku o boldowaniu tekstu.

Sprawdźmy jeszcze, czy ten URL ma jakieś linki pochodzące z zewnątrz. Wrzucamy URL do Ahrefsa i widzimy, że no jest jakiś 1 randomowy link zewnętrzny, ale nie spodziewam się, że dowozi szczególnie dużo sesji przychodzących GoogleBota. To, co jeszcze przychodzi na szybko na myśl, to aktywność bota być może z samego redirecta z YouTube’a, ponieważ ten materiał ma swój odpowiednik na YT i tam jest link do artykułu w formie redirecta (bo nie jest to bezpośredni link), który prowadzi do tego naszego widoku na blogu.

Zasadniczo – ten proces można rozkładać na czynniki pierwsze, bo to że Ahrefs nie pokazuje innych backlinków prowadzących do tego materiału to też wcale nie znaczy, że ich nie ma, bo wystarczy, że ten materiał będzie podlinkowany na zapleczu, które to zaplecze blokuje crawlera Ahrefsa, więc pamiętajcie, żeby myśleć o analizie logów szeroko i one wymagają minimalnego zorientowania w przedmiocie szerszej strategii. Ja na tym etapie chciałbym Wam po prostu pokazać, jak myśleć o tym, skąd może pochodzić aktywność GoogleBota, odnotowywana w logach. Pamiętajcie, że proces analizowania logów jest złożony, dość obszerny i zagnieżdżony w kontekście, więc tutaj nakłada się sporo wątków.

Dobra. Wytłumaczyliśmy sobie + -, skąd może pochodzić aktywność bota w tym widoku, w tym wpisie. To teraz czas na odpowiedzenie sobie na pytanie – czy to dobrze, że akurat ten artykuł jest popularny i chętnie crawlowany. I tutaj odpowiedź – jak zwykle w SEO – jest złożona, bo trzeba byłoby się zastanowić, jakie są cele organizacji, firmy, która pozyskuje ten ruch z wyszukiwarek. Czy my chcemy walczyć o pozycję akurat tego artykułu w wynikach organicznych, czy też nie? Jeśli tak, to świetnie, bo mamy ku temu potencjał. Sprawdźmy, na jakiej pozycji w Google wyświetla się ten materiał na zapytanie: „Boldowanie tekstu”. W tym przypadku mamy TOP1. Gdybyśmy tego TOP1 nie mieli – a chcielibyśmy mieć, to biorąc pod uwagę, że mamy już atencję GoogleBota w tym widoku, wystarczyłoby otworzyć proces optymalizacji treści, zawartości tego widoku np. analizą data driven przez SurferSEO po to, aby w ciągu 1, 2 dób zaprezentować GoogleBotowi świeży, lepiej dopasowany do intencji użytkownika content i podciągnąć się w TOP’ach.

No dobra, ale gdyby miało się okazać, że dla naszej firmy ten artykuł nie przynosi żadnych wymiernych korzyści, bo sprawdziliśmy w międzyczasie, że ruch z tego widoku nie dowozi żadnych leadów, nic nie sprzedaje, to znów – można się zastanawiać, co z tym fantem zrobić. Np. w treści tego artykułu można osadzić link wewnętrzny do jakiegoś innego zasobu – tj. widoku, podstrony ze zoptymalizowanym anchorem, który zepchnie GoogleBota tam, gdzie tego chcemy.

Znów – podobnie, jak w przypadku analizowania źródeł pozyskiwania sesji GoogleBota, ocenienie tego, czy to, że GoogleBot jest aktywny w widoku „boldowanie tekstu” jest dobre, albo złe – ma szerszy kontekst. Generalnie analizowanie logów powinno mieć motyw przewodni i myślcie o nim tak, jak np. o procesach UX’owych i analitycznych. Bo jeśli nie wiecie, co chcecie zrobić, do czego doprowadzić, do jakiego scenariusza, to to, że wyciągniecie z Analyticsa, że call to action prowadzące do formularza kontaktowego waszej strony firmowej jest chętniej klikane, kiedy ma kolor zielony niż niebieski niewiele wnosi, ponieważ to po stronie organizacji jest ocenienie kaloryczności tych informacji, ich przetworzenie, skorelowanie z szerszymi celami, procesem pozyskiwania leadów itd.

Jeśli chodzi o analizę tego widoku ze względu na aktywność GoogleBota, to takie obserwacje na szybko: np. widok /nasz-zespol/ jest znacznie chętniej crawlowanym zasobem od widoków typowo ofertowych, więc w firmie powinien powstać proces, który będzie miał na celu optymalizację architektury informacji, modyfikacji kolejności linkowania wewnętrznego do wybranych zasobów i być może w jego wyniku należałoby podjąć decyzję o wypięciu widoku /nasz-zespol/ do stopki po to, aby uwolnić miejsce na crawlowanie widoków ofertowych. Nie wnikam na tym etapie, czy to jest rzeczywiście celem organizacji, ale chciałbym, abyście widzieli w jaki sposób myśleć o crawlingu. Bo skoro spalamy zasoby GoogleBota na zasobie, który nie pełni szczególnej funkcji poza funkcją informacyjną, brandingową, to można się zastanawiać co z tym fantem zrobić. Dalej mamy np. błąd 404 na widoku mapy wp-sitemap-users-1.xml. I teraz osoba, która analizowałaby te logi serwerowe powinna wiedzieć, że to, że ten URL odbija 404 jest tutaj jak najbardziej w porządku, ponieważ zdecydowaliśmy się na zablokowanie domyślnej, natywnej mapy WordPressa generowanej od kompilacji 5.5 w górę, a umówmy się – mapa, na którą składają się linki wewnętrzne do użytkowników WordPressa jest totalnie useless. Zarówno w kontekście crawlingu, jak i jakim innym kontekście. Jak pewnie zauważyliście z logów serwerowych idzie wyczytać sporo niestandardowych zdarzeń, które mogą uchodzić uwadze wyłącznie przy crawlingu zewnętrznym. Nie będę omawiał każdej pozycji z kolej, ale spójrzcie np. na zapytania dotyczące pliku /ads.txt – co prawda sam GoogleBot nie odpytuje serwera o ten plik, ale robią to inne boty i można się zastanawiać, czy np. nie warto wyciąć ich aktywności na serwerze już na poziomie .htaccess, bo pytanie, czy rzeczywiście crawlowanie zawartości Paq Studio przez boty chińskiego Baidu, albo rosyjskojęzycznego Yandexa są w tym kontekście potrzebne.

No i teraz, gdyby to był jakiś inny projekt, CMS, serwis, sklep to z logów wyjęlibyśmy też zwracające błędem 404 css’y, biblioteki JS, które np. są wciąż osadzone w źródłach niektórych widoków, 301-ki prowadzące do tzw. sierot, czyli widoków, jakie niegdyś były podlinkowane wewnątrz architektury informacji, ale z jakichś powodów, linki wewnętrzne do nich zostały odpięte, ale one same nie zostały przez nikogo usunięte, więc biorą udział w procesie crawlowania. A są w zasadzie nie do odnalezienia, jeśli nie obsługuje ich sam CMS, czyli nie zajdziecie ich w panelu swojego CMS’a

Tych zdarzeń w Waszych logach – jeśli do tej pory jeszcze ich nie analizowaliście, będzie całkiem sporo i zachęcam do grzebania w nich, bo otwierają oczy na wiele nietypowych problemów, procesów, pozwalają lepiej zrozumieć to, jak działają boty wyszukiwarek i gdzie spalają crawl budget.

5
Oceń artykuł
Zamknij

Ocen: Co wyczytasz w logach serwerowych w kontekście SEO?

Oceń
Adrian Pakulski
CEO
CEO agencji SEO Paq Studio i współwłaściciel spółki e-commerce'owej z branży motocyklowej Enduro7. Od 9 lat zajmuje się SEO i pozycjonowaniem w Google ze szczególnym uwzględnieniem e-commerce. Odpowiedzialny za budowę strategii pozyskiwania ruchu z wyszukiwarek dla firm B2B, B2C oraz techniczne SEO. Przedwdrożeniowy konsultant sklepów internetowych na Prestashop i WooCommerce. Wykładowca akademicki.

Jakiego artykułu szukasz?

Zamknij