16 maja 2019
Adrian Pakulski

Wrażliwe treści w Google

Domeny SEO

To, że występują wyraźne różnice w wynikach organicznych w zależności od Waszej lokalizacji oraz rodzaju urządzenia, z jakiego wysyłacie zapytanie do serwerów Google – to jasne. Ale SERP’y mogą być różne także z wielu innych powodów – np. tylko z tytułu samego rodzaju zapytania, bo czym innym jest zapytanie do wyszukiwarki typu „kosiarka spalinowa sklep”, a czym innym „Jak z zbudować bombę atomową krok po kroku?”. Dlatego dziś porozmawiamy o tym, w jaki sposób algorytm radzi sobie, albo w zasadzie – próbuje radzić sobie z ekspozycją wrażliwych, fałszywych treści, gore, przemocy i poradników, mających bezpośredni wpływ na zdrowie, życie, a także – co kontrowersyjne – nasze decyzje polityczne. Omówimy sobie w uproszczeniu, jak działają filtry wyszukiwarki w przypadku tego rodzaju wyników i dlaczego persony mają tak duże znaczenie w zwracaniu wyników.

Wiedza SEO
Ucz się podstaw SEO z naszego kanału na YouTube

25 września 2018 roku Google opatentowało skrypt o tytule w wolnym tłumaczeniu: „Ochrona użytkowników od niewłaściwych wrażliwych lub obraźliwych treści w wynikach wyszukiwarki”. Z dokumentacji wynika kilka ciekawych faktów. Po pierwsze – przy filtracji tego typu treści (dotyczących np. narkotyków, przemocy itd.) w znacznej mierze nadal pracują ludzie. Co prawda Google nie chwali się o jakiej skali mowa, to jednak w materiałach czytamy, że klasyfikatory oceny zawartości wyniku organicznego są budowane nie tylko w oparciu o wcześniej zdefiniowane zestawy danych i ich zależności, ale recenzentów, którzy ręcznie weryfikują skuteczność pracy algorytmu – prawdopodobnie doraźnie nawet na poziomie pojedynczych zapytań, a nie globalnych modyfikacji, nad którymi pracuje już dedykowany zespół inżynierów. W dokumentacji, którą czytałem, Google posługuje się tutaj także pojęciem „training data”, co może wskazywać, że decyzje podejmowane przez moderatorów mają być bazą wyjściową dla kolejnych wariacji algorytmu. Człowiek w praktyce ocenia jakość wyniku organicznego przy różnego rodzaju zapytaniach o wrażliwe treści i przekazuje to do dalszej analizy, zasilając silnik wyszukiwarki, budując heurystykę.

Po drugie – zapytania, w których wynikach mogłyby pojawić się wrażliwe treści są filtrowane przez kilka pomniejszych algorytmów. Wynik organiczny może zostać zakwalifikowany jako „wrażliwy” nie tylko wtedy, kiedy w jego zawartości miałyby pojawiać się treści lub obrazy z kategorii: narkotyki, pornografia, przemoc itd., tj. ale i i gdy jakakolwiek podstrona do jakiej referuje, odsyła ten wynik organiczny, też jest niezgodna z powszechnie pojętym „dobrem” – jeśli tak mogę to nazwać.

Słowem – filtrowanie odbywa się nie tylko na poziomie samego wyniku, czyli nie chodzi o to, że w samym wyniku organicznym nie padają słowa obraźliwe, ale i strony, do jakich ten wynik organiczny kieruje – również mają ich nie zawierać. Tutaj analizowane są wszystkie dane z treści, tj. URL, zawartość danych w meta i całe <body> – łącznie z analizą bitmap i co prawdopodobne – nie w oparciu o zdefiniowaną przez właściciela strony nazwę bitmapy, jej opis alt czy title, ale weryfikację zawartości przez osobny skrypt.

O tym analizowaniu bitmap mówię nie bez powodu – zwróćcie uwagę, w jaki sposób algorytm radzi sobie dziś z identyfikacją zawartości bitmapy nawet jeśli nie jest opisana. Kiedy kliknę na swoją fotografię na Paq Studio i przeszukam Google w poszukiwaniu kopii tych obrazów, wyszukiwarka zwraca mi swój opis obrazu jako „spokeperson”. Oznacza to tylko tyle, że algorytm sam interpretuje obrazki, bo fraza „spokeperson” (ang. mówca) nie pada nigdzie w źródle – jest to parametr jaki algorytm przyporządkował sobie sam – określił, że ta bitmapa zawiera osobę, która mówi i nadanie jej np. alt = „tanie pozycjonowanie stron www” będzie tutaj traktowane już jako keyword stuffing. Podobnie działa to na Facebooku – moje pierwsze lepsze zdjęcie na ścianie i co? Obraz może zawierać: 1 osoba, stoi i broda. Niezłe, co?

Ale wróćmy do tematu.

W jaki sposób Google w ogóle interpretuje, co jest tą treścią wrażliwą, a co nie? Algorytm posiada zbiór słów i pochodnych od nich wektorowo kombinacji – np. broń, broń palna i np. śmierć. Gdybyście pobrali zawartość kilku tys. podstron, na których pada wyrażenie „broń”, to dostrzeglibyście, że w ponad połowie pada także słowo „śmierć”, czyli wektorowe połączenie „broń” i „śmierć” występuje w 1 na 2 przypadki. Ale gdybyście próbowali połączyć wektorowo „broń” z „jabłoń”, to okaże się, że takie kombinacje nie pojawiają się w zasadzie wcale. I to właśnie na podstawie połączeń wektorowych można spodziewać się, że algorytm jest w stanie łączyć ze sobą kolejne obszary, które mogą tę wrażliwą treść zawierać.

W patencie za przykład podaje się podstronę w serwisie internetowym, w którym pada słowo „broń”. Jeśli hasło „broń” pada jednostkowo, to algorytm uznaje, że pada kontekstowo i to za mało, aby zbudować klasyfikator „wrażliwej treści”. Kiedy jednak słowo to pada sto razy, wynik będzie odwrotny i strona o takiej zawartości może być albo całkowicie usunięta z wyników (choć nadal technicznie rzecz biorąc – utrzymywana w indeksie), albo na tyle daleko oddalona od TOP 10, aby docierali do niej tylko ci najwytrwalsi. To oddalenie, obsunięcie na pozycjach nie jest przypadkowe – to typowa mechanika, jaka została zaimplementowana w algorytmie.

W przypadku filtrowania danych związanych z narkotykami, przemocą itd. brany pod uwagę jest także szerzy kontekst, w tym persony, które wydaje się – nie są tak wyraźnie nakreślone w przypadku zwykłych zapytań. Tutaj – zanim wynik wyszukiwania trafi na Wasz monitor proces wygląda następująco:

  • zapytanie do wyszukiwarki,
  • zapytanie do serwera o „surowy” wynik,
  • jeśli algorytm posiada personę (wie wystarczająco dużo na temat użytkownika, jaki wpisał zapytanie do wyszukiwarki), robi korektę w oparciu o jego personę i wyświetla wynik,
  • jeśli algorytm nie posiada zbudowanej persony, stara się zakwalifikować użytkownika i zbudować personę, a następnie robi korektę w oparciu o dane jakie posiada i wyświetla wynik.

Persony o jakich mówię to indywidualny profil użytkownika zbudowany w oparciu o dane, jakie wyszukiwarka posiada – w tym wiek, urządzenie, historię wyszukiwań. Wiek i historia w przypadku treści wrażliwych są tutaj kluczowe – i tak np. jeśli nieletni (powiedzmy 16-latek) jest zalogowany do usług Google i wpisze do wyszukiwarki zapytanie: „praca dla nastolatków”, to jeśli miałoby okazać się, że w pierwszych 10 wynikach pojawia mu się materiał: „pracuj jako nastolatek w naszym gangu”, to mimo semantycznej trafności takiego wyniku (z punktu widzenia czysto technicznego dane, tj. jakość treści, objętość w relacji do konkurencji, profilu linków itd.), to taki wynik zostanie mu ukryty lub jego pozycja zostanie zasadniczo obniżona mimo że np. osobie pełnoletniej taki artykuł mógłby wyświetlić się w pierwszych kilku wynikach.

I tyle w teorii, bo w praktyce – patentów, które opisują sposób ekspozycji, filtrowania wyników organicznych i działania silnika search w przypadku wrażliwych treści są dziesiątki – dziś chciałem podzielić się z Wami moimi obserwacjami i wnioskami, jakie płyną z patentów zastrzeganych przez Google w tym obszarze. Tyle na dzisiaj, dzięki za uwagę i do następnego.

4.9
Oceń
Zamknij

Ocen: Wrażliwe treści w Google

Oceń
Adrian Pakulski
Właściciel / specjalista SEO
Specjalista SEO z 8-letnim doświadczeniem rynkowym, a od 2012 r. właściciel agencji paq-studio, linkbuilder i analityk SEO. Odpowiedzialny za opiekę merytoryczną małych, średnich i dużych marek w wyszukiwarce Google. Absolwent Politechniki Koszalińskiej i Akademii Górniczo-Hutniczej w Krakowie na kierunku Marketing Internetowy.
Jak sprawdzić popularność frazy w Google?

Jak sprawdzić popularność frazy w Google?

Szukasz pomysłu na utworzenie nowej treści na swojej stronie, blogu lub sklepie internetowym? Upewnij się, że zapytanie do wyszukiwarki, jakie intuicyjnie wydaje ...
Jak sprawdzić, na której stronie Google jest moja strona?

Jak sprawdzić, na której stronie Google jest moja strona?

Ale na jakie zapytanie, na jaką frazę? Ale okej – jeśli zadałeś sobie to pytanie w ten sposób, to prawdopodobnie chcesz dowiedzieć ...
Prowadzenie serwisu ogłoszeniowego

Prowadzenie serwisu ogłoszeniowego

Czy prowadzenie serwisu ogłoszeniowego to dobry pomysł na biznes w 2020 r.? Co z SEO? Jak operować main contentem, który w 99% ...

Jakiego artykułu szukasz?

Zamknij