Yandex.Metrica
Zamknij

Jakiego artykułu szukasz?

Skontaktuj się

Wrażliwe treści w Google

Adrian Pakulski
16 maja 2019
Wrażliwe treści w Google
16 maja 2019
Adrian Pakulski
AdrianPakulski

Wrażliwe treści w Google

0

To, że występują wyraźne różnice w wynikach organicznych w zależności od Waszej lokalizacji oraz rodzaju urządzenia, z jakiego wysyłacie zapytanie do serwerów Google – to jasne. Ale SERP’y mogą być różne także z wielu innych powodów – np. tylko z tytułu samego rodzaju zapytania, bo czym innym jest zapytanie do wyszukiwarki typu „kosiarka spalinowa sklep”, a czym innym „Jak z zbudować bombę atomową krok po kroku?”. Dlatego dziś porozmawiamy o tym, w jaki sposób algorytm radzi sobie, albo w zasadzie – próbuje radzić sobie z ekspozycją wrażliwych, fałszywych treści, gore, przemocy i poradników, mających bezpośredni wpływ na zdrowie, życie, a także – co kontrowersyjne – nasze decyzje polityczne. Omówimy sobie w uproszczeniu, jak działają filtry wyszukiwarki w przypadku tego rodzaju wyników i dlaczego persony mają tak duże znaczenie w zwracaniu wyników.

25 września 2018 roku Google opatentowało skrypt o tytule w wolnym tłumaczeniu: „Ochrona użytkowników od niewłaściwych wrażliwych lub obraźliwych treści w wynikach wyszukiwarki”. Z dokumentacji wynika kilka ciekawych faktów. Po pierwsze – przy filtracji tego typu treści (dotyczących np. narkotyków, przemocy itd.) w znacznej mierze nadal pracują ludzie. Co prawda Google nie chwali się o jakiej skali mowa, to jednak w materiałach czytamy, że klasyfikatory oceny zawartości wyniku organicznego są budowane nie tylko w oparciu o wcześniej zdefiniowane zestawy danych i ich zależności, ale recenzentów, którzy ręcznie weryfikują skuteczność pracy algorytmu – prawdopodobnie doraźnie nawet na poziomie pojedynczych zapytań, a nie globalnych modyfikacji, nad którymi pracuje już dedykowany zespół inżynierów. W dokumentacji, którą czytałem, Google posługuje się tutaj także pojęciem „training data”, co może wskazywać, że decyzje podejmowane przez moderatorów mają być bazą wyjściową dla kolejnych wariacji algorytmu. Człowiek w praktyce ocenia jakość wyniku organicznego przy różnego rodzaju zapytaniach o wrażliwe treści i przekazuje to do dalszej analizy, zasilając silnik wyszukiwarki, budując heurystykę.

Po drugie – zapytania, w których wynikach mogłyby pojawić się wrażliwe treści są filtrowane przez kilka pomniejszych algorytmów. Wynik organiczny może zostać zakwalifikowany jako „wrażliwy” nie tylko wtedy, kiedy w jego zawartości miałyby pojawiać się treści lub obrazy z kategorii: narkotyki, pornografia, przemoc itd., tj. ale i i gdy jakakolwiek podstrona do jakiej referuje, odsyła ten wynik organiczny, też jest niezgodna z powszechnie pojętym „dobrem” – jeśli tak mogę to nazwać.

Słowem – filtrowanie odbywa się nie tylko na poziomie samego wyniku, czyli nie chodzi o to, że w samym wyniku organicznym nie padają słowa obraźliwe, ale i strony, do jakich ten wynik organiczny kieruje – również mają ich nie zawierać. Tutaj analizowane są wszystkie dane z treści, tj. URL, zawartość danych w meta i całe <body> – łącznie z analizą bitmap i co prawdopodobne – nie w oparciu o zdefiniowaną przez właściciela strony nazwę bitmapy, jej opis alt czy title, ale weryfikację zawartości przez osobny skrypt.

O tym analizowaniu bitmap mówię nie bez powodu – zwróćcie uwagę, w jaki sposób algorytm radzi sobie dziś z identyfikacją zawartości bitmapy nawet jeśli nie jest opisana. Kiedy kliknę na swoją fotografię na Paq Studio i przeszukam Google w poszukiwaniu kopii tych obrazów, wyszukiwarka zwraca mi swój opis obrazu jako „spokeperson”. Oznacza to tylko tyle, że algorytm sam interpretuje obrazki, bo fraza „spokeperson” (ang. mówca) nie pada nigdzie w źródle – jest to parametr jaki algorytm przyporządkował sobie sam – określił, że ta bitmapa zawiera osobę, która mówi i nadanie jej np. alt = „tanie pozycjonowanie stron www” będzie tutaj traktowane już jako keyword stuffing. Podobnie działa to na Facebooku – moje pierwsze lepsze zdjęcie na ścianie i co? Obraz może zawierać: 1 osoba, stoi i broda. Niezłe, co?

Ale wróćmy do tematu.

W jaki sposób Google w ogóle interpretuje, co jest tą treścią wrażliwą, a co nie? Algorytm posiada zbiór słów i pochodnych od nich wektorowo kombinacji – np. broń, broń palna i np. śmierć. Gdybyście pobrali zawartość kilku tys. podstron, na których pada wyrażenie „broń”, to dostrzeglibyście, że w ponad połowie pada także słowo „śmierć”, czyli wektorowe połączenie „broń” i „śmierć” występuje w 1 na 2 przypadki. Ale gdybyście próbowali połączyć wektorowo „broń” z „jabłoń”, to okaże się, że takie kombinacje nie pojawiają się w zasadzie wcale. I to właśnie na podstawie połączeń wektorowych można spodziewać się, że algorytm jest w stanie łączyć ze sobą kolejne obszary, które mogą tę wrażliwą treść zawierać.

W patencie za przykład podaje się podstronę w serwisie internetowym, w którym pada słowo „broń”. Jeśli hasło „broń” pada jednostkowo, to algorytm uznaje, że pada kontekstowo i to za mało, aby zbudować klasyfikator „wrażliwej treści”. Kiedy jednak słowo to pada sto razy, wynik będzie odwrotny i strona o takiej zawartości może być albo całkowicie usunięta z wyników (choć nadal technicznie rzecz biorąc – utrzymywana w indeksie), albo na tyle daleko oddalona od TOP 10, aby docierali do niej tylko ci najwytrwalsi. To oddalenie, obsunięcie na pozycjach nie jest przypadkowe – to typowa mechanika, jaka została zaimplementowana w algorytmie.

W przypadku filtrowania danych związanych z narkotykami, przemocą itd. brany pod uwagę jest także szerzy kontekst, w tym persony, które wydaje się – nie są tak wyraźnie nakreślone w przypadku zwykłych zapytań. Tutaj – zanim wynik wyszukiwania trafi na Wasz monitor proces wygląda następująco:

  • zapytanie do wyszukiwarki,
  • zapytanie do serwera o „surowy” wynik,
  • jeśli algorytm posiada personę (wie wystarczająco dużo na temat użytkownika, jaki wpisał zapytanie do wyszukiwarki), robi korektę w oparciu o jego personę i wyświetla wynik,
  • jeśli algorytm nie posiada zbudowanej persony, stara się zakwalifikować użytkownika i zbudować personę, a następnie robi korektę w oparciu o dane jakie posiada i wyświetla wynik.

Persony o jakich mówię to indywidualny profil użytkownika zbudowany w oparciu o dane, jakie wyszukiwarka posiada – w tym wiek, urządzenie, historię wyszukiwań. Wiek i historia w przypadku treści wrażliwych są tutaj kluczowe – i tak np. jeśli nieletni (powiedzmy 16-latek) jest zalogowany do usług Google i wpisze do wyszukiwarki zapytanie: „praca dla nastolatków”, to jeśli miałoby okazać się, że w pierwszych 10 wynikach pojawia mu się materiał: „pracuj jako nastolatek w naszym gangu”, to mimo semantycznej trafności takiego wyniku (z punktu widzenia czysto technicznego dane, tj. jakość treści, objętość w relacji do konkurencji, profilu linków itd.), to taki wynik zostanie mu ukryty lub jego pozycja zostanie zasadniczo obniżona mimo że np. osobie pełnoletniej taki artykuł mógłby wyświetlić się w pierwszych kilku wynikach.

I tyle w teorii, bo w praktyce – patentów, które opisują sposób ekspozycji, filtrowania wyników organicznych i działania silnika search w przypadku wrażliwych treści są dziesiątki – dziś chciałem podzielić się z Wami moimi obserwacjami i wnioskami, jakie płyną z patentów zastrzeganych przez Google w tym obszarze. Tyle na dzisiaj, dzięki za uwagę i do następnego.

Ocen ten artykuł

Ocen: Wrażliwe treści w Google

Oceń
Ocena 4.9/5 na podstawie 7 ocen
Adrian Pakulski
Właściciel / specjalista SEO
Specjalista SEO z 8-letnim doświadczeniem rynkowym, a od 2012 r. właściciel agencji paq-studio, linkbuilder i analityk SEO. Odpowiedzialny za opiekę merytoryczną małych, średnich i dużych marek w wyszukiwarce Google. Absolwent Politechniki Koszalińskiej i Akademii Górniczo-Hutniczej w Krakowie na kierunku Marketing Internetowy.

Teksty które warto znać

12 listopada 2019
E-commerce jak zacząć?
Adrian Pakulski

E-commerce jak zacząć?

21 października 2019
Kluczowe momenty wideo w Google
Adrian Pakulski

Kluczowe momenty wideo w Google

Meta tagi – jak pisać?
Adrian Pakulski

Meta tagi – jak pisać?

25 września 2019
E-commerce to usługa a nie produkt
Adrian Pakulski

E-commerce to usługa a nie produkt

Wypis w WordPress
Adrian Pakulski

Wypis w WordPress

Certyfikat SSL a pozycjonowanie
Adrian Pakulski

Certyfikat SSL a pozycjonowanie

PAQ Studio na Facebooku