CrawlBudgetGoogle

Budżet indeksowania (Google crawl budget) to kluczowy aspekt w SEO. To ważny element dużych stron internetowych z milionami podstron oraz średnich stron z kilkoma tysiącami podstron, które zmieniają się codziennie.

Przykładem strony z milionami podstron może być Amso.pl, a strony z dziesiątkami tysięcy często aktualizowanych podstron to np. serwisy z recenzjami użytkowników i ocenami, jak Gamespot.com. W związku z licznymi zadaniami i problemami, które musi rozważyć ekspert SEO, zagadnienie indeksowania bywa często odsuwane na dalszy plan.

Jednak optymalizacja budżetu indeksowania jest ważna i trzeba o niej pamiętać.

Czym jest budżet indeksowania?

Budżet indeksowania to liczba stron, które roboty wyszukiwarek (np. Googlebot) odwiedzają w określonym czasie.

Na budżet indeksowania wpływa kilka czynników, w tym dążenie Googlebota do nieobciążania serwera oraz ogólna potrzeba Google do indeksowania Twojej domeny.

Optymalizacja budżetu indeksowania to seria działań, które możesz podjąć, aby zwiększyć efektywność oraz częstotliwość wizyt robotów wyszukiwarek na Twoich stronach.

Dlaczego optymalizacja budżetu indeksowania jest ważna?

Indeksowanie to pierwszy krok do pojawienia się w wynikach wyszukiwania. Bez indeksowania nowe strony i aktualizacje nie trafią do indeksu wyszukiwarek.

Im częściej roboty odwiedzają Twoje strony, tym szybciej nowe treści oraz zmiany pojawiają się w indeksie. W efekcie, Twoje działania optymalizacyjne będą szybciej przynosiły rezultaty i wpłyną na pozycje w wynikach wyszukiwania.

Indeks Google zawiera setki miliardów stron i stale się powiększa. Wyszukiwarki ponoszą koszty związane z indeksowaniem każdego URL-a, a z rosnącą liczbą stron internetowych, starają się minimalizować koszty związane z zasobami i przechowywaniem danych, ograniczając tempo indeksacji i ilość indeksowanych URL-i.

Dodatkowo, rośnie potrzeba redukcji emisji dwutlenku węgla w kontekście zmian klimatycznych, a Google ma długoterminową strategię poprawy zrównoważonego rozwoju i ograniczania emisji.

Te priorytety mogą w przyszłości utrudniać skuteczne indeksowanie stron internetowych. Choć budżet indeksowania nie stanowi problemu dla małych stron z kilkuset podstronami, zarządzanie zasobami staje się kluczowe w przypadku ogromnych witryn. Optymalizacja budżetu indeksowania polega na tym, by Google indeksowało Twoją stronę przy minimalnym zużyciu zasobów.

Przejdźmy więc do omówienia, jak możesz zoptymalizować swój budżet indeksowania w dzisiejszych realiach.

Blokowanie indeksowania adresów URL akcji w pliku Robots.txt

Możesz być zaskoczony, ale Google potwierdziło, że blokowanie adresów URL za pomocą pliku robots.txt nie wpływa na Twój budżet indeksowania. Oznacza to, że Google będzie wciąż indeksować Twoją stronę z taką samą częstotliwością. Dlaczego więc o tym wspominam?

Blokując nieistotne adresy URL, zasadniczo informujesz Google, aby skupiło się na bardziej wartościowych częściach Twojej strony i indeksowało je częściej.

Na przykład, jeśli Twoja strona posiada funkcję wewnętrznego wyszukiwania z parametrami zapytań, takimi jak /?q=google, Google będzie indeksować te adresy, jeśli są gdzieś podlinkowane.

Podobnie, na stronie e-commerce, filtry takie jak /?color=red&size=s mogą generować nieskończoną liczbę unikalnych kombinacji adresów URL, które Google może próbować indeksować.

Te parametry zapytań nie oferują unikalnej treści, a jedynie filtrują dostępne dane, co jest korzystne dla użytkowników, ale nie dla Googlebota.

Pozwalanie Google na indeksowanie takich adresów marnuje Twój budżet indeksowania i negatywnie wpływa na ogólną efektywność indeksowania strony. Blokując je w pliku robots.txt, Google skoncentruje swoje zasoby na bardziej wartościowych stronach.

Jak blokować wewnętrzne wyszukiwanie, filtry i inne adresy URL z parametrami zapytań za pomocą robots.txt:

makefile

Skopiuj kod

Disallow: *?*s=*

Disallow: *?*color=*

Disallow: *?*size=*

Każda z tych reguł blokuje indeksowanie adresów URL zawierających odpowiednie parametry zapytań, niezależnie od innych parametrów.

  • * (gwiazdka) pasuje do dowolnej liczby znaków (w tym żadnych).
  • ? (znak zapytania) oznacza początek ciągu zapytania.
  • =* pasuje do znaku równości i dowolnych następujących po nim znaków.

Ta metoda pozwala uniknąć redundancji i zapewnia, że adresy URL z określonymi parametrami zapytań nie będą indeksowane przez wyszukiwarki.

Unikaj niezamierzonych blokad

Zwróć uwagę, że ta metoda blokuje wszystkie adresy URL zawierające wskazane znaki, co może prowadzić do niezamierzonych blokad. Na przykład, jeśli zablokujesz „s”, adresy URL zawierające „/?pages=2” również zostaną zablokowane, ponieważ *?*s= pasuje także do „?pages=”. Jeśli chcesz zablokować konkretne parametry, możesz zastosować bardziej precyzyjne reguły:

makefile

Skopiuj kod

Disallow: *?s=*

Disallow: *&s=*

Kluczowa różnica polega na braku gwiazdki * między znakiem zapytania ? a literą „s”. Taka metoda pozwala na zablokowanie konkretnych parametrów „s” w adresach URL, ale wymaga dodania każdej odmiany osobno.

Przykłady zastosowania

Dostosuj te reguły do swoich konkretnych przypadków. Na przykład, jeśli posiadasz przyciski z listą życzeń z adresami „?add_to_wishlist=1”, musisz zablokować je regułą:

makefile

Skopiuj kod

Disallow: /*?*add_to_wishlist=*

To prosty, naturalny i najważniejszy krok rekomendowany przez Google.

Przykład korzyści z blokowania parametrów

Blokowanie parametrów zapytań w robots.txt może pomóc w ograniczeniu indeksowania stron o nieistotnych wartościach parametrów. Google może próbować indeksować dziesiątki tysięcy adresów z różnymi wartościami parametrów, które prowadzą do nieistniejących stron.

Dlaczego niektóre zablokowane adresy URL mogą być nadal indeksowane?

Może się zdarzyć, że pomimo blokady niektóre adresy URL wciąż będą indeksowane przez wyszukiwarki. Może to wydawać się dziwne, ale nie jest powodem do zmartwień. Zazwyczaj oznacza to, że inne strony linkują do tych adresów URL.

Korzyść dla zasobów serwera

Blokowanie tych adresów za pomocą pliku robots.txt oszczędza także zasoby Twojego serwera. Gdy adres URL zawiera parametry wskazujące na dynamiczną treść, żądania trafiają do serwera zamiast do pamięci podręcznej, co zwiększa obciążenie serwera przy każdej indeksowanej stronie.

Pamiętaj, aby nie używać meta tagu „noindex” do blokowania indeksowania, ponieważ Googlebot musi najpierw załadować stronę, aby zobaczyć meta tag, co marnuje budżet indeksowania.

Blokowanie nieistotnych zasobów w pliku Robots.txt

Oprócz blokowania adresów URL akcji, warto rozważyć zablokowanie plików JavaScript, które nie są istotne dla układu strony ani renderowania.

Na przykład, jeśli posiadasz pliki JavaScript odpowiedzialne za otwieranie obrazów w wyskakujących oknach po kliknięciu przez użytkownika, możesz zablokować je w pliku robots.txt, aby Google nie marnował budżetu na ich indeksowanie.

Przykład reguły blokującej plik JavaScript:

javascript

Skopiuj kod

Disallow: /assets/js/popup.js

Jednak nigdy nie należy blokować zasobów, które są niezbędne do renderowania strony. Na przykład, jeśli treść na Twojej stronie ładuje się dynamicznie za pomocą JavaScript, Google musi zaindeksować pliki JS, aby uzyskać dostęp do treści, którą one ładują.

Innym przykładem są punkty końcowe API REST wykorzystywane do przesyłania formularzy. Powiedzmy, że masz formularz z adresem URL akcji „/rest-api/form-submissions/”. Teoretycznie Google może próbować indeksować te adresy, ale ponieważ nie są one związane z renderowaniem strony, warto je zablokować.

Przykład reguły blokującej:

javascript

Skopiuj kod

Disallow: /rest-api/form-submissions/

Warto jednak pamiętać, że niektóre systemy zarządzania treścią (CMS), zwłaszcza bezgłowe, wykorzystują API REST do dynamicznego ładowania treści, więc upewnij się, że nie blokujesz tych punktów końcowych.

Podsumowując, zidentyfikuj wszystkie zasoby niezwiązane z renderowaniem strony i zablokuj je w pliku robots.txt.

Uważaj na łańcuchy przekierowań

Łańcuchy przekierowań występują, gdy wiele adresów URL przekierowuje do innych, które również przekierowują dalej. Jeśli taki łańcuch trwa zbyt długo, roboty wyszukiwarek mogą porzucić indeksowanie, zanim dotrą do ostatecznego celu.

Na przykład, URL 1 przekierowuje do URL 2, który przekierowuje do URL 3 i tak dalej. Łańcuchy mogą także przybrać formę nieskończonych pętli, gdy adresy URL przekierowują się nawzajem.

Unikanie takich sytuacji to kwestia podstawowej higieny strony.

Idealnie byłoby, gdyby udało się całkowicie wyeliminować łańcuchy przekierowań na całej domenie.

Jednak w przypadku dużych stron internetowych może być to trudne do osiągnięcia – przekierowania 301 i 302 są nieuniknione, a nie możesz naprawić przekierowań wynikających z linków zewnętrznych, ponieważ nie masz kontroli nad stronami innych osób.

Pojedyncze przekierowania tu i tam nie powinny wyrządzić szkody, ale długie łańcuchy i pętle mogą stać się problematyczne.

Jak naprawiać łańcuchy przekierowań?

Aby rozwiązać problem łańcuchów przekierowań, możesz użyć narzędzi SEO, takich jak Screaming Frog, Lumar lub Oncrawl, które pomogą Ci je zidentyfikować.

Po wykryciu łańcucha najlepszym rozwiązaniem jest usunięcie wszystkich zbędnych przekierowań pomiędzy pierwszym a ostatecznym URL-em. Na przykład, jeśli łańcuch przechodzi przez siedem stron, przekieruj bezpośrednio z pierwszego URL-a do siódmego.

Kolejnym dobrym sposobem na redukcję łańcuchów przekierowań jest zastąpienie wewnętrznych URL-i w Twoim CMS docelowymi adresami, które nie wymagają przekierowań.

W zależności od używanego systemu CMS, dostępne mogą być różne rozwiązania. Na przykład, dla WordPressa możesz skorzystać z odpowiednich wtyczek. W przypadku innych CMS-ów może być konieczne zastosowanie niestandardowego rozwiązania lub poproszenie zespołu programistów o pomoc.

Stosuj renderowanie po stronie serwera (HTML) tam, gdzie to możliwe

Googlebot, który wykorzystuje najnowszą wersję przeglądarki Chrome, jest w stanie poprawnie interpretować treści ładowane przez JavaScript. Jednak warto podejść do tego krytycznie. Co to oznacza? Googlebot najpierw indeksuje stronę i zasoby, takie jak JavaScript, a następnie zużywa dodatkowe zasoby obliczeniowe, aby je wyrenderować.

Google przywiązuje dużą wagę do kosztów obliczeniowych i chce je minimalizować, dlatego nie ma sensu renderować treści po stronie klienta (przez JavaScript), skoro to zwiększa koszty obliczeniowe Google podczas indeksowania Twoich stron.

Z tego powodu, tam gdzie to możliwe, powinieneś trzymać się HTML. Dzięki temu nie obniżasz swoich szans z żadnym robotem wyszukiwarki.

Popraw szybkość ładowania strony

Jak wspomniano wyżej, Googlebot indeksuje i renderuje strony za pomocą JavaScript. Jeśli Googlebot zużywa mniej zasobów na renderowanie, łatwiej będzie mu zaindeksować stronę. Wpływ na to ma stopień optymalizacji szybkości Twojej witryny.

Google podkreśla:

„Indeksowanie Google jest ograniczone przez przepustowość, czas i dostępność instancji Googlebota. Jeśli serwer odpowiada na żądania szybciej, możemy zaindeksować więcej stron Twojej witryny.”

Korzystanie z renderowania po stronie serwera to już krok w kierunku poprawy szybkości ładowania strony, ale musisz upewnić się, że Twoje wskaźniki Core Web Vitals są zoptymalizowane, zwłaszcza czas odpowiedzi serwera.

Dbaj o swoje linki wewnętrzne

Google indeksuje wszystkie adresy URL na stronie, dlatego warto pamiętać, że różne adresy URL są traktowane przez roboty jako osobne strony.

Jeśli Twoja witryna działa w wersji „www”, upewnij się, że wewnętrzne linki, zwłaszcza w nawigacji, prowadzą do kanonicznej wersji, czyli również w formacie z „www” (lub bez „www”, jeśli taką wersję preferujesz).

Częstym błędem jest również brak ukośnika na końcu adresu URL. Jeśli Twoje adresy URL mają ukośnik na końcu, zadbaj, by wewnętrzne linki również go miały. W przeciwnym razie niepotrzebne przekierowania, np. „https://www.example.com/przykladowa-strona” na „https://www.example.com/przykladowa-strona/”, mogą prowadzić do podwójnego indeksowania każdego adresu URL.

Kolejnym ważnym aspektem jest unikanie uszkodzonych linków wewnętrznych, które mogą pochłaniać budżet indeksowania i tworzyć tzw. strony soft 404.

A co gorsza, te błędy negatywnie wpływają na doświadczenia użytkowników!

W takiej sytuacji ponownie warto skorzystać z narzędzia do audytu witryny, takiego jak WebSite Auditor, Screaming Frog, Lumar, Oncrawl czy SE Ranking.

Aktualizuj swoją mapę witryny

Kolejnym krokiem, który przynosi korzyści zarówno Tobie, jak i robotom wyszukiwarek, jest zadbanie o aktualność mapy witryny XML.

Roboty wyszukiwarek będą miały znacznie łatwiejsze zadanie, rozumiejąc, dokąd prowadzą linki wewnętrzne.

Używaj wyłącznie kanonicznych adresów URL w mapie witryny i upewnij się, że jest ona zgodna z najnowszą wersją pliku robots.txt oraz że ładuje się szybko.

Implementacja kodu statusu 304

Podczas indeksowania adresu URL, Googlebot przesyła nagłówek „If-Modified-Since”, który zawiera informację o ostatniej dacie indeksowania danego adresu.

Jeśli Twoja strona nie została zmieniona od tego czasu, możesz zwrócić status kodu 304 Not Modified bez treści odpowiedzi. Informuje to wyszukiwarki, że zawartość strony nie uległa zmianie, i Googlebot może skorzystać z wersji, którą posiada z poprzedniego indeksowania.

Wyobraź sobie, ile zasobów serwera możesz zaoszczędzić, pomagając jednocześnie Googlebotowi oszczędzić zasoby, szczególnie gdy masz do czynienia z milionami stron. To naprawdę sporo!

Jednak trzeba być ostrożnym przy implementacji kodu 304. Jak zauważył Gary Illyes, błędy serwera, które zwracają puste strony z kodem 200, mogą spowodować, że roboty wyszukiwarek przestaną indeksować te strony, co może prowadzić do długotrwałych problemów z indeksacją.

Znaczenie tagów hreflang

Aby roboty wyszukiwarek mogły prawidłowo analizować Twoje strony lokalizacyjne, musisz stosować tagi hreflang. Powinieneś wyraźnie informować Google o lokalnych wersjach swoich stron.

Najpierw, w nagłówku strony używaj:

html

Skopiuj kod

<link rel=”alternate” hreflang=”kod_języka” href=”adres_strony” />

Gdzie „kod_języka” to kod obsługiwanego języka. Dodatkowo, dla każdego adresu URL należy używać elementu <loc>, aby wskazywać na lokalizowane wersje strony.

Monitorowanie i konserwacja

Regularnie sprawdzaj swoje logi serwera oraz raport Crawl Stats w Google Search Console, aby monitorować anomalie związane z indeksowaniem i identyfikować potencjalne problemy.

Jeśli zauważysz okresowe wzrosty indeksacji stron z błędem 404, w 99% przypadków jest to spowodowane niekończącymi się przestrzeniami do indeksowania, o których wspomnieliśmy wcześniej, lub wskazuje to na inne problemy z Twoją witryną.

Często warto połączyć informacje z logów serwera z danymi z Search Console, aby zidentyfikować przyczynę problemów.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *