Mapa witryny, robots.txt i indeksowanie - czego Google naprawdę potrzebuje od Twojej strony

Gdy Twoja nowa strona jest już online, na początku dzieje się: nic. Google jeszcze Cię nie zna. Zanim Twoje strony pojawią się w wynikach wyszukiwania, trzy rzeczy muszą zgrać się ze sobą bez zarzutu: Google musi Twoją stronę znaleźć, mieć prawo ją odczytać oraz zdecydować się ją uwzględnić. Dokładnie po to są mapa witryny, robots.txt i indeksowanie. Wyjaśniamy Ci bez branżowego żargonu, co robią te trzy elementy - i co z tego naprawdę jest Ci potrzebne.

Crawling, indeksowanie, ranking - na czym polega różnica

Te trzy pojęcia są często mylone, choć oznaczają trzy odrębne kroki:

Crawling: Googlebot odwiedza Twoją stronę i czyta jej treść - jak automatyczny odwiedzający.
Indeksowanie: Google decyduje o włączeniu strony do swojego ogromnego katalogu (indeksu). Tylko zaindeksowane strony mogą w ogóle pojawić się w wyszukiwarce.
Ranking: Przy zapytaniu wyszukiwania Google decyduje, na której pozycji pojawi się Twoja zaindeksowana strona.

Ważne, by to zrozumieć: strona może zostać przeszukana (crawl), ale niezaindeksowana. To normalne i nie jest błędem. Google nie indeksuje wszystkiego - tylko to, co uzna za przydatne.

Czym jest mapa witryny?

Mapa witryny (najczęściej sitemap.xml) to prosta lista wszystkich ważnych adresów URL Twojej strony. Mówisz nią Google: "Oto moje strony, zerknij na nie proszę". Nie jest to polecenie, lecz wskazówka - swego rodzaju spis treści.

W przypadku małej strony z pięcioma do dziesięciu dobrze powiązanych podstron Google znajdzie treść również bez mapy witryny, ponieważ podąża za linkami wewnętrznymi. Naprawdę cenna staje się mapa witryny, gdy:

Twoja strona ma wiele podstron, do których nie wszędzie prowadzą linki,
regularnie publikujesz nowe treści (blog, produkty, lokalizacje),
Twoja strona jest świeżo online i ma jeszcze niewiele linków zwrotnych.

Przy dużym katalogu mapa witryny robi realną różnicę. Prowadzimy siedem własnych marek w produkcji - jedną z nich jest portal produktowy z około 177 000 produktów. Bez czystych, poprawnie podzielonych map witryny Google nigdy nie odkryłby dużej ich części. Przy zwykłej stronie typu one-pager mapa witryny jest natomiast miłym dodatkiem, ale nie ma decydującego znaczenia.

Co robi plik robots.txt?

Plik robots.txt to mały plik tekstowy w katalogu głównym Twojej domeny (dostępny pod adresem twojadomena.pl/robots.txt). Reguluje on, które obszary Googlebot może odwiedzać, a których nie. Typowo blokuje się tu obszary logowania, koszyki zakupowe czy narzędzia wewnętrzne - czyli strony, które nie mają czego szukać w wynikach wyszukiwania.

Ważne nieporozumienie: robots.txt nie zapobiega indeksowaniu. Steruje wyłącznie crawlingiem. Strona zablokowana przez robots.txt może mimo to trafić do indeksu, jeśli inne strony do niej linkują - wówczas pojawia się jednak bez opisu. Jeśli naprawdę chcesz utrzymać stronę poza wynikami wyszukiwania, należy to uregulować za pomocą meta tagu noindex, a nie przez robots.txt.

W pliku robots.txt zwyczajowo znajduje się też odwołanie do Twojej mapy witryny - dzięki temu wyszukiwarki znajdują ją automatycznie.

Najczęstszy i najkosztowniejszy błąd

Klasyka: w trakcie tworzenia strona jest ukrywana przed Google za pomocą noindex lub całkowitej blokady w robots.txt - co jest słuszne. Przy uruchomieniu na żywo zapomina się jednak usunąć tę blokadę. Efekt: gotowa strona jest online, wygląda dobrze, ale Google całkowicie ją ignoruje. To może pozostać niezauważone przez tygodnie.

Dlatego do każdego rzetelnego uruchomienia należy kontrola: czy w robots.txt nie znalazło się przypadkiem Disallow: /? Czy gdzieś nie wisi jeszcze noindex? Sprawdzamy to aktywnie przy każdym projekcie, zanim określimy stronę jako "live".

Twoja praktyczna lista kontrolna

Skonfiguruj Google Search Console: to bezpłatne narzędzie Google jest obowiązkowe. Tutaj zobaczysz, które strony są zaindeksowane i gdzie coś się zacina.
Utwórz i prześlij mapę witryny: w Search Console w sekcji "Mapy witryny" podaj pełny adres URL (np. https://twojadomena.pl/sitemap.xml), a nie tylko nazwę pliku.
Sprawdź robots.txt: otwórz go i upewnij się, że żadne ważne obszary nie są zablokowane.
Kontroluj status indeksowania: dzięki wyszukiwaniu site:twojadomena.pl zobaczysz z grubsza, co Google o Tobie wie.
Uzbrój się w cierpliwość: indeksowanie wymaga czasu. Dni do tygodni to norma, szczególnie przy nowych domenach bez linków.

Czy potrzebujesz do tego agencji?

Szczerze mówiąc: dla małej, przejrzystej strony da się to wszystko zrobić samodzielnie w jedną do dwóch godzin - Search Console dobrze Cię przez to przeprowadzi. Nie musisz nikomu za to płacić. Skomplikowane robi się dopiero przy dużych strukturach stron, witrynach wielojęzycznych, sklepach internetowych lub gdy Google ma już strony "znalezione, ale niezaindeksowane". Wtedy problem tkwi zwykle głębiej - w architekturze strony, linkowaniu wewnętrznym lub jakości treści.

W projektach o stałej cenie, które realizujemy, poprawnie wygenerowana mapa witryny, czysty plik robots.txt i podłączenie do Search Console są od samego początku częścią dostawy - a nie dodatkiem, który później trzeba kosztownie poprawiać. Technicznie poprawnie skonfigurowana strona to podstawowy warunek tego, by jakakolwiek późniejsza praca nad SEO mogła w ogóle przynieść efekt.