Wewnętrzne i zewnętrzne duplikaty treści.

Wykrywanie i obsługa duplikowanych treści to jedna z rutynowych czynności każdego SEO lub administratora strony internetowej. Jak wielkie znaczenie mają duplikaty treści, przekonałem się sam kilka razy w mojej karierze SEO. Chociaż nastąpiło wiele zmian w algorytmie Google i w zasadzie dzisiaj łatwiej jest poradzić sobie z tym problemem niż parę lat temu, to wciąż nie zwalania nas z obowiązku pilnowania indeksu. No i rzecz jasna odstępowania (celowo lub przez przypadek) od standardów jakościowych.

Klucz do sukcesu leży w szczegółach

Algorytm generalnie radzi sobie całkiem efektywnie z plagiatem i duplikatem treści, zarówno wewnętrznym, jak i zewnętrznym. Z drugiej jednak strony niewiele trzeba, aby zapchać indeks adresami do podstron, które już tam są. Czasem wystarczy nawet aktualizacja CMS albo zwykły brak nieuwagi, aby indeks wyłapał podstrony, które niewiele się miedzy sobą różnią.

Ku woli ścisłości dodam, że wewnętrzny duplikat treści jest wtedy, kiedy jedna strona występuje pod kilkoma url. Dla tych, którzy chcą podwyższyć poprzeczkę, tą definicje można rozciągnąć na podstrony w obrębie tej samej domeny, które są identyczne w co najmniej 70% . Natomiast duplikat zewnętrzny to oczywiście typowy plagiat, którego wszyscy się boją, a który nie koniecznie ma negatywne efekty na pozycjonowanie.

Wewnętrzne duplikaty treści

Wewnętrzne duplikaty treści wynikają z:

1. budowy odnośnika, np:

/news
/news/
/news.html
/news.aspx
/news/home/

2. użycia różnej wielkości liter:

/news
/News
/NEWS

3. Wyniki wewnętrznych wyszukań (oraz zmiana kolejności parametrów):

/news?page=1&order=recent
/news?order=recent&page=1

4. Duplikat treści wynikający z parametrów śledzenia aktywności

/news?source=header
/news?source=footer
/news?source=rss

5. Zmiana adresu domeny

www.mojadomena.pl v mojadomena.pl
hppt v https

Dlaczego to może być problematyczne? Przede wszystkim więcej podstron oznacza więcej kilobajtów dla bota. Istnieje takie pojecie, jak „budżet robota indeksującego”, gdyż zasoby mocy obliczeniowej serwerów Google są ograniczone. Duplikaty wewnętrzne będą miały największy efekt na sklepy internetowe, gdzie jeden produkt może występować na 100 podstronach. Na przykład koszulka męska, która jest do nabycia w 10 rozmiarach i do tego w 10 kolorach. Biorąc pod uwagę rozmiar takich stron, indeksacja i wprowadzenie zmian może trwać miesiącami.

Kolejnym argumentem może być kanibalizacja fraz kluczowych, do której dochodzi, kiedy w wynikach wyszukań pod dana frazę Google serwuje dwie podstrony z tej samej domeny. Jest to niewątpliwie strata potencjału, ale bywają przypadki, gdzie tak się dzieje niezależnie od działań SEO. Google wyraźnie zaznacza na stronie dla webmasterów, że ma prawo do prezentowania kilku podstron, jeśli są one tematycznie związane z użyta fraza wyszukań.

Pozostaje jeszcze jedna kwestia wewnętrznych duplikatów treści, która według mnie jest najważniejszą. Jest to powielanie własnych treści. Na idealnej witrynie, różnice między podstronami nie przekraczają 25%. Siteliner jest jednym z narzędzi, które można użyć do tego celu. Porównuje ono użycie slow na podstronach i zwraca wyniki w procentach. Jeśli mamy sytuacje, w której wpisy na blogach są łudząco podobne, dla bota jest to sygnał, że strona jest niskiej jakości, a więc nie będzie faworyzowana w rankingach.

Typowe miejsca występowania powielonych treści

– wyników wewnętrznej wyszukiwarki,
– występowania znaku „slash” (prawego ukośnika) na końcu podstron,
– filtrowania i sortowania list produktów/publikacji (w tym także stronicowania),
– schematu budowania podstron tagów (w blogach),
– schematu budowania linków do podstron produktów/artykułów dostępnych równocześnie w kilku kategoriach,
– możliwości generowania subdomen typu „wildcard”,
– znacznika hreflang dla podstron dedykowanych dla różnych krajów dla bardzo zbliżonego języka, (np. USA, Wielka Brytania, Australia, itp.),
– podstawowego adresu domeny, rozumianego nie tylko jako określenie wersji z lub bez przedrostka „www”, ale też wersji protokołu (http/https) oraz adresu strony głównej,
– obsługi wszelkich dodatkowych parametrów w adresach URL (parametry sesji, linki afiliacyjne)

Rozwiązywanie problemu duplikatów wewnętrznych

Sama analiza i wykrycie powielonych treści nie da oczywiście żadnych wymiernych korzyści dla serwisu. Duplikaty trzeba w jakiś sposób obsłużyć, a rozwiązanie zależeć będzie od możliwości CMS-a, posiadanego czasu, a przede wszystkim celów, dla których pierwotnie zduplikowane treści w ogóle powstały (jeśli nie były przypadkowe). Jeśli duplikaty są efektem błędów technicznych, mamy takie oto opcje:

– przekierowanie stałe 301 – działa natychmiast, przenosi moc linków przekierowywanej podstrony, wiele CMS-ów ma wbudowane funkcje/wtyczki do jego obsługi,

– metatag „canonical” – działa z opóźnieniem (wraz reindeksacją w wyszukiwarce), krótkoterminowo bywa zawodny, finalnie jednak działa podobnie jak przekierowanie 301, choć jest zwykle trudniejszy w implementacji,

– metatag „noindex” – blokuje indeksację danej podstrony w Google, jednocześnie przy braku dodatkowego (a często błędnie dodawanego) znacznika „nofollow” będzie wystarczającym rozwiązaniem,

– blokada podstrony w robots.txt –  często najszybsze i najłatwiejsze, ale mało optymalne rozwiązanie, bowiem witryna „gubi” moc linków prowadzących do tak zablokowanych podstron; polecane głównie do blokowania sekcji administracyjnych CMS-ów,

– fizyczne usunięcie zduplikowanych podstron (zwracanie błędu 404) – znów tracimy jakość linków kierujących do podstrony (oraz tych z niej wychodzących), dodatkowo do momentu wyindeksowania podstrony z wyszukiwarki użytkownicy będą trafiać na nieistniejącą podstronę.

Duplikaty zewnętrzne

Dużo więcej emocji budzą dyskusje o duplikaty zewnętrzne, czyli sytuacje, gdzie na kilku różnych domenach występuje ta sama (lub bardzo podobna) treść. Wykrywanie takich zjawisk jest trudniejsze i wymaga poświęcenia dużych zasobów czasu i/lub specjalistycznych narzędzi.

Sebastian Szydłowski

Sebastian Szydłowski

Sebastian Szydłowski mieszka i pracuje w Irlandii, gdzie zdobył tytuł naukowy z dziedziny nauk farmaceutycznych. Web developer z zamiłowania, expert SEO od dwóch lat związany z marketingiem internetowym. Nie głosuje, inwestuje na Forex i dba o wysokie rankingi stron swoich klientów. Wszystkie artykuły autora