Duplicate Content: Wat is het, en hoe kan je het vermijden?

Met “duplicate content” bedoelen we het terugkomen van (grote stukken) tekstuele en andere inhoud over één of meerdere domeinnamen. Dit is een probleem omdat het voor zoekmachines moeilijk is om te kiezen welke url de meest relevante is voor een bepaalde zoekactie. Om de beste zoekervaring te geven zal een zoekmachine bijna nooit verschillende keren dezelfde content tonen voor één zoekopdracht, en gokt ze dus vaak welk de meest originele versie is. Het kan gaan over exacte overeenkomsten of over heel grote gelijkenissen. Soms komt dit door plagiaat, maar meestal is er sprake van duplicate content die per ongeluk in de website is geslopen. Bekende voorbeelden zijn:

Een pagina die twee of meer verschillende urls heeft, bijvoorbeeld https://inbound.be/ en https://inbound.be/index.php, of http://www.jouwsite.be/ en https://www.jouwsite.be/, of http://www.uwwebsite.be/ en http://uwwebsite.be/
De printbare versie van een pagina met exact dezelfde inhoud als de versie die aan de surfer wordt getoond
Websites die zowel een normale versie als een versie voor mobiele surfers heeft met dezelfde inhoud (of terugkerende delen inhoud).

Voor de zoekmachines zorgt dit voor 2 zeer grote duplicate content problemen:

De zoekmachine weet niet welke pagina op te nemen in zijn index, of welke te tonen voor een bepaalde zoekopdracht. In ’t kort: duplicate content brengt de zoekmachine in verwarring.
De zoekmachine weet niet waar de autoriteit van een bepaalde pagina te plaatsen (denk aan links, auteurschap, …). Samengevat: de zoekmachine geeft niet één pagina alle autoriteir, maar verspreid deze over een aantal, niet geoptimaliseerde pagina’s.

Wanneer er op een website duplicate content problemen zijn is dit altijd negatief voor de website eigenaar. Soms is dit niet meteen zichtbaar omdat de problemen er altijd geweest zijn, maar het maakt het in elk geval moeilijker voor zoekmachines om de website correct te indexeren en te tonen in de resultaten. Kort: duplicate content kan een enorm SEO-probleem zijn als het niet actief wordt opgespoord en aangepakt!

Hoe lost een SEO -partner duplicate content problemen op

De zoekmachines zijn perfect op de hoogte van het probleem van duplicate content en geeft de webmasters het nodige gereedschap om al deze problemen te vermijden. In veel gevallen is het een kwestie van doodsimpel een 301 redirect in te stellen van de “duplicate” versie van een pagina naar de originele. Dit is duidelijk, en zegt zowel tegen de bezoeker als tegen de zoekmachine: deze pagina heeft één juiste url: deze. Alle links en autoriteit die de duplicate versie had ontvangen worden volledig overgedragen naar de originele versie, wat natuurlijk de zoekmachine rankings van die pagina ten goede komt. Je eigen pagina’s gaan als het ware niet meer met mekaar in concurrentie maar versterken elkaar alleen maar.

Als er om technische redenen geen 301 redirect mogelijk is is een andere optie het gebruik van rel=”canonical”. Met deze tag kan je voor een pagina een canonische url instellen die tegen de zoekmachines zegt: ookal is het adres van deze website https://inbound.be/index.php; de originele en enige juiste url van deze pagina is https://inbound.be/. Alle links naar de duplicate url zullen nu ook alleen maar de originele url versterken, maar omdat je de gebruiker niet actief doorstuurt naar de juiste locatie is dit vaak een iets minder “mooie” oplossing. Wij kiezen er voor onze klanten haast altijd voor om preventief een rel=”canonical” in te stellen voor alle correcte urls op hun domeinnaam – zo hoeven de zoekmachines nooit te twijfelen! Voor gepagineerde content bestaat er rel=”next” en rel=”prev” die ervoor zorgen dat gepagineerde content goed door zoekmachines begrepen kan worden. Dit kan perfect in combinatie met rel=”canonical” gebruikt worden.

Een voorbeeld van het gebruik van rel=”canonical” kan je vinden op de homepage van deze blog:

[html] <link href="https://inbound.be/blog" rel="canonical" />[/html]

Een laatste optie, bijvoorbeeld wanneer je gebonden bent aan een oud of niet meer ondersteunde CMS, is bepaalde pagina’s uit te sluiten van indexering via robots.txt. Dit moet echter een allerlaatste optie blijven om de simpele reden dat de autoriteitselementen van de niet-geindexeerde pagina dan verloren gaat.

Duplicate content is voor een groot aantal websites een zeer groot probleem. Vaak blijft het lang onopgemerkt, en kost het duizenden bezoekers alvorens iemand beseft dat er wat aan gedaan moet worden. In onze SEO audits is het een veel voorkomende probleem, dat vaak heel snel en makkelijk kan aangepakt worden.

Heb je zelf vragen in verband met duplicate content? Neem contact op met ons team en we gaan met plezier snel aan de slag om ook jouw website beter begrijpbaar te maken voor zoekmachines!

Blog Op deze blog deelt Inbound informatie over onderwerpen over en gerelateerd aan al onze diensten.