Contenu dupliqué : l'impact sur votre stratégie SEO

La duplication de contenu (duplicate content) est une véritable problématique dans l'univers du référencement naturel (SEO). Récurrente, son impact peut être crucial sur la capacité d'un site Internet à être correctement indexé et donc positionné sur les pages des moteurs de recherche comme Google. Dans ce dossier, découvrez comment y remédier une bonne fois pour toute !

Qu'est-ce qu'un contenu dupliqué ?

Le concept de contenu dupliqué signifie qu'un contenu d'une page ou d'un site Web est reproduit ailleurs à l'identique ou en quasi-totalité. Le contenu dupliqué est un véritable frein à la visibilité côté référencement SEO. En effet, le postulat des moteurs de recherche est d'indexer des pages proposant des contenus à forte plus-value, répondant aux questions des internautes. Proposer des contenus en double sur son propre site ou disponibles en libre-service ailleurs constitue, dès lors, une alerte.

Duplication de contenu : pour quelles raisons faut-il l'éviter ?

Il vaut mieux éviter de dupliquer vos contenus pour 2 raisons principales :

- La première raison est relative à la capacité de vos pages à être correctement prises en compte (et donc indexées) par les moteurs de recherche. De manière triviale, il faut voir les robots d'indexation comme de petits gloutons qui n'aiment pas trop manger la même chose tout le temps. Pour Google et Bing par exemple, c'est pareil : proposer des contenus similaires et accessibles à plusieurs endroits de votre site constitue un signal négatif.

- La seconde raison est que vous risquez de voir vos pages reléguées très loin en termes de positionnement. En effet, si tant est que votre page ait bien été indexée, il n'est pas garantie qu'elle se positionnera correctement face à d'autres pages similaires. En outre, vous pourriez apparaître sur les mêmes requêtes que d'autres sites proposant les mêmes contenus que vous.

A noter : il existe plusieurs types de duplication de contenu (duplication interne et duplication externe). Dans tous les cas, la duplication de contenu n'induit aucune pénalité de déclassement. Elle dégrade avant tout les performances SEO.

La duplication de contenu interne

On parle de duplication interne lorsqu'elle se produit sur votre site Internet. C'est-à-dire que votre site Internet est, volontairement ou non, à l'origine de la duplication de ses contenus.

1

Duplication via des sous-domaines différents

Votre site Internet propose des contenus similaires sur plusieurs sous-domaines différents, par exemple avec et sans www. Cela peut également être des sous-domaines de type blog, test, prod, debug...

Pour rappel, un sous-domaine est ce qui précède le domaine. Pour www.ads-com.fr, il s'agit de www. Pour test.ads-com.fr, il s'agit de test.

Pour corriger ce type de problèmes, il faudra créer une redirection automatique (301) du domaine dupliqué vers le domaine par défaut.

2

Duplication via les protocoles

Les contenus peuvent également être dupliqués en fonction des protocoles présents sur votre site. Par exemple, si votre site est accessible à la fois sur une URL avec https et à la fois sur URL avec http.

Si tel est le cas, il faudra également effectuer une redirection automatique (301) de la version HTTP (la moins sûre) vers la version HTTPS (la plus sûre), le S de HTTPS signifiant Secure.

3

Duplication via l'URL d’origine (du socle)

Il est courant de réécrire des URLs pour qu'elles soient bien plus compréhensibles. Par exemple, une URL d'un socle CMS pourra s'écrire /categ=16&page=9, tandis que la même page avec une URL réécrite contiendra /categories/chaussures/page-9.html.

Afin d'empêcher d'avoir deux URLs proposant les mêmes contenus, il faudra exclure la possibilité d'indexer les URLs du socle. Cela peut se faire dans un fichier appelé robots.txt, présent à la racine de votre site Internet.

4

Duplication via la version imprimable ou PDF

Certains sites proposent une version imprimable de leurs contenus, voire des versions PDFs similaires à leurs pages HTML. Dans les deux cas, toutes ces pages proposent des contenus éditoriaux similaires.

Pour corriger ce type de duplication de contenu interne, il existe deux solutions : la première est de purement empêcher l'indexation des URLs incriminées grâce au fichier robots.txt ; la seconde est de proposer une feuille de style CSS appropriée à l'impression de vos pages Web.

5

Duplication via les paramètres d'URL

En fonction des besoins utilisateurs, il est possible de filtrer, trier, afficher des données différentes sur une même page. Pour ce faire, les développeurs utilisent généralement des paramètres d'URL.

Ces paramètres d'URL sont appelés ainsi car ils ajoutent des paramètres à l'URL actuelle. Par exemple : /categories/chaussures.html?prix=50-100 pour un filtre sur les prix entre 50 et 100 euros. Si ce filtre change pour avoir des prix entre 60 et 80 euros, des produits similaires pourraient réapparaître.

Pour corriger ce problème, il existe 2 solutions : empêcher l'indexation de certains ou de tous vos paramètres d'URL grâce au fichier robots.txt, ou utiliser une fonctionnalité appelée balise canonical. Cette dernière solution a l'avantage de signifier aux robots d'indexation qu'une URL précise a pour référence une autre URL, tout en laissant la possibilité d'indexer les deux.

Dans l'exemple présenté ci-dessus, l'URL référente serait par exemple /categories/chaussures.html, sans notion de paramètre derrière.

6

Duplication via la pagination

Il arrive que des contenus soient visibles dans plusieurs catégories. Lorsque ces catégories contiennent des paginations, ils peuvent se retrouver à plusieurs endroits du site à la fois.

Ce type de duplication de contenu peut se régler facilement, mais nécessite de bien mettre à plat la stratégie en matière de référencement naturel. En l'occurrence, il faudra réfléchir à quelle(s) catégorie(s) il est préférable de laisser indexer, et à quelle(s) autre(s) catégorie(s) il est préférable de restreindre tout ou partie de l'indexation.

Dans tous les cas, cela se règle (en fonction) soit via la complétion du fichier robots.txt, soit via la mise en place de balise canonical, soit les deux.

7

Duplication via le moteur de recherche interne

Dans la grande majorité des cas, il est préférable de fermer l'indexation des pages de votre moteur de recherche interne. En effet, suivant les mots-clés et requêtes tapés dans celui-ci, il peut retourner des contenus similaires.

Afin de fermer totalement l'accès aux robots d'indexation, il faudra privilégier une complétion de votre fichier robots.txt.

8

Duplication via des textes générés ou repris

Qu'il s'agisse de contenus générés automatiquement par un script de programmation ou d'un contenu de type encart pouvant être rattaché à plusieurs pages, nous vous conseillons de faire bien attention à ce qui peut être trouvé ailleurs sur votre propre site Internet.

De plus en plus de CMS proposent des fonctionnalités de rattachement de blocs statiques à plusieurs pages. Si cela permet généralement de gagner beaucoup de temps et d'offrir une maintenance aisée, cela peut aussi créer des biais sur la bonne indexation de vos contenus.

La duplication de contenu externe

On parle de duplication externe lorsqu'elle ne se produit pas sur votre site Internet. C'est-à-dire lorsque vos contenus éditoriaux sont dupliqués sur d'autres sites Internet, volontairement ou non.

1

Duplication via le copier-coller

Vos contenus peuvent se retrouver un peu partout sur le Web. Que ce soit au sein de votre site Internet ou sur un site tiers, un contenu disponible ailleurs n'est plus un contenu unique aux yeux des moteurs de recherche. Aussi, il faudra rester vigilant sur ce point.

Pour passer outre, il existe deux solutions : la première est de ne pas copier-coller vos textes à partir d'autres sources accessibles en ligne, qui plus est sans l'accord de leurs ayants droit. La seconde est de créer des contenus qui sortent de l'ordinaire avec votre propre patte éditoriale, et qui ne puissent ainsi être repris facilement sans retouches préalables.

2

Duplication via les APIs et le scraping

Il arrive souvent que des sites Internet construisent leurs pages d'une manière automatique ou semi-automatique, et ce en reprenant des informations en libre-service via des APIs publiques ou privées.

Ces données, collectées par des tiers, peuvent inclure des informations textuelles de type produits, caractéristiques, etc. Aussi, il est important de faire attention à ce que ces données ne soient pas affichées exactement de la même manière sur un autre site Internet que le vôtre.

D'autres méthodes de récupération des données sont possibles, comme le scraping. Il s'agit de scripts qui aspirent les données de vos pages pour ensuite les exploiter et les intégrer sur d'autres pages.

3

Duplication via le contenu supprimé

Il existe des manières de récupérer le contenu supprimé d'un site Internet tiers pour l'intégrer sur son propre site. De cette façon, un webmaster peut tout à fait exploiter un contenu créé jadis par autrui et se l'approprier.

Ce type de technique, peu courante mais réelle, prend forme en utilisant par exemple des sites comme WaybackMachine. Il s'agit d'un organisme américain ayant pour but d'archiver les pages d'un maximum de sites dans le but de constituer un historique du Web et retracer son évolution.

4

Duplication via les réseaux sociaux

Les réseaux sociaux sont un formidable vecteur de visibilité et de trafic. Publier du contenu sur Facebook, Twitter ou LinkedIn peut permettre de sensibiliser de nombreuses personnes à vos produits et services.

C'est la raison pour laquelle chaque réseau social offre la possibilité de publier des contenus sous la forme d'articles, eux-mêmes pouvant être relayés à un très grand nombre de personnes. Si cette technique de communication est louable, nous vous conseillons tout de même de rendre ces articles privés, et donc invisibles par les moteurs de recherche.

En effet, les moteurs de recherche comme Google ou Bing sont en capacité d'indexer les articles de Facebook, Twitter et LinkedIn. Si votre contenu a été publié à la fois sur votre site Internet et republié sur les réseaux sociaux, il pourrait s'agir d'un contenu dupliqué. Une autre solution envisageable est de publier des contenus différents sur votre site et sur les réseaux sociaux.

5

Duplication via la syndication de contenu

La syndication de contenu utilise notamment les flux RSS et Atom pour envoyer des informations sur d'autres sites Internet, dans des outils de messagerie, etc. Ces flux sont couramment utilisés pour réinjecter du contenu sur des sites permettant de suivre des actualités, la bourse, etc.

A ce titre, les sites en temps réel sont friands des flux RSS et Atom pour continuellement proposer des données à jour sur de nombreux domaines.

La syndication de contenu constitue un réel avantage pour diffuser de l'information ailleurs et renvoyer des visiteurs vers votre site Internet. A ce titre et pour éviter au maximum la duplication de vos contenus sur d'autres sites, nous vous conseillons d'inclure que le strict minimum dans vos flux, comme un titre, une petite description, une image et une URL de renvoie.

Contenu dupliqué : pour conclure

La notion de contenu dupliqué, qu'elle soit interne ou externe, est un sujet complexe car elle peut arriver de toute part. Même s'il ne s'agit pas, la majeure partie du temps, d'un acte intentionnel, l'impact reste le même sur votre référencement naturel. Pour pallier à cela, il faudra veiller à proposer un contenu qualitatif et sortir des sentiers battus. En parallèle, il est important de mener une petite veille active auprès de vos concurrents directs. Juste au cas où.

Contenu dupliqué : en résumé

Qu'est-ce que le contenu dupliqué ?

La duplication de contenu est le fait de voir ses contenus reproduits ailleurs, sur son propre site Internet ou sur d'autres sites Internet. Dans le premier cas, on parle alors de contenus dupliqués en interne ; dans le second cas, de contenus dupliqués en externe. A noter que la duplication de contenu, dans les deux cas, peut être volontaire ou involontaire.

Contenus dupliqués en interne : quelles sont les principales causes ?

Il existe de nombreuses causes aux contenus dupliqués en interne. Elles sont majoritairement liées à la gestion des URLs et à leur unicité : URLs avec www et sans www, avec HTTPs et sans HTTP, cohabitation d'URLs réécrites et URLs du socle, complétion partielle ou inexistante du fichier robots.txt, des balises canoniques, etc.

Contenus dupliqués en externe : quelles sont les principales causes ?

De nombreuses causes sont le fait de contenus dupliqués en externe, comme : le copier-coller vers ou depuis un autre site Internet, la reprise de vos contenus au travers d'APIs publiques et privées ou via du scraping de page, mais aussi par exemple suite à la syndication de vos flux RSS ou à la reprise de vos contenus sur les réseaux sociaux.

Comment corriger la duplication de contenu interne et externe ?

Pour bien corriger la duplication de vos contenus, il est essentiel d'en connaître les causes et les proportions. Pour ce faire, nous vous conseillons de commencer par un audit SEO de votre site Internet. Puis d'analyser point par point les solutions éditoriales et techniques à apporter à chacune des problématiques rencontrées suivant leur degré de gravité et criticité.

Le pôle webmarketing

Accompagnement webmarketing, acquisition de trafic en référencement naturel (SEO) ou référencement payant (SEA / SMA), e-mailing, optimisation des conversions, rédaction de contenus... Notre équipe webmarketing vous accompagne pour vous proposer la meilleure stratégie Web.

Découvrir le pôle webmarketing

Besoin d'un expert SEO ?

Basée à Orléans, notre agence en référencement naturel répond à vos questions. Étude de besoin, pré-audit SEO et analyse de vos données peuvent déjà être un bon point de départ.

Contactez-nous sans attendre pour que nous puissions étudier, développer et accroître votre visibilité sur les moteurs de recherche !

Pour ce faire, remplissez le formulaire ci-contre ou téléphonez-nous au 02 38 21 55 21.

*champs obligatoires

Les informations personnelles saisies dans ce formulaire sont facultatives. Elles serviront exclusivement le traitement de votre demande (en savoir plus).