5 cas pratiques SEO pour ne plus avoir de contenus dupliqués sur son site

Temps de lecture : 8 minutes
Publié le 28 mars 2019 dans Développement, Marketing, Référencement
Par Steven BUTTARAZZI

Votre site Internet est rapide, dispose d’un design impeccable et d’un contenu à forte valeur ajoutée ? Ainsi, vous le mettez souvent à jour, en prenez soin, et pourtant il ne génère aucun trafic en provenance des moteurs de recherche ? Découvrez ci-dessous 5 cas possibles de contenu dupliqué, qui peuvent littéralement mettre à mal tous vos efforts pour devenir populaire sur le Web et conquérir le roi Google.

Index :

Qu’est-ce qu’un contenu dupliqué ?
Votre site Internet est disponible en HTTP et HTTPS
Vous ne savez pas que les urls sont sensibles à la casse
Votre site mobile est accessible à une autre adresse
Vous utilisez des paramètres d’url dynamiques
Contenu dupliqué : il existe des solutions
N’oubliez jamais que les moteurs de recherche font la loi
Pour conclure

Qu’est-ce qu’un contenu dupliqué ?

Un contenu dupliqué, appelé aussi contenu en double, contenu similaire ou duplicate content (DC pour les intimes, voire DUST pour Duplicate URL, Same Text) dans la langue de Shakespeare, est, comme son nom l’indique, un contenu qui n’est pas “unique”. Il en existe 2 types :

– Depuis un site externe : il s’applique lorsque vous copiez / collez purement et simplement du contenu en provenance d’un autre site sur votre propre site Internet. De nos jours, les moteurs de recherche sont capables de savoir si un contenu est similaire à un autre. Grâce à plusieurs indicateurs connus depuis le lancement de Google Panda en février 2011, Google va déterminer une paternité et jauger de la qualité d’un texte selon plusieurs critères. De fait, lorsqu’il se retrouvera à visiter d’autres sites, il sera en mesure de faire le rapprochement et de vous pénaliser – qu’il s’agisse de vous, qui copiez, ou d’un autre site qui vous a copié (et cela inclus aussi le contenu traduit d’une langue à une autre).

C’est la raison pour laquelle vous devez vous inspirer, regarder, analyser, mais ne jamais copier. N’oubliez pas : Content is king. Créer un contenu unique, plaisant à lire et fournissant de la plus-value doit et devra toujours être votre sacerdoce.

“Le contenu est roi.” Titre d’un article de Bill Gates, fondateur de Microsoft, en date du 3 janvier 1996.

– Sur son propre site : Vous avez un blog ? Vous avez des pages proposant des extraits de vos articles (typiquement, des catégories ?). Des pages membres ou auteurs avec des historiques d’articles et de commentaires ? Des pages paginées ? Sachez que si vous ne gérez pas correctement l’architecture de votre site Web, vous envoyez de mauvais signaux aux robots d’indexation. Proposer à Google, Bing et consorts des centaines, voire des milliers de pages similaires, sans aucune plus-value, est associé à un gonflage artificiel de votre nombre total de pages.

À la place des moteurs de recherche, que feriez-vous : faire monter un site au contenu unique, original et soigné, ou un site n’ayant aucune structure propre, claire et concise ? Attention : ne croyez pas que le contenu dupliqué est une erreur de débutant. Beaucoup de professionnels se font encore avoir. Alors, dès aujourd’hui, ne vous faites plus pénaliser à cause d’une mauvaise organisation de vos pages et d’une stratégie au doigt mouillé.

Voici les principaux cas pouvant déboucher sur un site Web avec du contenu similaire.

1. Votre site Internet est disponible en HTTP et HTTPS

Vous avez un site Internet sécurisé et accessible avec http et https ? (exemple : http://www.codebuilder.fr et https://www.codebuilder.fr). Il est impératif que vous redirigiez en 301 la première version vers la seconde. Même constat avec un sous-domaine (exemple : https://www.codebuilder.fr et https://www.codebuilder.fr). La première occurrence se doit de toujours être redirigée vers la seconde, ou vice-versa.

Pour en savoir plus :
– Redirection 301 : Comment conserver son jus SEO ?
– Redirects | 301 and 302 Redirection for SEO (article en anglais)

2. Vous ne savez pas que les urls sont sensibles à la casse

Autrement dit, des urls avec des lettres en majuscule et en minuscule ne produisent pas le même chemin. index.html n’a jamais été l’équivalent de index.HTML ! Attention à bien rediriger automatiquement, à l’aide d’un fichier .htaccess, la première version vers la seconde. Cette problématique survient généralement à la suite d’un maillage interne hasardeux ou défaillant. Voire parfois parce qu’une personne s’est trompée en créant un lien erroné vers votre site Web. Même constat pour les accents. De manière globale, n’utilisez pas les accents et caractères spéciaux dans les urls, hormis l’usage de quelques-uns, comme : “/”, “.”, “&”, “?”, “=”, “-” qui peuvent servir selon les besoins.

Enfin, restez toujours très attentif : prémunissez-vous des erreurs de sensibilité à la casse ou de caractères incongrus en redirigeant (en 301) toutes vos urls pouvant contenir des erreurs.

Pour en savoir plus :
– Le .htaccess et ses fonctionnalités
– Lowercase Your URIs (article de blog en anglais)

3. Votre site mobile est accessible à une autre adresse

Vous vous êtes dit que se mettre au mobile était une bonne chose ? Vous avez eu raison. Pour autant, les gens oublient qu’un site mobile (ou sous technologie AMP, pour Accelerated Mobile Pages) est souvent disponible à une url différente. Pour accéder à la version mobile de votre site Web, l’ajout d’un répertoire ou d’un sous-domaine est la norme (exemple typique : codebuilder.fr/amp ou amp.codebuilder.fr). Dans le cas présent, une redirection n’est pas utile. Nous verrons un peu plus tard comment régler proprement ce genre de duplication de contenu.

4. Vous utilisez des paramètres d’url dynamiques

Vous transmettez des données au travers de vos urls ? Ce procédé, appelé paramètre d’url dynamique, se retrouve sous cette forme : /page-1/?sort=asc. Les paramètres dynamiques se rencontrent fréquemment au détour d’une catégorie, d’une page d’archives, d’une recherche interne… Ne vous faites pas avoir. Ici, nous avons une page pouvant être dupliquée 3 fois : via son format par défaut (/page-1/), en ascendant (/page-1/?sort=asc) mais aussi en descendant (/page-1/?sort=desc). Et cette multiplication par 3 marche avec autant de pages disponibles. Si vous avez 150 pages paginées, il s’agit donc de 450 possibilités !

/page-1/
/page-1/?sort=asc
/page-1/?sort=desc
/page-2/
/page-2/?sort=asc
/page-2/?sort=desc
...

Et ce n’est que le début : le contenu dupliqué peut monter très vite si vous utilisez encore d’autres paramètres d’url comme /page-1/?sort=asc&idmembre=1. Ici, vous pouvez-même changer le sens de la requête et créer de nouvelles urls. En effet : /page-1/?sort=asc&idmembre=1 n’est pas la même chose que /page-1/?idmembre=1&sort=asc. Pour 150 pages, dites bonjour à plusieurs milliers de combinaisons possibles ! Il s’agira donc de faire du ménage au plus vite.

Contenu dupliqué : il existe des solutions

En matière de duplicate content, il existe des solutions rapides et faciles à mettre en place.

Solution 1 : Dans le cadre d’une pagination, inclure dans la balise head de votre document les éléments HTML rel=”next” et rel=”prev”. Ces deux balises expliqueront à elles seules où se situe la page courante.

A noter : tout récemment, et ce par le biais de John Mueller, Google a confirmé que son moteur de recherche ne prenait plus en compte cette balise dans le cadre de la découverte et de l’indexation des pages. Ce n’est pas le cas pour Bing, qui a confirmé utiliser cette balise pour découvrir de nouvelles pages et comprendre la structure d’un site Internet.

Solution 2 : Optez pour des canonicals. Les canonicals permettent d’avoir des pages esclaves rattachées à une page maître. L’esclave proposant un contenu similaire à son maître. Par exemple, rien ne vous empêche de dire que /amp/mon-super-texte.html est une esclave de la page /blog/mon-super-texte.html.

Plus d’informations dans d’aide de chez Google : Consolider des URL en double.

Solution 3 : utilisez votre robots.txt pour couper court à l’abondance de paramètres d’url dynamiques. En effet, ces paramètres sont, la plupart du temps, très mauvais pour votre référencement naturel. A l’aide de votre robots.txt, vous pourrez très simplement demander aux robots d’indexation de ne pas indexer les pages avec certains paramètres d’url. Idéal pour les paginations, les SID (session ID), tags et autres joyeusetés. Pour ce faire, rien de plus simple :

User-agent: *
Disallow: ?sid
Disallow: ?sort

Petite astuce supplémentaire pour le plaisir :

Admettons que vous souhaitiez bloquer tous les répertoires contenant un mot-clé spécifique, tel que “voiture”, à savoir :

https://www.codebuilder.fr/voiture/
https://www.codebuilder.fr/blog/voiture/
https://www.codebuilder.fr/blog/?/voiture/
https://www.codebuilder.fr/blog/article/voiture/

Dans ce cas, l’astérix * est votre ami.

User-agent: *
Disallow: ?sid
Disallow: ?sort
Disallow: */voiture/

Grâce au simple fait d’avoir ajouté un astérix juste avant l’occurrence /voiture/, toutes les urls plus haut ont été bloquées. Celui-ci veut littéralement dire : quel que soit l’endroit où se trouve la chaîne de caractères /voiture/, l’url doit être bloquée. A utiliser en connaissance de causes ! Mais cela vous évitera de devoir écrire 50 lignes de code pour rien.

Note : afin de ne pas faire trop de bêtises, je vous suggère de tester vos restrictions sur l’outil de test du fichier robots.txt dans la Search Console de Google. En outre, sachez que vous pouvez affiner la prise en compte de vos paramètres dynamiques grâce à l’outil des paramètres d’url, toujours dans la Google Search Console (ou GSC).

D’ailleurs, ce dernier outil vous permettra de définir plus finement le rôle de chacun des paramètres et comment ceux-ci affectent vos pages. (Faut-il les bloquer ? Changent-ils le contenu proposé ? Apportent-ils un tracking ? Sont-il là pour la traduire ? Pour restreindre ? Paginer ?). Dans tous les cas, n’oubliez pas que le robots.txt est universel, là où la Search Console est propre à Google. Je vous suggère cependant de toujours utiliser les outils de la GSC, même s’ils font doublon, et ce dans le but de toujours envoyer des signaux concordants avec ce qui apparaît sur votre site.

Plus d’informations sur le robots.txt :
– Robots.txt : Introduction au protocole d’exclusion des robots
– À propos du fichier robots.txt : en savoir plus sur les fichiers robots.txt

Solution 4 : Vous ne souhaitez pas référencer certaines pages ? Optez pour une balise meta robot en “noindex, follow”, spécifiant aux robots d’indexation de ne pas indexer la page mais d’en suivre tous les liens. De fait, cette solution radicale vous permettra de ne plus être ennuyé. Cependant, faites bien attention à ne bloquer que des pages nocives pour votre référencement naturel.

Note : avec le temps, les pages en “noindex, follow” deviennent pour Google des “noindex, nofollow”. Sachez-le ! Il est en effet absurde, du point de vue du moteur de recherche de Google, de continuer à suivre des liens sur des pages qu’il ne peut pas ou plus indexer.

Plus d’informations sur les meta robots :
– La balise meta robots et le référencement naturel : tuto complet
– Bloquer l’indexation de la recherche avec l’instruction “noindex”

N’oubliez jamais que les moteurs de recherche font la loi

Si ce n’est la solution 4 érigée comme un totem par les moteurs de recherche, les 3 premières solutions sont laissées à l’appréciation du robot d’indexation. Ce n’est pas parce que vous fournissez des indications dans le document HTML que Google et les autres moteurs de recherche sont forcés de les suivre ! Si ce n’est le fait de bloquer une url (la rendre inaccessible), d’indiquer qu’elle ne doit pas être indexée (code HTTP, noindex), voire de supprimer la page purement et simplement, il n’existe aucune autre méthode pour contraindre un moteur de recherche à ne pas indexer une page.

La seule chose qu’il est éventuellement possible de faire, c’est d’envoyer suffisamment de signaux concordants pour le “convaincre” que votre solution est la meilleure. Cela est particulièrement vrai pour les canonicals (solution 2), où les pages doivent impérativement proposer un contenu similaire, sous peine qu’il zappe votre préconisation. A l’inverse, le robot d’indexation peut même ne pas indexer une page s’il l’a juge trop proche d’une autre. En effet, quel intérêt y a-t-il dans le fait de manger la même chose à chaque repas ?

Autrement dit : si vous ne bloquez pas l’indexation de vos urls, assurez-vous a minima que les solutions 1, 2, 3 et 4 marchent bien. Vous pourrez dès lors dormir sur vos deux oreilles, sans craindre d’une pénalité pour contenu dupliqué, ou, au contraire, d’une sous-indexation de votre site Web (pages connues mais non indexées car trop proches).

Pour conclure

Tous ces cas de contenus en double, bien que parfois pertinents car faisant parti d’un processus de sensibilisation et de performance lié à la navigation mobile, doivent être connus à l’avance et parfaitement maîtrisés. Faites bien attention à ce que tous vos sous-domaines, répertoires et paramètres soient correctement aiguillés, au risque de vous faire pincer les doigts très forts. Dans tous les cas, vous pourrez toujours lire ou relire la documentation Google en matière de contenu dupliqué. Elle vous expliquera parfaitement, et en détails, ce que vous êtes en droit d’attendre et comment vous plier aux règles édictées par le moteur de recherche Californien. Bon courage et à bientôt !