SEO : nettoyer sa masse noire

« Garder le contrôle de son CMS »

Récemment, je me suis rendu compte grâce à mon outil #MYSTRANDING que près de 40% de l'un de mes sites est ignoré par Google. C'est énorme, et j'en avais conclu qu'il fallait que je corrige cela. Dans le métier SEO, on appelle ça "la masse noire" ou "les pages zombies". Il me semble que c'est webrankinfo qui a travaillé sur une méthodologie pour corriger ce problème de façon efficace. Cependant, comme à mon habitude, je vais tenter de trouver mes propres réponses sur une problématique donnée.

Quel est l'objectif de nettoyer sa masse noire ?

Pas plus tard que la semaine dernière, j'ai assisté à une webconf qui expliquait que le but de nettoyer ses pages zombies était de "gagner du budget crawl". Je ne vous cache pas que ça va complètement à l'encontre des conclusions que j'ai faites lorsque j'ai étudié la façon dont Google crawle mon site internet. J'ai passé 15 minutes à bondir de ma chaise et j'ai fini par couper. Toutefois, si je dois avouer que l'approche que j'ai est différente, la finalité est la même : avoir un site + propre et sain, pour Google, mais surtout pour vos visiteurs. IMO, l'objectif de nettoyer sa masse noire, c'est d'améliorer la qualité de son site internet et donc d'envoyer un signal positif.

Rappelons-le : 40% de pages exclues ou quasi ignorées, c'est près de la moitié de mon site internet qui n'est pas qualitative aux yeux de Google, mais aussi des visiteurs. Le message envoyé n'est pas bon. Peut-être que ça n'a aucune incidence puisque je rank parfaitement sur certains sous-sujets de la thématique de mon site, néanmoins j'imagine que cela peut avoir une incidence sur la thématique principale, qui englobe tous les sous-sujets et donc aussi ceux qui sont ignorés.

1 - Identifier la problématique

La 1ère chose à faire est d'identifier sa masse noire, et de voir de quoi elle est composée. Elle peut être de plusieurs types :

  • Des liens vers des pages en erreur (404 etc)
  • Des pages générées automatiquement
  • Des pages au contenu de faible qualité
  • Des pages qui sont exclues.

Encore une fois, je n'ai pas de méthodologie exacte, l'avantage, c’est que mon outil me sert tout sur un plateau. Je suis capable de corréler différentes datas au même endroit : le crawl des bots, les liens dans l'architecture du site, le nombre de visites.

2 - Corriger les erreurs de liens

Les liens que vous faites à l'intérieur de votre site doivent être le plus propre possible. Le lien, c'est la base de tout. Dans le cas de mon site internet, je n'ai pas de liens internes vers des pages en erreur car je dispose d'un module qui vérifie cela. Si vous utilisez un CMS classique, il existe évidemment des modules additionnels qui font la même chose. Pour vos liens externes, c'est la même chose : il faut un outil pour vérifier qu'ils sont bien valides. D'ailleurs je viens de me rendre compte que je ne l'ai pas mis en place, mais la vérification à faire est assez simple. Une commande curl + analyse de la réponse (200,301,404...).  

La vue Log du Crawl de cocon.se
« La vue Log du Crawl de cocon.se »

Vous pouvez aussi utiliser un crawler pour détecter les erreurs de liens. Screaming Frog le fait très bien. Personnellement, je suis un fan inconditionnel de l'outil de crawl l'outil cocon.se. La visualisation de Logs Brut du crawl vous donnent des indications importantes sur vos liens en erreurs, les liens en nofollow ou en no-index, les liens en redirection etc. Bref, vous avez tout sur un plateau pour corriger les liens à l'intérieur de votre site internet.

3 - Les pages générées automatiquement

Ça, c'est le propre des CMS disponibles sur le marché. Ils ont tendance à utiliser des alias ou à créer des quantités de pages qu'on a jamais demandé. Je pense aux "tags" de WordPress, ou encore aux "nodes" de Drupal, mais pas seulement. Une erreur technique peut vous amener à avoir du duplicate content. Il est vraiment important de garder la main sur le nombre de pages de votre site. De mon côté, j'utilise l'outil Sitemap de la searchconsole : je surveille le contenu de mon sitemap xml d'un côté, et je regarde ce qui s'indexe en dehors du périmètre de mon sitemap.

Dans mon cas présent, j'ai peu de pages générées automatiquement, j'ai construit mon CMS ainsi. Je pense que c'est cependant le fléau le plus important de la masse noire : le nombre de pages générées peut rapidement être hors de contrôle et envoyer un message très négatif !

4 - Les pages au contenu de faible qualité

En m'attaquant à la fameuse stratégie du cocon sémantique, j'ai eu la fâcheuse tendance à créer des pages pour grossir les grappes (ou le cocon) de façon artificielle. Un lien est un lien. Ces pages n'apportent finalement pas grand-chose. Sont-elles vraiment problématiques ? Ça dépend. Plutôt que de faire une simple suppression de ces pages pour diminuer la masse noire, je préconise de se poser les questions suivantes :

La page est-elle réellement de mauvaise qualité ? Si son contenu est bidon et on sent que c'est artificiel juste pour pousser un peu plus le cocon ?? AVANT de chercher à supprimer purement et simplement la page, ça peut valoir le coup d'essayer d'améliorer le contenu. Avec le recul nécessaire, sans doute peut-on orienter le sujet différemment. Votre page s'appelle "parkings puy-en-velay", pourquoi ne pas la retravailler en "Où se garer au Puy-en-Velay" ? Si, à l'inverse, le contenu est plutôt de bonne qualité, regardez si la page a été correctement maillée. Peut-être qu'elle ne reçoit pas assez de jus ?

L'avantage du web, c'est que rien n'est figé dans le marbre. C'est facile de se tromper et de recommencer. Si cette page a un sens, qu'elle n'est pas là juste pour gonfler artificiellement le nombre de pages de votre site, alors améliorez-la au lieu de la supprimer !

Un autre exemple : vous avez un petit cocon de 6 pages, et 4 pages sont de faible qualité. Pensez-vous vraiment que le signal envoyé à Google pour votre page mère soit intéressant ? C'est complètement contre-productif. À l'inverse, si vous n'avez qu'une seule page sur 6 qui soit de faible qualité, je pense qu'elle n'est pas dérangeante, ce qui n'empêche pas de la retravailler soyons d'accord.

Dans mon cas présent, pour chacune des pages je vais :

  1. Voir si la page répond à un vrai sujet
  2. Vérifier si la page reçoit des vues / visites.
  3. Essayer d'améliorer le contenu : amélioration du texte, ajout d'illustrations
  4. Revoir les liens internes : le nombre de liens, le choix des pages, des ancres...
  5. Demander une réindexation si besoin sur Search Console
  6. En dernier lieu, supprimer les pages inutiles, avec redirection 301.

Les pages exclues

C'est le cas qui semble être le plus compliqué. La problématique diffère très peu du cas des contenus à faible qualité. D'ailleurs en général les causes sont les mêmes. La seule différence, c'est qu'elles sont déjà rejetées par Google. Il y a des solutions, à force de persévérance, on parvient à les faire revenir, mais que d'énergie dépensée ! La demande de réindexation sur la search-console est ici nécessaire puisque Google a déjà black-listé la page.

Conclusion

Garder le contrôle de son site internet : c'est ça l'objectif de nettoyer sa masse noire. Partir du principe qu'on va gagner du budget crawl est complètement faux et ridicule. Vous croyez que Google va s'empêcher de crawler l'une de vos pages qui rank, sous prétexte qu'il a visité trop de pages de votre site aujourd'hui ? Google n'en a rien à faire de votre masse noire puisqu'il la rejette déjà. Le seul signal que vous envoyez : c'est que vous avez fait de la merde et que, dans mon cas, 40% de mon site : c'est de la bouillie sémantique qui n'a ni queue ni tête, ni pour le visiteur, ni pour Google. Est-ce que Google a envie d'envoyer ses visiteurs sur un site qui fait majoritairement de la merde ? La question ne se pose pas. Bref, poursuivons cet article avec un cas concret : comment j'ai amélioré le taux d'indexation de mon site !

Ne pensez pas budget crawl.
Pensez UX. Pensez visiteur. Pensez qualité.

 

Commentaires

Aucun commentaire publié actuellement.

Ajouter un commentaire :


Top
Sommaire
Comment
Share