Le budget de crawl n'existe pas...

« ...N'essaies pas de tordre la cuillère ! Essaye juste de faire éclater la vérité. »

Dans ce nouveau billet, je vais vous démontrer que vous n'avez pas à vous préoccuper du budget crawl de votre site, à moins d'avoir un site qui dispose de plusieurs milliers de pages, ce qui n'est, globalement, pas le cas de la plupart des éditeurs de site. Le titre de l'article est donc un peu tiré par les cheveux, mais l'analogie avec Matrix est plutôt sympa quand on a compris l'idée : le problème est ailleurs.

Qu'est-ce que le budget de crawl ?

Il y a plusieurs définitions qui sont parfois un peu erronés sur les différents sites. J'aime bien repartir de cet extrait sur le blog GSC : En associant la vitesse d'exploration et le besoin d'exploration, nous définissons le budget d'exploration comme le nombre d'URL que Googlebot peut et veut explorer.

Même si cet extrait vient de Google, c'est intéressant de noter que la définition fait le lien entre la technique et la qualité du contenu.
Ça ne vous rappelle rien ? Deux des piliers du SEO.

Pourquoi ça m'agace de devoir "améliorer mon budget crawl" ?

C'est justement parce que c'est complètement contre-nature que ça m'agace. On ne doit pas se préoccuper de son budget crawl parce qu'on a précisément fait du bon travail en amont !

Si votre site charge en 15 secondes, vous avez bien d'autres soucis que de devoir améliorer votre budget crawl ! De la même façon, si votre site ne rank pas, Google a autre chose à faire que de crawler un site qu'il ne juge pas qualitatif, donc vous avez des problèmes bien plus importants que de vouloir améliorer votre budget crawl. Ne vous intéressez pas à votre budget crawl, intéressez-vous à votre site !

Le gaspillage de budget crawl

Quand je lis ou que j'entends : vous avez pleins de pages non indexées, elles consomment du budget crawl qui pourrait être alloué ailleurs, j'ai juste envie de pleurer. Moi aussi j'y ai cru, mais c'était avant que je m'intéresse à l'analyse de logs.

J'en ai déjà parlé maintes fois, notamment dans mon article "comment google crawle mon site internet" : Google ne crawle pas l'intégralité d'un site de façon homogène. Googlebot ne crawle pas une page qu'il a choisi de ne pas indexer : il l'ignore. Il repasse dessus de lui-même une fois tous les 5-6 mois. C'est pour ça qu'il est si difficile de réhabiliter une page. À l'inverse, si une page est bien positionnée dans l'index Google, elle sera crawlée autant de fois que Google le jugera nécessaire. Plus vous vous rapprochez du top 10, plus le volume de recherche est important, et plus elle sera crawlée. Donc avant que Google stoppe le crawl sur cette page à cause d'un soi-disant budget de crawl atteint, vous pouvez vous accrocher.

C'est vraiment ce qui me gêne dans ces notions de budget de crawl, croire que Googlebot se donne des limites. Améliorez votre site Internet, Google le crawlera davantage.

Cas concret d'un premier site

Suivi du trafic site internet, 2022 vs 2021
« Suivi du trafic du site internet, 2022 vs 2021 »

Regardons un peu en détail ce qui se passe sur ce premier site. La courbe avec un tracé vert est le trafic par mois de 2021. Le tracé bleu, c'est 2022. Dîtes-vous que le trafic a commencé à croître doucement à partir de janvier, passant de 3k par mois en 2021, à 13k en mai.
Voyons maintenant ce qui s'est passé du côté crawler Googlebot :

Suivi crawl Google site internet global
« Suivi crawl Googlebot du même site internet »

Fait intéressant : en janvier et février, Google a alloué un budget crawl conséquent, qui s'est effondré en mars. J'ai constaté ce phénomène sur plusieurs autres sites. (J'y reviendrai plus tard sur un autre article mais je pense que ce taux de crawl est davantage lié à un update de Google qu'à ce site précisément)

Ensuite, en avril / mai, on voit que le nombre de crawls est de nouveau conséquent. On peut donc imaginer que Google a décidé d'allouer plus de ressources parce que le site internet se positionne mieux, soit la deuxième cause : le besoin d'exploration. Le nombre de contenus du site n'a quasiment pas changé depuis le mois de septembre.

Et voici un cas précis d'une page presque ignorée en 2021, non indexée. Je l'ai retravaillé en septembre :

Suivi du crawl Google sur une page web
« Suivi du crawl Google sur une page web : de l'exclusion à un positionnement dans les SERP. »

La courbe orange montre le nombre de visites en 2021. En bleu en 2022, et la courbe verte représente les visites provenant de Google.
Dans le tableau en dessous, en fond orange le nombre de crawls de Googlebot par semaine en 2021. Sur fond vert la même chose, mais en 2022.

Que peut-on en dire ? Une page non-indexée n'est que peu crawlée. Google met ensuite du temps avant de lui faire confiance. Il la crawle à plusieurs reprises en fin 2021. Je n'ai à aucun moment forcé l'indexation. Ce n'est qu'en début 2022 qu'il la positionne dans son index, et qu'il décide de la crawler très régulièrement par semaine.

77 crawls en 5 mois vs 14 fois en 1 an. Vous pensez que cette page a mangé le budget crawl du site ? Que neni, Google a augmenté son budget de lui-même.

Second cas de refonte d'un site

Ce second cas est tout aussi intéressant. Il s'agit d'une refonte d'un site internet qui a été publiée le 6 mai. On voit bien que le budget explose à partir de cette date. Ça va être intéressant de voir comment le crawl, l'indexation et le positionnement vont évoluer dans les prochaines semaines.

Augmentation du nb de crawls journaliers google suite à une refonte
« Augmentation du nb de crawls journaliers depuis la refonte »

Le site a changé de technologie (vous vous en doutez il est passé sous le CMS Mystranding, il était sous Wordpress auparavant).
Il est un peu tôt pour en tirer des conclusions, néanmoins je peux déjà dire que Google ne s'est pas embêté pour allouer un plus gros budget : il a littéralement aspiré cette nouvelle architecture !

Moralité

Googlebot fait ce qu'il veut et il le fait dans son intérêt. Si votre site ne fait pas des millions de pages, vous n'avez pas à vous préoccuper de votre budget crawl. Vous avez de nombreuses pages exclues par Google ? Ne cherchez pas à les nettoyer pour gagner du budget crawl. Pensez plutôt au message négatif que vous envoyez à Google lorsque 40% de votre site est ignoré. Est-ce que vous méritez vraiment d'être 1er sur Google ?

Commentaires

Aucun commentaire publié actuellement.

Ajouter un commentaire :


Top
Sommaire
Comment
Share