Les moteurs de recherche sont en quête de contenu pertinent

L’histoire des moteurs de recherche est assez récente. C’est au milieu des années 90 que les choses sérieuses commencent. Le moteur le plus populaire de l’époque est AltaVista qui naît en 1995. L’année suivante naissent les grands noms de ce qui va vite devenir une industrie, Lycos et Excite, pendant que les futurs fondateurs de Google lancent un premier moteur de recherche nommé Backrub. Deux ans plus tard, en 1998 naît le moteur de recherche de Google qui deviendra, au cours des années 2000, le leader du monde de la recherche sur internet.

L’hégémonie du géant américain est telle que ce chapitre aurait pu s’appeler « comment fonctionne Google ? ». Si sa part de marché est de 65% outre-Atlantique 76, elle dépasse les 90% en France⁷⁷ et dans de nombreux pays européens. S’intéresser au référencement signifie donc s’intéresser à Google et comprendre comment ce moteur de recherche fonctionne.

À la recherche de la pertinence

Les internautes utilisent les moteurs de recherche pour trouver des pages web qui peuvent répondre à leur soif d’information. Ils entrent une requête, constituée de mots clés, dans le champ prévu à cet effet. Après avoir cliqué sur le bouton « Rechercher », s’affiche une liste de liens et de descriptions concernant des pages classées par ordre de pertinence. Le travail de Google est donc d’une part de visiter chaque page du web, à intervalle régulier, d’en extraire les thèmes et les sujets traités et de classer cette information pour pouvoir y accéder plus tard rapidement. Il s’agit de la phase d’indexation (Google indexe toutes les pages web). D’autre part, lorsqu’une requête est faite par un internaute, son rôle est d’aller chercher parmi ces milliards de pages celles qui corres- pondent le mieux et d’en afficher dix en les classant par intérêt décroissant. Selon différentes sources, Google disposerait d’un parc de plus d’un million de serveurs, dont de nombreux seraient utilisés pour les activités de recherche.

Deux critères majeurs pour mesurer l’intérêt d’une page

Google se base sur deux critères majeurs (l’un interne au site et l’autre externe) pour déterminer si une page mérite d’être affichée en tête des résultats ou pas. Il s’agit tout d’abord très logiquement du contenu de la page et en second lieu des liens d’autres pages qui y pointent.

Le contenu

Un site web reçoit en général, s’il est référencé dans un moteur de recherche, la visite d’un logiciel, aussi appelé robot, ou crawler, qui a pour fonction de lire le contenu des différentes pages qui le composent. Le robot de Google est nommé le Googlebot. Cet automate ne « voit » pas les pages, ni leur charte graphique. Il se base essentiellement sur le texte pour déterminer de quoi parle la page en question. De nombreux paramètres sont pris en compte, mais de façon très schématique, le logiciel se base sur la présence de mots pour déterminer le sujet d’une page. Par exemple si une page comprend plusieurs fois les termes « pécheur », « truite » et « mouche », le robot va penser que cette page concerne la pêche de la truite à la mouche. Plutôt que de simplement compter le nombre d’occurrences de chaque mot, le logiciel essaye d’être plus malin. Il recherche les associations de mots, les termes faisant partie d’un même contexte lexical et les synonymes. Il ne suffit pas de répéter à l’infini un terme particulier pour faire grimper une page en haut des résultats car les moteurs tentent de déterminer si le texte répond à une logique particulière, c’est-à-dire s’il a bien été écrit pour les humains et pas pour les moteurs de recherche.

De plus, ce n’est pas seulement le texte visible qui est pris en compte, mais également certains textes non visibles, appelés les « métadonnées ». En effet, chaque page web contient un certain nombre d’informations qui ne sont pas visibles par les humains mais qui sont destinées aux robots. Ce sont des textes qui servent à définir ou à décrire une donnée qui n’est pas nécessairement visible pour Google. Les exemples les plus courants sont les balises « description » et « keyword » qui comprennent respectivement un résumé du contenu de la page et une liste des mots clés importants. Nous pouvons également citer les balises « alt » et « title » qui décrivent le contenu d’une image (Google ne peut pas « voir » les images).

En résumé, une page qui serait constituée d’un texte comprenant des termes issus d’un champ lexical précis, de métadonnées constituées en majorité des mêmes mots et dans laquelle seraient affichées des images dont les balises comprendraient aussi les mêmes termes, aurait de fortes chances d’être bien positionnée par les moteurs de recherche sur les requêtes comprenant les termes concernés.

Les liens rentrants

Quand on s’intéresse à une page en particulier, on distingue deux sortes de liens : les liens rentrants et les liens sortants. Les premiers sont ceux qui pointent vers la page en question, les seconds sont ceux qui y sont inclus et pointent vers l’extérieur. Si Google accorde de l’importance à ces derniers, c’est d’abord aux liens rentrants qu’il donne une importance toute particulière. Larry Page et Sergey Brin, les fondateurs du moteur de recherche, avaient d’abord imaginé un moyen de déterminer quels scientifiques avaient la plus grande influence. Pour cela, ils ont eu l’idée de regarder les citations que chacun d’entre eux obtenaient dans les nombreux papiers scientifiques qui étaient publiés. Un chercheur dont les travaux sont souvent cités a nécessairement une importance, une pertinence particulière. Cette idée, appliquée au web, devait révolutionner la façon dont les humains trouvent de l’information. Contrairement aux années 90, pendant lesquelles les internautes utilisaient les répertoires comme Yahoo pour trouver l’information classée par des humains, Google met à profit l’intelligence collective et arrive, grâce à cette idée simple, à trouver dans les milliards de pages disponibles, celles qui correspondent le mieux aux requêtes des internautes. Pour cela, il indexe dans ses bases de données gigantesques l’ensemble des liens qui relient les pages web les unes aux autres. Plus une page compte de liens entrants, plus celle-ci est considérée comme pertinente aux yeux du moteur de recherche.

Le SPAM, premier fléau pour les moteurs de recherche

Si le référencement, comme nous l’avons vu, dépend du contenu d’une page, il dépend également de la crédibilité que veulent bien lui accorder les autres pages. L’amélioration du référencement est donc bien une activité qui repose sur deux grands principes : le premier étant l’optimisation du contenu pour être mieux compris par Google et le second étant l’augmentation du nombre de liens rentrants. En théorie pourtant, ce travail est inutile. Toute optimisation est théoriquement une manipulation des moteurs de recherche. Un scientifique écrit d’abord sa publication pour qu’elle ait un sens, et il attend ensuite patiemment que d’autres chercheurs citent ses travaux. C’est en tout cas comme ça que Google voit les choses : il faut laisser faire l’évolution naturelle. Si telle page est pertinente, elle sera naturellement citée et son classement dans les résultats augmentera. Les entreprises sur le web ne l’entendent pas exactement de la même manière. Chaque visite génère potentiellement du revenu. Le trafic naturel étant par essence gratuit, la tentation de manipuler les résultats des moteurs de recherche est grande. C’est ce qui a donné naissance à un phénomène dont nous connaissons déjà le nom : le SPAM. Ce terme est utilisé notamment dans le contexte des messages électronique, mais c’est également un terme consacré dans le domaine du référencement : des webmestres peu scrupuleux s’astreignent à optimiser le texte de leurs pages et à créer artificiellement de nombreux liens rentrants afin d’être positionnés haut dans les résultats et de bénéficier d’un trafic important à un coût dérisoire.

Cet état de fait ne simplifie par la tâche de Google qui est déjà, nous l’avons compris, peu évidente. Outre le fait de devoir déterminer le mieux possible et le plus rapidement possible les pages les plus pertinentes pour une requête, le moteur de recherche doit exclure les pages qui se sont artificiellement hissées en haut de la liste. Cette précision est importante, nous le verrons, car toutes les optimisations de référencement n’ont aucune valeur si elles dépassent le seuil de tolérance qui en ferait du SPAM aux yeux de Google.

Un indicateur publique : le PageRank

L’algorithme de Google prend en compte de nombreux indicateurs permettant de déterminer la qualité ou la pertinence d’une page. L’un d’entre eux est publique, il s’agit du PageRank (ou PR en abrégé). Ce chiffre de 0 à 10 est calculé de la façon suivante : c’est pour une page A, la somme des PageRank de toutes les autres pages comportant un lien vers cette page, divisé par le nombre total de liens qui y pointent. En résumé, il « suffit » (c’est en réalité plus compliqué) de créer de nombreux liens à partir de pages à PR élevé vers une page bien précise pour la voir obtenir assez rapidement un PR élevé à son tour. Cette valeur est directement issue de l’idée originale de Google : la pertinence d’un contenu est plus élevée quand d’autres contenus pertinents y font référence. Un collégien qui cite une étude scientifique dans un devoir n’a pas autant de poids qu’un article dans la revue « Science ».

Tout le monde peut avoir accès au PageRank de n’importe quelle page. La barre d’outils de Google pour Firefox ou Internet Explorer affiche cette valeur et il existe des modules le permettant également depuis le navigateur Google Chrome. Par exemple, Wikipedia.org dispose d’un PR9, Lemonde.fr d’un PR8 et 01net.com d’un PR7. Un site personnel ou celui d’une PME affichera en général un PR entre 3 et 4. Cette valeur, quoique intéressante, n’est pourtant pas à considérer comme un but. Elle rentre dans le calcul global permettant de déterminer son rang par rapport à une requête donnée, mais n’est qu’un paramètre de l’équation parmi d’autres. On voit souvent des pages de PageRank inférieur arriver devant des pages avec un PR plus élevé. Il s’agit donc d’un indicateur intéressant, parmi d’autres.

Remarque Les spécialistes du référencement ont un terme pour définir la quantité de PageRank qui transite d’une page à l’autre au moyen d’un lien. Ils l’appellent le « jus ». Ce terme illustre bien la nature « fluidique » de cet indicateur. Les pages à PageRank élevé sont des sources de PageRank pour les pages moins élevées vers lesquelles elles pointent.

Le TrustRank : une estimation de la crédibilité d’une source

Google a déposé un brevet et une marque pour un autre indicateur qui ressemble au PageRank : le TrustRank. Cet indicateur n’a pas réellement fait l’objet d’une communication officielle de la part de la firme de Mountain View, et, même s’il y a de fortes chances qu’il existe réellement, sa valeur n’est de toutes façons pas publique. Le TrustRank a pour objectif de mesurer le degré de crédibilité d’une page, en se basant, comme pour le PageRank, sur la crédibilité que lui transmettent (au moyen d’un lien) des pages ou des sites connus par Google pour être crédibles. Même si cet indicateur n’est pas avéré, il nous semble intéressant d’y faire référence car il illustre bien le type de réflexions engagées par les ingénieurs de Google pour déterminer la crédibilité des contenus et combattre le SPAM.

L’utilisation des données des utilisateurs

Google prend également en compte des éléments plus personnels pour déterminer quels résultats doivent apparaître en premier pour une requête donnée. En effet, chaque utilisateur ne voit pas nécessairement les mêmes sites s’afficher en tête des listes. Google leur présente des résultats personnalisés. Il se base notamment sur deux sources d’informations :

D’une part l’historique de recherche des internautes (les sites déjà visités remontent dans la liste des résultats).

D’autre part, Google tente d’utiliser les réseaux sociaux en faisant remonter de plus en plus de « tweets » dans les résultats 78, en donnant une valeur plus élevée aux liens partagés par ce moyen et, bientôt, en personnalisant les résultats en fonction des liens qu’ont partagés les amis de celui qui effectue la recherche.

La seule chose qui ne change pas est le changement

Les moteurs de recherche sont en quête de pertinence mais sont en permanence la cible de spammeurs. C’est donc un double combat qu’ils mènent : d’une part comprendre la façon dont les humains créent et partagent l’information, d’autre part comment différencier un contenu de qualité d’un contenu généré uniquement pour profiter d’un trafic à bas prix. Cette partie de cache-cache les oblige à changer rapidement et souvent leurs algorithmes. Google est connu pour y apporter près de 400 changements par an, soit environ une amélioration par jour 79 ! La connaissance des principes de base du référencement est donc d’une importance certaine mais il faut également se tenir au courant des petits changements et des grandes tendances.

Google a d’ailleurs récemment communiqué sur un nouvel algorithme sensé éliminer les sites de mauvaise qualité : Panda. Ce mécanisme ne cherche pas seulement à déterminer la qualité du contenu mais prend en compte une multitude de signaux sensés caractériser des sites qualitatifs⁸⁰ tels que l’ergonomie, l’aspect du site et l’accessibilité. Même si le référencement est toujours majoritairement affaire de textes et de liens, d’autres critères sont de plus en plus pris en compte et ne doivent pas être négligés.

Le travail d’optimisation du référencement

Comme cela a été précisé un peu plus haut, l’optimisation du référencement se fait donc sur deux axes de travail principaux : l’optimisation des pages et l’optimisation des liens. Même si ce chapitre ne se veut pas une liste exhaustive de toutes les techniques de SEO (Search Engine Optimization), nous allons découvrir les grands principes permettant de faire monter des pages web le plus haut possible dans le classement des réponses pour une requête donnée dans un moteur de recherche. Mais finalement, pourquoi se focaliser sur ce classement ? Parce que ce sont les résultats arrivant en tête qui récupèrent la majeure partie du trafic. Selon certaines études 81, le premier résultat récupère entre 47% et 69% de tous les clics des internautes sur la page de résultat. Le second ne récupère plus qu’une douzaine de pour cent et le dixième résultat de 1% à 4%. Cela explique l’enjeu d’obtenir un positionnement élevé.

La stratégie du référencement

Lancer une campagne Adwords ou Facebook est une opération qui garantit, si on y met le prix, l’obtention de trafic très rapidement, dans l’heure si nécessaire. Le temps du référencement n’est pas le même. Rappelez-vous que les algorithmes des moteurs de recherche sont d’abord en quête de pertinence et de crédibilité. Que penser d’une page ou d’un site, très optimisé, qui, juste après avoir vu le jour, voit des dizaines de liens y pointer ? Google et ses concurrents risquent de trouver cela fort suspicieux et, en conséquence, de ne pas le classer directement en haut des listes. De plus, cette recherche de confiance dans un site passe aussi par son ancienneté. Google accordera plus de crédit à un site ancien qu’à un site récent même si celui-ci arbore fièrement de nombreux liens fraîchement acquis. Cela ne signifie pas pour autant que les moteurs de recherche ne s’intéressent pas à la fraîcheur du contenu, bien au contraire, cela est une tendance de fond notamment entretenue par les réseaux sociaux où s’échangent de nombreux liens vers des pages récentes. Mais cela n’enlève pas le caractère « long terme » d’une stratégie de référencement.

Le bon et le mauvais côté

Il y a aujourd’hui deux stratégies de référencement qu’il convient de connaître. La stratégie White Hat (WH) respectueuse des règles, et la stratégie Black Hat (BH) qui s’affranchit des règles et utilisent toutes les techniques disponibles pour faire grimper les pages et les sites dans les classements. Une telle façon de procéder n’est pas illégale. Il n’est pas interdit de créer automatiquement à l’aide d’un logiciel des centaines, voir des milliers de liens sur des sites tiers pour faire « grimper » son propre site. Cela est juste en contradiction avec les règles édictées par les moteurs de recherche.

Voici l’occasion d’introduire une notion centrale pour le référencement : le risque. Quelques soient les efforts réalisés pour optimiser le référencement d’une page, la limite est toujours difficile à cerner entre ce qui est autorisé et ce qui ne l’est pas. Google par exemple recommande d’utiliser des mots clés pertinents dans un texte pour que le moteur de recherche puisse l’indexer correctement, mais abuser de ces termes peut être considéré comme une sur-optimisation par le même moteur et déclencher une pénalité. Le référenceur a donc une grande responsabilité car son travail peut entrainer des conséquences très négatives. Google pénalise les sites qui utilisent des techniques de référencement interdites en abaissant brutalement leur classement, divisant par dix par exemple, le nombre de visites qu’il leur envoie. Voici une sélection de conseils que Google 82 donne aux webmestres pour éviter qu’un contenu ne soit considéré comme ayant été optimisé d’une façon non-autorisée :

Évitez de cacher aux yeux des internautes, grâce à des artifices de programmation, des textes ou des liens
Évitez de remplir vos pages de mots clés non pertinents et sans rapport avec le contenu réel de votre site.
Ne créez pas plusieurs pages, sous-domaines ou domaines présentant du contenu dupliqué.
Évitez les pages satellites créées exclusivement pour les moteurs de recherche.
Présentez un contenu pertinent et original pour inciter les internautes à visiter votre site en premier lieu.

Remarque Google dit ne pas pénaliser un site pour les optimisations douteuses intervenant depuis l’extérieur, c’est-à-dire si celui-ci reçoit, par exemple, beaucoup de liens douteux depuis des sites peu crédibles. En effet, le meilleur moyen de « descendre » un concurrent serait de créer vers son site de nombreux liens de mauvaise qualité. Dès lors, l’optimisation des pages apparaît comme un exercice plus dangereux que celui consistant à créer des liens de façon non-naturelle (nous évoquons ce sujet plus bas).

Optimisation des pages

La structure d’une page web

Optimiser une page web, c’est en écrire le texte de façon à ce que les moteurs de recherche l’indexent sur les bons mots clés. Voyons en détail comment un robot d’indexation voit une page web et à quels contenus il accorde de l’importance :

Le texte du contenu, c’est-à-dire la matière principale d’une page. Il s’agit bien entendu de la « matière » principale d’une page.

Le texte récurrent, présent sur toutes les pages d’un site (menu, en-tête, pied de page). Dans la mesure du possible, les moteurs essayent de détecter ce genre de texte car naturellement ils ne doivent pas entrer en compte de façon primordiale dans l’indexation de chaque page d’un même site.

Les titres, c’est-à-dire les balises HTML de type <H1> ou <H2> qui décrivent la structure d’un texte. Les moteurs y accordent une importance particulière.

Les textes mis en valeur sous la forme de lien ou avec une décoration les faisant ressortir (en gras par exemple) sont détectés et utilisés par les moteurs pour comprendre les mots et expressions importantes, donc favorise d’une certaine façon le référencement de la page sur ces termes.

Le titre de la page, qui est déterminé par la balise HTML <title>. Il est bien entendu primordial pour l’indexation car il détermine, pour Google, le sujet de la page.

Les métadonnées liées à la page, nous en avons déjà parlé, et notamment la description d’une page. La méta « keyword » censée contenir les mots clés importants n’a plus de poids dans les algorithmes de classement 83 sauf dans certains cas⁸⁴.
Les métadonnées liées aux images, aux vidéos et aux animations qui permettent aux moteurs de « comprendre » leur contenu. Une page qui comporte des images dont les méta « title » et « alt » (texte alternatif à afficher lorsque le navigateur n’affiche pas les images) comprennent des mots clés liés à la notion de « tarte aux fraises » sera interprétée par Google comme comprenant des illustrations de ce dessert.
L’URL de la page. Les moteurs accordent de l’importance aux mots clés qu’elle contient. C’est pourquoi les webmestres utilisent souvent le module de réécriture (rewriting) permettant d’inclure des mots clés dans l’adresse d’une page (monsite. com/brosse-a-dents.hmtl).

Remarque Et le nom de domaine dans tout ça ? Celui-ci a son importance mais n’est à priori pas pris en compte en tant que tel par les algorithmes. S’il contient les mots clés que l’on souhaite favoriser, l’effet positif viendra du fait que les liens qui seront générés naturellement sur des sites tiers comprendront plus souvent les termes en question.

Un contenu bien aligné

La règle de base pour favoriser le classement d’une page dans les moteurs de recherche est d’aligner ces différents contenus, c’est-à-dire de faire en sorte qu’ils comportent tous les mots clés importants de la requête que vous souhaitez cibler. La difficulté est de ne pas tomber dans l’abus, c’est-à-dire qu’une page comprenne une densité de mots clés tellement forte que Google comprenne le sujet de la page mais qu’il y voit une preuve de « keyword stuffing », c’est-à-dire de sur-optimisation. En général, les experts s’entendent sur le fait qu’une densité de 5% est acceptable. Au delà les moteurs de recherche pourraient avoir des doutes. La valeur exacte n’est cependant pas connue et ne fait pas l’objet de communication officielle de la part de Google.

De plus, comme les robots d’indexation cherchent du contenu de qualité, copier-coller le même terme n’est pas exactement une technique valable. Il est préférable d’utiliser des termes d’un champ lexical proche et des synonymes. Il faut également penser au fait que les moteurs utilisent la proximité des termes entre eux et la présence d’un contexte lexical pour déterminer le sens de certains mots. Reprenons le terme « fraise ». Il s’applique au lexique des fruits, mais également des machines-outils (une fraiseuse est une machine utilisée pour usiner tous types de pièces mécaniques). Si Google trouve les termes « cueillir », « tarte » ou « confiture » dans un texte associé au mot clé « fraise » il saura que ce terme désigne un fruit. Si au contraire, il trouve les termes « machine », « pièce » ou « taraud » c’est l’autre sens qui sera détecté.

Prenons un exemple : nous souhaitons rédiger un texte court concernant la vente de chaussures pour enfants. Nous essayons donc d’enrichir le texte en y plaçant judicieusement les termes « chaussures » et « enfants » mais également des termes du même contexte lexical. Voici ce que cela pourrait donner : « Chausser les enfants est une tâche qui demande une certaine expertise. Les parents veulent que les chaussures de leurs petits soient confortables et pratiques. Les plus jeunes d’entre nous doivent pouvoir chausser et enlever leurs souliers facilement. Nos chaussures pour enfants sont conçues pour protéger le pied et faciliter la marche ». Pour favoriser encore plus le référencement, nous formatons en gras le mot « chaussure » et nous créons un lien sur l’expression « chaussure enfant » vers une autre page du site.

Remarque Google recommande d’ailleurs d’écrire avant tout pour les humains plutôt que pour les robots d’indexation. La richesse d’un texte et sa variété sont donc des qualités tout aussi importantes qu’une bonne densité de mots clés.

Attention aux liens sortants

Le référencement d’une page dépend également du nombre de liens qui en sortent. Google apprécie qu’un texte comporte des liens : ils représentent un signe de qualité car ils ouvrent des perspectives et permettent aux internautes de continuer leur navigation. Pour autant, si leur quantité est trop importante, la qualité de la page s’en trouve amoindrie car le moteur de recherche veut d’abord référencer du contenu, pas des listes de liens.

La balise « nofollow » est également à connaître. Il faut la placer à l’intérieur du code HTML d’un lien pour demander aux moteurs de recherche de ne pas le prendre en compte pour le référencement. Beaucoup d’auteurs de blogs ont décidé de l’inclure par défaut dans tous les liens des commentaires pour éviter que les spammeurs n’utilisent ces espaces d’expression pour y référencer leurs sites. Certains spécialistes du référencement l’utilisent également pour « sculpter » le PageRank de leur site. Ils marquent tous les liens en « nofollow » sauf ceux qui pointent vers les pages dont ils souhaitent améliorer le positionnement.

L’optimisation du contenu « black hat »

Certains webmestres utilisent des techniques réprouvées par Google pour améliorer le contenu de leurs sites pour le référencement. L’opération consiste à afficher un contenu pour les utilisateurs et à prévoir des textes spécifiquement rédigés pour les moteurs de recherche, ces derniers étant cachés aux internautes. Les spécialistes utilisent pour cela deux techniques :

La première consiste à cacher ce texte par des artifices de programmation (CSS et JavaScript). Le texte est bien présent dans le code source de la page mais les internautes ne peuvent pas le voir. Inconvénient : Google sait de mieux en mieux interpréter le JavaScript et finira probablement par découvrir la supercherie.
La seconde méthode consiste à détecter lorsque le Googlebot vient butiner votre site et à lui servir un contenu fait spécifiquement pour lui et n’ayant aucun rapport avec celui que voient les internautes. Techniquement assez aisée, cette méthode est difficilement détectable par Google.

Optimisation des liens

Le principe général de l’optimisation des liens (opération appelée « netlinking » en anglais) est de favoriser la création d’un nombre plus important de liens entrants. Leurs caractéristiques sont les suivantes : d’une part, leur intitulé doit contenir les mots clés souhaités et, d’autre part, ils doivent être issus de pages de qualité (c’est-à-dire à PR élevé si possible).

Pour comprendre ce qu’est l’intitulé d’un lien, nous devons reprendre la définition de cet élément central du référencement : un lien est un ensemble d’un ou plusieurs mot(s), qui, une fois cliqué, renvoie l’internaute sur une page différente. Nous avons vu comment Google navigue en permanence sur le web, indexant toutes les pages et tous les liens pour, entre autres, déterminer le PageRank des différents contenus. En réalité, le moteur de recherche ne regarde pas simplement tous les liens de la même façon, il prend en compte également leur intitulé c’est-à-dire le ou les mot(s) qui constitue(ent) le lien. Par convention les liens sont en général soulignés.

Remarque Si un grand nombre de liens intitulés « location bateau Annecy » dirige vers une certaine page, Google en déduira que la page en question concerne les loisirs nautiques dans la préfecture de Haute-Savoie. Quelqu’un qui ferait une requête sur l’expression « location de bateau à Annecy », cherchera probablement à atteindre cette page donc Google la positionnera haut dans les résultats.

Qualité et variété des liens

Bien évidement, si des liens sont émis par des sites de mauvaise qualité vers votre page, leur impact sur son référencement sera plus faible, voir nul. À l’inverse, si ces liens sont issus de pages réputées très crédibles (institutions gouvernementales, grands médias, pages à PR élevé) l’impact sur son positionnement sera plus important. Il en est de même pour des liens issus de pages traitant d’une thématique proche. Pour reprendre l’analogie scientifique, un climatologue qui citerait un papier sur le changement climatique a plus de poids qu’un biologiste citant la même publication. Google accorde plus de valeur à un lien en provenance d’un site ayant une thématique proche de la page sur laquelle il pointe.

En bref, toute création de liens en quantité qui n’apparaîtrait pas comme naturelle aux moteurs de recherche ne produira que peu d’effet sur le positionnement. C’est pourquoi il vaut mieux s’organiser pour créer des liens aux termes et aux destinations variées. Par exemple, une stratégie de référencement pour le même site de vente de chaussures pour enfants pourrait adopter des intitulés de liens comme : « chaussures enfants », « soulier pour enfants » mais aussi « habillement enfants » et « chaussures pour jeunes ». Ces liens ne pointeraient pas tous sur la page d’accueil mais également sur des pages profondes (fiche article, présentation de la société etc.).

Ne pas envoyer de mauvais signaux aux moteurs

Les moteurs de recherche accordent beaucoup de valeur aux liens entrants mais ils tentent tout de même de détecter les abus. Voici des signaux qu’ils utilisent pour déterminer si les liens vers un site ou une page ne sont pas naturels :

Un grand nombre de liens en provenance d’un seul site ou d’une même adresse IP (des sites hébergés sur le même serveur et ayant la même adresse IP) qui pointeraient vers une même page seraient suspects aux yeux de Google.
De nombreux liens, depuis de nombreuses sources, dont les intitulés seraient toujours identiques.
Une grande quantité de liens qui pointeraient tous vers une page unique (par exemple la page d’accueil).

Remarque Lorsque l’on cherche à générer des liens pour améliorer le référencement, il faut privilégier la variété des intitulés, des sites et des pages de destinations.

La génération de liens

Avant d’aller plus avant dans les méthodes permettant de créer des liens, il n’est pas inutile de rappeler que, selon Google, elles correspondent à une tentative de manipulation. En effet, le moteur de recherche souhaite se baser sur les liens qui ont été générés naturellement par des webmestres qui ont jugé qu’un contenu valait la peine d’être cité. S’attacher à créer des liens vers son propre site est donc quelque part une activité visant à tromper le moteur de recherche. Nous verrons cependant que toutes les techniques ne sont pas à placer à la même enseigne et que certaines sont plus acceptables que d’autres.

L’activité consistant à générer des liens peut prendre différentes formes :

Contribuer au contenu de sites tiers : écrire des articles pour un blog, aider des internautes sur un forum, partager des liens sur les réseaux sociaux.
Inciter les utilisateurs à partager vos contenus sur leurs sites ou sur les réseaux sociaux.
Faire des échanges de liens avec d’autres sites. Cette technique est moins puissante car l’effet du lien entrant est contrecarré par l’effet du lien sortant.

Remarque Les liens internes à un même site comptent aussi pour le référencement, même si un lien externe est mieux valorisé par les moteurs de recherche.

Utiliser des contenus intermédiaires

Une autre technique consiste à créer des sites ou des pages ayant pour seul objectif d’être référencés dans Google pour ensuite fournir des liens vers le véritable site dont on veut améliorer le référencement :

Les techniques d’« appât à liens » (ou « linkbaiting » en anglais) : des textes, images ou vidéos à forte valeur ajoutée sont créés et diffusés (sur un blog par exemple) de façon à générer une réaction sur internet et à être cités dans des articles ou sur les réseaux sociaux. Ils peuvent prendre la forme d’une étude de marché, d’un reportage ou d’un contenu amusant par exemple.
La technique des sites satellites : ce sont des petits sites (quelques pages) thématiques que l’on crée sur des sujets proches du site à référencer. Ceux-ci n’auront pour seule raison d’être que d’être référencés dans les moteurs de recherche. S’ils sont utiles aux internautes, ils collecteront en plus des liens tout au long de leur existence, ce qui leur donnera encore plus de valeur.

Une fois que ces sites sont bien référencés dans les moteurs de recherche, il faudra y créer des liens vers les sites que l’on souhaite positionner en haut des résultats.

Remarque Ces techniques sont à divers degrés en contradiction avec les règles de Google. Néanmoins, elles le seront d’autant moins que ces contenus sont utiles et apportent une vraie valeur ajoutée aux internautes.

Les techniques réprouvées par les moteurs de recherche

Les techniques moins respectables sont nombreuses, nous pouvons néanmoins les catégoriser en trois catégories :

L’utilisation de logiciels de génération de liens. Ces systèmes créent automatiquement des liens sur des sites tiers en grande quantité notamment au sein de commentaires sur les plateformes de blogs. Les plus perfectionnés permettent même de passer les « captchas » (ces modules sensés détecter les soumissions automatiques) et de cliquer automatiquement sur les liens envoyés par email pour valider votre inscription. Ces logiciels s’achètent à des prix modérés (de l’ordre de la centaine d’euros) mais peuvent être complexes à configurer et à prendre en main. Exemple : Link Farm Evolution.
La création de « fermes » à liens. Certains référenceurs prennent soin de se créer une galaxie de sites et d’y publier du contenu automatiquement au moyen de « content spinners », de véritables mixeurs de textes qui, à partir d’un texte écrit par un humain, génèrent une multiplicité d’autres contenus en modifiant la construction et l’ordre des phrases et en utilisant des synonymes. Les pages de ces sites sont ensuite criblés de liens vers les sites légitimes dont on souhaite optimiser le référencement.
L’achat de liens sur des sites tiers. Cette technique consiste à rémunérer un éditeur pour qu’il publie un lien vers votre site. Elle est fortement réprouvée par Google qui n’hésite pas à pénaliser lourdement les sites qui s’y adonnent. Il est pourtant possible d’acheter de tels liens en négociant de gré à gré et le prix dépend en général du PageRank de la page en question.

Les dangers du référencement

Google pénalise les sites de plusieurs façons et pour plusieurs raisons. Les pénalités sont soit décidées manuellement, suite à une dénonciation par exemple, soit déclenchée automatiquement par l’algorithme 85. Dans ces deux cas, le site pénalisé chute brutalement dans les résultats et son trafic en provenance de Google se voit réduit à la portion congrue. Les pages du site peuvent également être complètement ôtées des résultats. En général les pénalités ne sont pas permanentes et sont levées automatiquement après une certaine période de temps qui dépend de la gravité de l’infraction. Les raisons pour lesquelles les sites sont pénalisés peuvent être, rappelons-le : le même contenu dupliqué sur un certain nombre de pages, la manipulation ou dissimulation du contenu (ce n’est pas la même chose qui s’affiche pour un visiteur et pour le robot d’indexation), la suspicion de liens vendus et une optimisation trop importante des textes qui fait apparaître une densité de mots clés trop élevée.

Figure 16.1 : Ce site a subit une pénalité de la part de Google. Son trafic est passé de plus de 2000 visites par jour à moins de 200. De telles baisses ne sont pas rares lorsque les techniques de référencement employées par un site dépassent les limites.

Les outils à connaître

De nombreux logiciels ont été développés pour permettre le suivi et l’optimisation du référencement. Nous ne pouvons pas tous les citer. Voici cependant une liste des outils gratuits, tous édités par Google, qui nous semblent les plus utiles :

Google, le moteur de recherche, permet de voir quelles pages ont un lien vers une autre page bien précise grâce à l’opérateur « link » (faites une recherche « link :monsite.com/unepage.hmtl » dans Google et vous verrez une liste de toutes les pages qui comportent un lien vers celle-ci). Vous pouvez aussi voir toutes les pages d’un site qui sont indexées par Google en utilisant l’opérateur « allinurl » (faites une recherche « allinurl :monsite.com » et vous verrez une liste de toutes les pages de ce site qui sont indexées dans Google).
L’outil Google Analytics permet quant à lui, entre autres, de connaître les mots clés qui vous rapportent du trafic, ceux qui sont le plus susceptibles de vous apporter des clients et les pages de votre site qui sont les mieux référencées (nous en parlons en détail au chapitre suivant).
Google Webmaster Tools est la boîte à outils du référencement sur Google. Ce site permet d’effectuer différentes opérations et de consulter des informations concernant votre référencement : voir la liste des sites qui ont un lien vers le vôtre, vérifier le bon fonctionnement de vos fichiers sitemap.xml et robots.txt (qui indiquent à Google quelles pages référencer et quelles pages ignorer) et consulter la liste des erreurs d’exploration du Googlebot sur votre site.
Google Tendances des Recherches permet de visualiser et de comparer les volumes de recherches pour chaque mots clés en fonction du temps.
L’Adwords Keyword Tool permet de trouver des idées de mots clés proches d’une thématique particulière et de consulter les volumes de recherches ainsi que la concurrence théorique à laquelle se livrent les annonceurs. Plus la concurrence est forte, plus les mots clés ont de la valeur et plus il sera difficile d’être bien référencé.

Remarque Google s’attend à trouver un « sitemap » pour chaque site présent dans son index. Ce fichier, au format XML (Extended Markup Language), décrit et organise le contenu (les pages) d’un site pour les moteurs de recherche. Ces derniers utilisent ce fichier pour comprendre l’organisation et trouver la matière à indexer⁸⁶.

Chapitre 16

Le référencement naturel