Débuter en référencement (Partie 1)
Catégorie : Webmasters
Publié par Paria le 12/1/2007
70% des internautes trouvent un site par le biais des moteurs de recherche.
La grande majorité de vos visiteurs trouvera votre site grâce à des outils de recherche, il est donc primordial de figurer dans les plus connus et les plus utilisés.
Mais, il ne suffit pas d'être présent dans la base de données de ces moteurs, il faut encore être dans la première ou deuxième page de résultats, en effet, la plupart des internautes ne vont pas au-delà de la troisieme page de résultats.
Du référencement bien fait, c'est du marketing Internet réfléchi. Pour atteindre le succès dans Internet, vous devez vous en donner les moyens.

Partie 1: Structure du site



Hébergeur



Il est préférable que le serveur qui héberge le site soit localisé dans le même pays que les visiteurs ciblés dans les cas d'une extension non spécifique au pays : .com, .net, .biz etc. Il faut aussi éviter les serveurs lents ou qui tombent régulièrement en panne pour ne pas faire fuir les visiteurs.

Nom De Domaine



L'importance du mot-clef dans l'URL est de moins en moins décisive. Un terme mémotechnique ou un nom percutant est à privilégier à un nom de domaine à tiret du type www.top-logiciel.net .
Le nom de domaine vous donnera un avantage certain sur un mot clef spécifique, mais la reconnaissance d'une marque est plus intéressante. Cependant, la présence de mots-clés dans le nom de domaine est un critère pris en compte par les moteurs de recherches. Il faut dans ce cas essayer de coller au plus près avec le thème du site. Il ne faut pas que le nom soit trop long, ni trop compliqué à retenir. Il est préférable de ne pas dépasser les 3 mots dans le nom de domaine et si possible avoir une extension correspondant au pays ciblé (.fr pour la France), le .net, .org, .com, etc. sont aussi valables.

Sous-domaines



Il est d'usage de séparer les thèmes distincts en sous-domaines portants le mot-clé du thème traité. Les sous-domaines sont presque considérés comme des sites indépendants les uns des autres.

Répertoires



On procédera à l'organisation d'un thème en répertoires portants le mot-clé du sous-thème traité
Ex : -http://www.example.fr/mot-clé

Nom de page



Tout comme le nom de domaine, le nom des pages est très important. Chaque nom de page doit évidemment être différent, mais doit surtout contenir des mots-clés (3 maximum) séparés par des tirets (-).

Il faut faire attention aux variables transmises dans l'URL des pages dynamiques, elles peuvent parfois gêner leur indexation. C'est le cas des variables de session PHP qui empêchent l'indexation par de nombreux moteurs de recherche. C'est le principe des sessions : un identifiant de session est attribué automatiquement à chaque visiteur qui arrive sur un site utilisant les sessions, ce qui peut par exemple servir à spécifier une langue différente selon le visiteur et garder cette langue dans tout le site.

Si cet identifiant de session est transmis dans l'URL (sous forme de variable id ou sessionid), alors à chaque fois qu'un robot d'indexation viendra visiter un site, toutes les pages auront une nouvelle URL. Plus précisément, une même page aura à chaque visite une nouvelle URL.

Le crawler pourra alors interprété cela comme du duplicate content, c'est-à-dire un plagiat de pages, qui peut entrainer une baisse dans le classement des moteurs, voir même un blacklistage (suppression du site des index du moteur).

La solution est soit de se passer de sessions, soit de transmettre l'identifiant de session par cookies.

Nombre de pages



Le nombre de page est un facteur relativement important. Tout d'abord, plus le nombre de pages (distinctes) est grand, plus la quantité d'informations est importante et donc plus les possibilités de trouver le site sont grandes. Un Wikipédia contenant des milliers de pages affichera bien plus de résultats sur de très nombreuses requêtes qu'une simple page perso ; ce qui ne veut pas dire que la page perso sortira forcement après dans l'ordre des résultats !

Sitemap



Le sitemap ou plan de site permet d'accéder rapidement au contenu d'un site web. Les moteurs de recherche s'en servent pour indexer l'ensemble des URL proposées dans cette ressource web. Auparavant Yahoo! avait son propre sitemap, nommé "urllist.txt", qui proposait l'ensemble des URL du site sous forme d'un listing (une URL par ligne). Désormais, Google, Yahoo! et Live utilisent un fichier identique nommé "sitemap.xml" qui propose l'ensemble des URL du site formaté selon des règles XML. Le fichier XML standard comporte outre l'URL une périodicité pour scanner la page, la date de dernière mise à jour, l'importance relative de la page par rapport aux autres pages du site.

Il existe de nombreux script et outils qui permettent de générer automatiquement ce fichier Sitemap. Il suffit ensuite d'envoyer ce fichier sur le site de Google : https://www.google.com/webmasters/sitemaps
Il est conseillé, lorsqu'une modification est faite dans votre SiteMap, de le soumettre de nouveau à Google via l'url suivante : http://www.google.com/webmasters/sitemaps/ping?sitemap=URL_DU_SITEMAP Il est aussi indispensable de créer un plan de son site manuellement afin de permettre aux moteurs de recenser tous les liens du site et aux visiteurs de se retrouver dans le site, en particulier si tous les liens ne sont pas accessible directement depuis la page d'accueil.

Robots.txt



Le fichier Robots.txt est un standard reconnu par la plupart des moteurs de recherche qui permet de leur indiquer une liste de documents ou de répertoires à ne pas indexer.
Ce fichier peut être utile pour restreindre les points d’entrée vers le site depuis les pages de résultats des moteurs de recherche. En effet, dans certains cas, laisser indexables certaines pages internes d’un site ne sera pas judicieux pour des raisons de communication ou d’ergonomie de la navigation.
Il peut aussi permettre d'empêcher l’indexation de documents non-publics, mais laissés en accès libre (par exemple, des fichiers logs).
Enfin, il est aussi utilisé pour empêcher l’indexation de pages dont le contenu ne présente pas d’intérêt du point de vue du référencement. Le fichier Robots.txt est toujours placé à la racine du site.

La structure d'un fichier robots.txt est la suivante : # un dièse (#) sert de ligne de commentaire.

User-agent: * : La requête s'applique à tous les moteurs. Si un robot est spécifié à la place de l'étoile, alors seul ce robot n'aura pas accès aux pages et répertoires du sites énumérés. Une liste des robots est disponible sur ce site : http://www.robotstxt.org/wc/active.html

Disallow: /rep/sousrep/ : Le sous-répertoire sousrep contenu dans le répertoire rep ne sera pas visité par le crawler.

Disallow: /fichier.html : Le fichier.html directement sous la racine ne sera pas visité par le crawler.

Disallow: / : Le site complet ne sera pas visité par le crawler.

Disallow: : Autorise un accès sans restriction au site.

Un site ne souhaitant cacher aucun fichier ni répértoire aux robots n'a pas besoin de fichier robots.txt.