Robots vs vrais internautes

10 04 2010

Par curiosité, j’ai voulu savoir quelle était l’importance des robots (indexation pour les moteurs de recherches ou autres) par rapport aux véritables internautes sur rouen.fr.

Voici les résultats…

Conditions de test

Le test a porté sur 3 jours du 6 au 8 avril 2010.

Les logiciels de statistiques comme PHPMyVisites (celui utilisé sur rouen.fr) ne prennent normalement pas en compte les robots. Il a donc fallu installer le module statistics de Drupal pour obtenir ces informations.

Ce module permet, entre autres, de connaître le nombre de pages générées par Drupal et les temps de génération. Le tout est enregistré dans une table appelée accesslog.

Seuls les noms de machine comportant le mot “spider” ou “crawl” ont été retenus, les autres ont été éliminés des comptes.

Avec un peu plus de 7000 adresses IP uniques, je ne me suis intéressé qu’aux adresses totalisant au moins 30 connexions en 3 jours.

Résultats

Toutes ces opérations de filtrage et de calcul donnent les résultats suivants :

  • 75053 générations de page en 3 jours,
  • 23716 générations destinées aux robots, Google inclus (12612 sans Google),
  • 11104 générations destinées uniquement à Google.
Répartition robots/internautes

Répartition robots/internautes

Les robots, Google inclus, représentent 31,6 % des pages générées, ce nombre étant en légèrement en dessous de la réalité étant donné le mode de calcul retenu.

Google représente 46,8 % des robots accueillis.

Si vous voulez faire d’autres calculs, vous pouvez télécharger le fichier avec les chiffres au format OpenOffice.org ODS.

Aspects techniques

La requête SQL suivante permettant d’extraire rapidement les résultats recherchés de la table accesslog est la suivante :

SELECT   COUNT(hostname) AS 'nb',
         hostname
FROM     accesslog
GROUP BY hostname
ORDER BY nb DESC

En utilisant PHPMyAdmin, il est alors facile de récupérer un fichier CSV que l’on pourra triturer à souhait dans un tableur.

Le module statistics ne calculant pas la correspondance IP-nom de machine, il faut utiliser un script utilisant la commande host sous Unix pour chacune des adresses IP uniques trouvée.


Actions

Information

3 responses

10 04 2010
Shandra

En clair ça veut dire que grâce à Google 46,8 % du cout de la bande passant lui est dédier, je comprend mieux pourquoi certain cite le bloque pour ne pas qu’il référence leur site.

10 04 2010
zigazou

Pas exactement : Google représente environ 15% des pages générées. Et Google ne télécharge pas complètement toutes les pages comme le ferait un navigateur.

16 04 2010
blog buzz & tendances

Revue de liens #5…

Cette semaine, une question se pose : sommes-nous accros aux médias sociaux ? Pour ma part, pas le moins du monde ! J’essaye de les utiliser de la manière la plus opportune, ce qui me laisse du temps pour construire une arbalète avec des crayons. Et…..

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s




%d blogueurs aiment cette page :