Par curiosité, j’ai voulu savoir quelle était l’importance des robots (indexation pour les moteurs de recherches ou autres) par rapport aux véritables internautes sur rouen.fr.
Voici les résultats…
Conditions de test
Le test a porté sur 3 jours du 6 au 8 avril 2010.
Les logiciels de statistiques comme PHPMyVisites (celui utilisé sur rouen.fr) ne prennent normalement pas en compte les robots. Il a donc fallu installer le module statistics de Drupal pour obtenir ces informations.
Ce module permet, entre autres, de connaître le nombre de pages générées par Drupal et les temps de génération. Le tout est enregistré dans une table appelée accesslog.
Seuls les noms de machine comportant le mot “spider” ou “crawl” ont été retenus, les autres ont été éliminés des comptes.
Avec un peu plus de 7000 adresses IP uniques, je ne me suis intéressé qu’aux adresses totalisant au moins 30 connexions en 3 jours.
Résultats
Toutes ces opérations de filtrage et de calcul donnent les résultats suivants :
- 75053 générations de page en 3 jours,
- 23716 générations destinées aux robots, Google inclus (12612 sans Google),
- 11104 générations destinées uniquement à Google.
Les robots, Google inclus, représentent 31,6 % des pages générées, ce nombre étant en légèrement en dessous de la réalité étant donné le mode de calcul retenu.
Google représente 46,8 % des robots accueillis.
Si vous voulez faire d’autres calculs, vous pouvez télécharger le fichier avec les chiffres au format OpenOffice.org ODS.
Aspects techniques
La requête SQL suivante permettant d’extraire rapidement les résultats recherchés de la table accesslog est la suivante :
SELECT COUNT(hostname) AS 'nb',
hostname
FROM accesslog
GROUP BY hostname
ORDER BY nb DESC
En utilisant PHPMyAdmin, il est alors facile de récupérer un fichier CSV que l’on pourra triturer à souhait dans un tableur.
Le module statistics ne calculant pas la correspondance IP-nom de machine, il faut utiliser un script utilisant la commande host sous Unix pour chacune des adresses IP uniques trouvée.



En clair ça veut dire que grâce à Google 46,8 % du cout de la bande passant lui est dédier, je comprend mieux pourquoi certain cite le bloque pour ne pas qu’il référence leur site.
Pas exactement : Google représente environ 15% des pages générées. Et Google ne télécharge pas complètement toutes les pages comme le ferait un navigateur.
Revue de liens #5…
Cette semaine, une question se pose : sommes-nous accros aux médias sociaux ? Pour ma part, pas le moins du monde ! J’essaye de les utiliser de la manière la plus opportune, ce qui me laisse du temps pour construire une arbalète avec des crayons. Et…..