Attention, cet article a été posté en 2009. Il est
possible que les informations mentionnées ne soient plus d'actualité, ou que mon
opinion ait évolué. Merci d'en tenir compte lors de votre lecture.
Classer des blogs est tout un art. Petit retour personnel.
Dans son article, Wikio : vos liens ne vaudront bientôt plus rien, l’ami Fred expose et critique la future méthode de calcul utilisée par le service Wikio, pour effectuer le classement des blogs. Vu que je me heurte exactement aux mêmes problèmes avec Blogonet, le sujet m’intéresse.
Le classement, toute une difficulté
Beaucoup pensent avoir une idée de la complexité de la chose, mais peu l’évaluent correctement. C’est encore plus dur que ça. Théorie des nœuds, analyses et algorithmes sont des outils nécessaires, mais la difficulté est encore au dessus ; elle vient en partie du français : qu’est qu’un blog influent ? Un blog avec plein de visites ? Un blog avec plein de lecteurs (qui lisent) ? Un blog avec plein de commentateurs ? Un blog avec des lecteurs ou commentateurs spécialisés ? Un blog qui pousse le lecteur à réfléchir ? Et, encore plus dur, comment savoir si le blog de Machin est plus influent que celui du TrucMuche ? En se basant quels indicateurs ? Et quelles mesures ?
Bref, un problème de français, à la base. Puis un problème de mesures. Et enfin, un problème d’algo. Remuez tout cela, saupoudrez le tout de quelques problèmes supplémentaires, vous obtenez nos classements mensuels. Ouch.
Actuellement, ces classements sont en grande partie basés sur les liens entre les blogs. On part en effet du principe que plus un blog est influent, plus il sera lié par les autres. Le problème ? Cela conduit à des ententes, pour ne pas dire des mafias-blogueuses. Tu me fais un lien, je t’en fais un en retour. Et tous les 3 jours, on recommence. En plus de dégrader la qualité des blogs en question, cela fausse les classements. Il faut trouver des parades.
Comment implémenter un système anti-triche ?
La nouvelle idée de Jean Veronis : accorder une valeur dégressive aux liens. Par exemple : le blog de Machin fait un lien vers celui de TrucMuche. Ce lien rapporte 1 point au blog de TrucMuche. Le mois suivant, le blog de Machin fait encore un lien vers celui de TrucMuche. Cette fois, il ne rapporte plus que 0.7 points. Puis 0.5 points. Et ainsi de suite.
Sur le papier, c’est beau, ça désavantage sévèrement les tricheurs. Ou du moins, ça change les règles du jeu. Mais la vraie question à se poser est : est-ce que cela favorise les blogs influents ? Ma réponse est non. Ils sont aussi pénalisés. Prenons un exemple. Je lis souvent le blog de Fred, je réagis souvent à ses billets (cet article en est la preuve). Pour ainsi dire, nous pouvons dire qu’il m’influence ; il n’y a pas de tricherie, et aucune entente entre nous. Tous les liens que je fais vers lui sont légitimes. Pourtant, cette nouvelle idée le pénalisera. Ou du moins, ne le favorisera pas autant qu’il faudrait.
A mon sens, cette solution ne reflètera donc pas la réalité. Du moins, pas plus que l’actuelle.
Un début de solution
Ma solution : introduire de nouvelles variables, de nouvelles sources de mesure. C’est déjà ce que j’ai commencé à faire, en prenant en compte les liens sur Twitter et la qualité des commentaires. Plus un article est relayé sur Twitter, plus il est lu et jugé intéressant. De même, plus il est commenté (de manière intelligente), plus il est susceptible de faire réagir ou réfléchir le lecteur.
Autre parade pour contrer les réseaux de triche : pénaliser les échanges de liens flagrants, tout en favorisant les blogs qui touchent un grand réseau. Le tout en divisant le poids d’un lien en fonction du nombre de liens contenus dans un article (à la manière de Google). Cet algorithme vient d’être mis en place sur Blogonet : je constate quelques changements, principalement dans le top 50.
La solution idéale
Pour pousser le bouchon encore plus loin, et s’orienter vers une qualité totale : analyser la pertinence des liens contenus dans un article. Si le contenu des articles pointés est jugé sans rapport avec l’article original, alors aucun point ne leur est distribué. J’ai commencé à travailler dans ce sens, mes algorithmes étant encore en version bêta. Disons qu’ils ne sont pas encore assez souples, et restent pour le moment beaucoup trop lents.
Mais je pense que cela devrait voir le jour d’ici quelques mois.