Classement : Influence d’un blog et algorithme

Attention, cet article a été posté en 2009. Il est possible que les informations mentionnées ne soient plus d'actualité, ou que mon opinion ait évolué. Merci d'en tenir compte lors de votre lecture.

Classer des blogs est tout un art. Petit retour personnel.

Dans son article, Wikio : vos liens ne vaudront bientôt plus rien, l’ami Fred expose et critique la future méthode de calcul utilisée par le service Wikio, pour effectuer le classement des blogs. Vu que je me heurte exactement aux mêmes problèmes avec Blogonet, le sujet m’intéresse.

Le classement, toute une difficulté

Beaucoup pensent avoir une idée de la complexité de la chose, mais peu l’évaluent correctement. C’est encore plus dur que ça. Théorie des nœuds, analyses et algorithmes sont des outils nécessaires, mais la difficulté est encore au dessus ; elle vient en partie du français : qu’est qu’un blog influent ? Un blog avec plein de visites ? Un blog avec plein de lecteurs (qui lisent) ? Un blog avec plein de commentateurs ? Un blog avec des lecteurs ou commentateurs spécialisés ? Un blog qui pousse le lecteur à réfléchir ? Et, encore plus dur, comment savoir si le blog de Machin est plus influent que celui du TrucMuche ? En se basant quels indicateurs ? Et quelles mesures ?

Bref, un problème de français, à la base. Puis un problème de mesures. Et enfin, un problème d’algo. Remuez tout cela, saupoudrez le tout de quelques problèmes supplémentaires, vous obtenez nos classements mensuels. Ouch.

Actuellement, ces classements sont en grande partie basés sur les liens entre les blogs. On part en effet du principe que plus un blog est influent, plus il sera lié par les autres. Le problème ? Cela conduit à des ententes, pour ne pas dire des mafias-blogueuses. Tu me fais un lien, je t’en fais un en retour. Et tous les 3 jours, on recommence. En plus de dégrader la qualité des blogs en question, cela fausse les classements. Il faut trouver des parades.

Comment implémenter un système anti-triche ?

La nouvelle idée de Jean Veronis : accorder une valeur dégressive aux liens. Par exemple : le blog de Machin fait un lien vers celui de TrucMuche. Ce lien rapporte 1 point au blog de TrucMuche. Le mois suivant, le blog de Machin fait encore un lien vers celui de TrucMuche. Cette fois, il ne rapporte plus que 0.7 points. Puis 0.5 points. Et ainsi de suite.

Sur le papier, c’est beau, ça désavantage sévèrement les tricheurs. Ou du moins, ça change les règles du jeu. Mais la vraie question à se poser est : est-ce que cela favorise les blogs influents ? Ma réponse est non. Ils sont aussi pénalisés. Prenons un exemple. Je lis souvent le blog de Fred, je réagis souvent à ses billets (cet article en est la preuve). Pour ainsi dire, nous pouvons dire qu’il m’influence ; il n’y a pas de tricherie, et aucune entente entre nous. Tous les liens que je fais vers lui sont légitimes. Pourtant, cette nouvelle idée le pénalisera. Ou du moins, ne le favorisera pas autant qu’il faudrait.

A mon sens, cette solution ne reflètera donc pas la réalité. Du moins, pas plus que l’actuelle.

Un début de solution

Ma solution : introduire de nouvelles variables, de nouvelles sources de mesure. C’est déjà ce que j’ai commencé à faire, en prenant en compte les liens sur Twitter et la qualité des commentaires. Plus un article est relayé sur Twitter, plus il est lu et jugé intéressant. De même, plus il est commenté (de manière intelligente), plus il est susceptible de faire réagir ou réfléchir le lecteur.

Autre parade pour contrer les réseaux de triche : pénaliser les échanges de liens flagrants, tout en favorisant les blogs qui touchent un grand réseau. Le tout en divisant le poids d’un lien en fonction du nombre de liens contenus dans un article (à la manière de Google). Cet algorithme vient d’être mis en place sur Blogonet : je constate quelques changements, principalement dans le top 50.

La solution idéale

Pour pousser le bouchon encore plus loin, et s’orienter vers une qualité totale : analyser la pertinence des liens contenus dans un article. Si le contenu des articles pointés est jugé sans rapport avec l’article original, alors aucun point ne leur est distribué. J’ai commencé à travailler dans ce sens, mes algorithmes étant encore en version bêta. Disons qu’ils ne sont pas encore assez souples, et restent pour le moment beaucoup trop lents.

Mais je pense que cela devrait voir le jour d’ici quelques mois.

Vos réflexions

Complètement d'accord avec tout ce que tu viens d'écrire :)
Très bel article. Tes solutions me paraissent très bien.
Par contre, techniquement, tu penses que c'est réalisable? Je me demande comment on peut arriver à juger de l'intelligence des commentaires sur Twitter et dans une moindre mesure du rapport entre le contenu de l'article original et celui qui pointe dessus.
En tous cas si tu y arrives, chapeau bas. Ce serait une sacrée avancée.
@Fred : :)

@duduffe :

Concernant Twitter, l'algorithme ne tient compte que du nombre de liens twittés pointant vers l'article. Mais il est vrai qu'introduire une notion de pertinence serait un plus ; peut être pas forcement par rapport au tweet lui même, plus en fonction de son auteur (et justement, de son influence).

Maintenant, concernant mon algo, c'est possible, oui. La preuve, une ébauche est déjà fonctionnelle. Par contre, il n'est naturellement pas aussi intelligent qu'un article, il ne comprend pas le sens des phrases, et se contente d'essayer de cibler son contenu ("De quoi ça parle ?"). Et à partir de là, d'évaluer des rapprochements plus ou moins forts avec les articles liés ("Est-il normal que cet article sur les autruches en lie un sur des avions ?"). Ce n'est pas évident, mais c'est faisable. Je bosse toujours dessus, en espérant que ça soit suffisamment fiable un jour.

Et d'ailleurs, pour information, c'est ce que Google fait déjà (mais eux, c'est encore plus complexe, car la présentation des contenus n'est jamais similaire... Chez Blogonet, ils sont tous au format RSS, et le type de contenu est assez restreint).
@Jukien ok, merci de tes précisions. J'espère que tu arriveras à ce qu'un algorithme de ce genre voit le jour prochainement.
Vaste sujet que ces classements de blogs :)

IMHO, les 2 choses qui manquent principalement à ces classements sont les trafics (il ne faut pas se leurer, aujourd'hui cela reste l'indicateur n°1 suivi par tout le monde : bloggers, agences, annonceurs ...) et effectivement une "polarisation" ou "qualification" à la fois du contenu du blog et des liens entrants (ce que tu décris dans ta solution idéale).

Mais pour prendre un exemple, si quelqu'un fait un article très critiquable sur un sujet précis (quelqu'un qui inciterait à la haine ou à la violence par exemple, c'est triste mais ca existe encore), il se peut qu'il se retrouve avec de nombreux liens pointant vers l'article de la part d'autres bloggers critiquant fortement le contenu de l'article original.
Même contenu dans tous les articles a priori, donc ton algo donnerait des "bons points" à un article/blog qui ne le mérite pas vraiement ...

L'un des seuls moyens de mettre en place la solution idéale serait donc de se baser sur le seul algorythme capable de faire ce genre de distinctions : l'homme :) Et rentre en compte le problème du temps à passer dessus et donc de l'argent, un investissement surement beaucoup trop conséquent malheureusement !

A moins que tu ne trouves une autre solution !? Bon courage en tout cas, je me plonge dans le sujet depuis quelques semaines pour un besoin professionnel et c'est tout aussi difficil à appréhender que passionnant :)

Bonne soirée
@Ricardolux :

On en revient donc toujours au même problème : la définition de base. Un article qui pousse de nombreux blogueurs à réagir (ou critiquer) n'a-t-il pas une certaine influence ? Un article inintéressant ne serait pas lu ; les blogueurs ne perdrait pas leur temps à écrire pour ça.

D'autre part, tu pars d'une solution miracle : l'homme. Je ne suis pas d'accord. Pas du tout. Par essence, l'homme n'est pas objectif. Avec ton exemple, forcément, il est difficile d'être en accord avec un article incitant à la violence. Mais prenons le cas d'un article politique : je peux être en total désaccord avec son contenu (ou ses arguments) sans pour autant qu'il soit complètement absurde. De même, je peux juger un article sur un domaine que je n'apprécie pas totalement inutile, alors que d'autres penseront le contraire. Obligé donc de faire des stats, en tenant compte des votes de plusieurs hommes. Et on retombe directement dans les problèmes de copinage.

Enfin, je ne suis pas non plus convaincu que la pertinence du nombre de visite. Le référencement et le sujet change la donne : je connais de beaucoup de sites à forts trafics moins influents que les plus gros blogs français. Moins de liens, moins de lecteurs intéressés, juste une grosse optimisation SEO, et des visiteurs de passage. Le nombre d'abonnés RSS me semble même être un meilleur indicateur.
Dans le monde du papier, il y a des livres, journaux ou magazines très influents et qui ont pourtant de petits tirages. L'influence n'est pas l'affluence.
Il me semble que la notion est très complexe. Je tiens un blog très spécialisé et pourtant il est bien classé au Blogonet (culture). Est-il pour autant influent? Je ne sais pas mais il a un lectorat fidèle.