Classement : Influence d’un blog et algorithme
Par Jukien le 01/12/09 à 17:37 dans Webmastering
Classer des blogs est tout un art. Petit retour personnel.
Dans son article, Wikio : vos liens ne vaudront bientôt plus rien, l’ami Fred expose et critique la future méthode de calcul utilisée par le service Wikio, pour effectuer le classement des blogs. Vu que je me heurte exactement aux mêmes problèmes avec Blogonet, le sujet m’intéresse.
Le classement, toute une difficulté
Beaucoup pensent avoir une idée de la complexité de la chose, mais peu l’évaluent correctement. C’est encore plus dur que ça. Théorie des nœuds, analyses et algorithmes sont des outils nécessaires, mais la difficulté est encore au dessus ; elle vient en partie du français : qu’est qu’un blog influent ? Un blog avec plein de visites ? Un blog avec plein de lecteurs (qui lisent) ? Un blog avec plein de commentateurs ? Un blog avec des lecteurs ou commentateurs spécialisés ? Un blog qui pousse le lecteur à réfléchir ? Et, encore plus dur, comment savoir si le blog de Machin est plus influent que celui du TrucMuche ? En se basant quels indicateurs ? Et quelles mesures ?
Bref, un problème de français, à la base. Puis un problème de mesures. Et enfin, un problème d’algo. Remuez tout cela, saupoudrez le tout de quelques problèmes supplémentaires, vous obtenez nos classements mensuels. Ouch.
Actuellement, ces classements sont en grande partie basés sur les liens entre les blogs. On part en effet du principe que plus un blog est influent, plus il sera lié par les autres. Le problème ? Cela conduit à des ententes, pour ne pas dire des mafias-blogueuses. Tu me fais un lien, je t’en fais un en retour. Et tous les 3 jours, on recommence. En plus de dégrader la qualité des blogs en question, cela fausse les classements. Il faut trouver des parades.
Comment implémenter un système anti-triche ?
La nouvelle idée de Jean Veronis : accorder une valeur dégressive aux liens. Par exemple : le blog de Machin fait un lien vers celui de TrucMuche. Ce lien rapporte 1 point au blog de TrucMuche. Le mois suivant, le blog de Machin fait encore un lien vers celui de TrucMuche. Cette fois, il ne rapporte plus que 0.7 points. Puis 0.5 points. Et ainsi de suite.
Sur le papier, c’est beau, ça désavantage sévèrement les tricheurs. Ou du moins, ça change les règles du jeu. Mais la vraie question à se poser est : est-ce que cela favorise les blogs influents ? Ma réponse est non. Ils sont aussi pénalisés. Prenons un exemple. Je lis souvent le blog de Fred, je réagis souvent à ses billets (cet article en est la preuve). Pour ainsi dire, nous pouvons dire qu’il m’influence ; il n’y a pas de tricherie, et aucune entente entre nous. Tous les liens que je fais vers lui sont légitimes. Pourtant, cette nouvelle idée le pénalisera. Ou du moins, ne le favorisera pas autant qu’il faudrait.
A mon sens, cette solution ne reflètera donc pas la réalité. Du moins, pas plus que l’actuelle.
Un début de solution
Ma solution : introduire de nouvelles variables, de nouvelles sources de mesure. C’est déjà ce que j’ai commencé à faire, en prenant en compte les liens sur Twitter et la qualité des commentaires. Plus un article est relayé sur Twitter, plus il est lu et jugé intéressant. De même, plus il est commenté (de manière intelligente), plus il est susceptible de faire réagir ou réfléchir le lecteur.
Autre parade pour contrer les réseaux de triche : pénaliser les échanges de liens flagrants, tout en favorisant les blogs qui touchent un grand réseau. Le tout en divisant le poids d’un lien en fonction du nombre de liens contenus dans un article (à la manière de Google). Cet algorithme vient d’être mis en place sur Blogonet : je constate quelques changements, principalement dans le top 50.
La solution idéale
Pour pousser le bouchon encore plus loin, et s’orienter vers une qualité totale : analyser la pertinence des liens contenus dans un article. Si le contenu des articles pointés est jugé sans rapport avec l’article original, alors aucun point ne leur est distribué. J’ai commencé à travailler dans ce sens, mes algorithmes étant encore en version bêta. Disons qu’ils ne sont pas encore assez souples, et restent pour le moment beaucoup trop lents.
Mais je pense que cela devrait voir le jour d’ici quelques mois.
Le blogueur est-il con ?
Par Jukien le 21/07/09 à 16:23 dans Webmastering
Certains l’affirment, d’autres le réfutent. Une chose est sûre, beaucoup de sociétés le pensent. Je ne souhaite pas revenir sur ses envies de pouvoir, sa manie de se sentir supérieur ou encore sa façon de jouer les journalistes, mais bel et bien me focaliser sur l’image qu’il dégage. Et plus particulièrement montrer que certaines entreprises en abusent, pour promouvoir leurs produits ou mettre leurs campagnes publicitaires sous le feu des projecteurs.
Récemment, plusieurs blogueurs ont reçu un cadeau de la part d’une grande marque d’alcool (et non, je ne la citerai pas, cela pourrait être interprété comme étant de la publicité déguisée ; on ne m’y prendra pas). Plusieurs bouteilles, un shaker, des verres, du jus d’orange pour accompagner l’ensemble, l’assortiment était complet.
Bien entendu, ce cadeau n’est pas tombé de ciel, leur vie numérique est directement entrée en jeu ; si seulement ils pouvaient les remercier en publiant un article sur leur blog, ça arrangerait bien leurs affaires ; ce n’était bien entendu pas mentionné, juste implicite. Le problème ? La publicité pour l’alcool est interdite sur Internet (on se souviendra d’ailleurs de la condamnation d’une célèbre marque de bière pour s’y être aventuré).
Et c’est justement là que je veux en venir, justement à ce niveau qu’il y a de l’abus. La publicité officielle étant impossible, cette société utilise la crédulité des blogueurs pour mettre en avant leur boisson. Et bien entendu, beaucoup sont tombés dans le panneau : on assiste à quelques déballages en direct, sous l’œil attentif de leur caméra, accompagné d’un magnifique pavé vantant le goût et les mérites du produit. Bref, de la publicité, pur et dur.
Alors bien entendu, la société en question n’a jamais rien demandé, elle a juste offert quelques cadeaux. Explicitement, c’est vrai. Un exemple qui en illustre évidement bien d'autres. Les blogueurs sont bien pris pour des cons ; c’est bien connus, on peut leur donner n’importe quoi, ils relayent systématiquement…
Oui, je suis blogueur. Oui, je reçois des cadeaux. Oui, je suis...
Désarticulons Wordpress 2.8
Par Jukien le 22/06/09 à 15:20 dans Webmastering
Petit, je souhaitais devenir chirurgien. Ce rêve m’a laissé quelques séquelles, j’adore opérer à cœur ouvert : prendre un programme, le découper en morceau, et comprendre ses forces et ses faiblesses en partant de l’intérieur. Aujourd’hui, j’ai décidé de m’attaquer à la nouvelle monture de Wordpress, dans le but d’optimiser le machin.
Première étape, l’installation. Je ne détaille pas le processus, vous le connaissez probablement sur le bout des doigts. Dix minutes top chrono, le temps de dézipper la bête, le tout est installé. Le scalpel à droite, la morphine à gauche, l’opération peut commencer.
Après un premier état des lieux rapide, je me dirige directement vers le centre du cerveau : les requêtes SQL. Une ligne de code ajoutée par-ci, une autre par là, elles défilent sur mon écran au fil de ma navigation. Pour information, j’ai juste trifouillé la méthode query() du fichier /wp-includes/wp-db.php pour ajouter un simple :
echo $query;
Première constatation, ces requêtes sont nombreuses. Au moins une dizaine par page, en moyenne. Et encore, je n’ose pas vous parler de l’interface d’administration. De plus, nombre d’entre elles sont redondantes, plusieurs pourraient être fusionnées, d’autres supprimées. Je pense notamment à celles permettant de charger les options de configuration de votre blog : ces options changent tous les 36 du mois, les mettre en cache me semble inévitable, pourquoi ne le font-ils pas ? Idem pour les liens ou les catégories, placés dans la sidebar.
Pour m’aider dans l’analyse de ces requêtes, j’approfondis le bout de code donné plus haut (ne fuyez pas, je vous l’explique juste après, en bon français) :