Blogonet : Twitter pour classer des blogs ? Mais encore ?

Attention, cet article a été posté en 2009. Il est possible que les informations mentionnées ne soient plus d'actualité, ou que mon opinion ait évolué. Merci d'en tenir compte lors de votre lecture.

Ma soirée passée à répondre à une cinquantaine de mails, plus des deux-tiers encore en file d’attente, une majorité des questions redondantes, je me résous à pondre une réponse complète ici.

Peu d’entre vous y ont échappé, le service en ligne Blogonet vient de subir un coup de pinceau. En plus des nombreuses améliorations, fonctionnelles et graphiques, un élément a particulièrement retenu votre attention : Twitter entre maintenant directement en compte dans le classement des blogs francophones. D’où le titre du billet.

Comment cela fonctionne ?

Depuis le début, Blogonet se base sur les liens entrants et la pertinence des commentaires postés par les lecteurs pour établir son classement. Cependant, comme le mentionnent de nombreux articles (exemple), Twitter occupe une place de plus en plus importante dans la vie des blogueurs. Il nous parait donc logique de suivre le mouvement, et d’en tenir compte dans le classement final.

Ainsi, nous conservons notre philosophie de base : selon nous, la valeur d’un blog et de son contenu est directement liée à l’enthousiasme de ses lecteurs. Cela passe par les commentaires, déposés sur le blog de l’auteur, mais également aux discussions qui en découlent, sur Twitter. Notre robot permet dorénavant d’extraire les liens postés dans vos tweets : lorsqu’un lien pointe vers un des articles référencés par Blogonet, il est pris en compte. De ce fait, plus un article sera diffusé sur Twitter, plus sa cote de popularité grimpera.

Naturellement, la courtitude étant l’essence même de Twitter, nous sommes capables de suivre les redirections. Seuls les tweets postés par ceux qui protègent leurs updates ne sont pas lus (ce qui, au fond, est cohérent).

Et les autres améliorations ?

Je profite de cet article pour faire une réponse groupée. Pour présenter les autres améliorations, en somme.

Le moteur de recherche

Un travail énorme a été fait au niveau du moteur de recherche. Actuellement, je suis plutôt content des résultats ; ils sont assez pertinents dans l’ensemble, et le programme est très économe en ressources-serveur. Un gain au niveau de la qualité et des performances donc.

En effet, à la manière de Google, le moteur pondère maintenant le poids des mots en fonction de leur position dans l’article (et non plus seulement selon leur nombre d’occurrences). Ainsi, un mot placé dans le titre, dans un sous-titre, en gras ou en italique, sera jugé plus fort qu’un mot ordinaire. Nous avons également étendu notre dictionnaire de mots inintéressants (articles, pronoms…) pour éliminer un maximum de bruit.

Le classement des résultats par date a également été beaucoup travaillé. Avant, il se contentait d’afficher les résultats selon leur date de parution, sans tenir compte de la pertinence. Au final, les résultats étaient peu fiables, peu exploitables. Maintenant, la pertinence est pondérée en fonction de la date ; il est donc normal qu’un article plus vieux, jugé très intéressant, apparaissent avant un article plus récent, jugé beaucoup moins pertinent. Ce système permet de suivre l’actualité et les divers Buzz tout en éliminant un maximum les articles parasites (qui ne répondent pas réellement à la question posée, j’entends).

Cependant, il reste encore de nombreuses améliorations. Un début de travail a été fait sur l’orthographe des mots ; le moteur de recherche essaye de ne pas tenir compte des pluriels, ou des genres. Une recherche sur voitures doit donc également tenir compte des résultats qui parlent de voiture, au singulier. De même pour les recherches sur cadeaux ou chevaux. Plus poussé, une recherche sur un verbe ne doit pas tenir compte de sa conjugaison. Enfin, mon objectif final est, à la manière de Google, de proposer des suggestions lorsqu’un mot semble mal orthographié. Ce n’est pas évident.

La promotion des articles en Home

Avant, à la manière d’un Digg-Like, un article était promu sur la page d’accueil lorsqu’il atteignait un certain nombre de votes. Au final, seul les blogueurs les plus actifs s’offraient la Home, laissant peu de chances aux autres articles, pourtant parfois très intéressants.

Cependant, Blogonet est bien plus qu’un Digg-Like : les articles sont recensés automatiquement, et surtout, il est capable de les lier entre eux. Ainsi, nous avons décidé de prendre en compte ce critère pour promouvoir certains billets. Le système de votes est maintenant remplacé par un système de points : quand un article est voté, il gagne un certain nombre de points, quand il est cité par un autre article aussi, etc.

Selon nous, cela permettra de diversifier la page d’accueil, et ainsi d’augmenter sa qualité.

Invitez vos amis

Le coté social sur service a été développé. En plus des fonctions déjà existantes, permettant de partager votre point de vue ou vos lecteurs connexes, vous pouvez maintenant invitez vos amis, et partager directement avec eux vos coups de cœur. Le principe est simple : vous pouvez, en un clin d’œil, visualiser l’ensemble des articles appréciés par vos amis. Tous ces articles figurent dans l’onglet « Articles recommandés ».

D'ailleurs, un module a été spécialement développé pour vous permettre d'inviter vos amis Facebook ou Twitter. Ou de prévenir les membres de votre carnet d'adresses.

Ajoutez des blogs à vos favoris

Déjà présent dans la première version, ce système plait à de nombreux utilisateurs. Ajouter un blog dans vos favoris vous permet ensuite de mettre en avant ses articles, et d’y accéder en un clic. Ainsi, tous les articles publiés sur vos blogs favoris sont regroupés sous l’onglet « Articles favoris ».

Et la suite ?

Nous débordons d’imagination, nous avons encore des centaines d’idées d’améliorations, seul le temps nous permettra de les mettre en œuvre, petit à petit. Cela dit, vos idées et suggestions sont les bienvenues, vos critiques aussi. A défaut de nous donner des idées inédites, cela permet au moins d’orienter nos priorités. D’ailleurs, cette nouvelle version se base entièrement sur vos feedbacks. Merci à vous.

Vos réflexions

Très bonne idée car Twitter est au même titre que google un outil générant du trafic et de la notoriété.
Ouch. J'ai tout lu, c'était long. Mais finalement assez intéressant.

Pour commencer, intégrer Twitter au service me semble une bonne idée. Actuellement, on en parle partout, impossible d'ouvrir son agrégateur RSS sans en entendre parler, Twitter est en effet devenu une source incontournable pour de nombreux blogueurs. Tu as su intégrer le phénomène rapidement, c'est un très bon point.


Concernant le moteur de recherche, ça m'intéresse fortement, vu que j'ai également travaillé dans le domaine. je viens de tester la bête, les résultats sont en effet très bons. Le tri par date donne bien des résultats cohérents, en rapport avec l'actualité. Une recherche sur Hadopi, Twitter ou Firefox le montre bien.

D'ailleurs, j'ai vu que tu as aussi intégrer plusieurs options. Notamment la possibilité d'exclure certains mots, ou de rechercher des expressions exactes. C'est pas mal, et très rapide, bravo. Pourquoi ne pas en avoir parlé dans la news, c'est pourtant intéressant, non ?

Sinon, concernant son évolution... Ce que tu cherches à faire est très délicat. Ne pas tenir compte du singulier / pluriel reste assez aisé, car la construction des mots au pluriel est basique : retirer un "s", un "x", et intégrer quelques règles pour les "al/aux", etc... Par contre, pour les verbes, c'est déjà plus délicat : une recherche le verbe "porter" peut être assimilé à sa conjugaison "(il) porte", mais pas au nom associé "(une) porte". Donc ça me parait très très délicat. Et pour la correction orthographique, ça reste possible en se basant sur une bonne base de données de mots, et quelques algorithmes (assez complexes, cela dit).

Mais bon, j'ai confiance, tu t'en ai très bien tiré pour le moment. Je suis surtout étonné par la vitesse des recherches, notamment quand tu exclus certains mots. C'est assez gourmand pourtant. Quel est ton secret ? Un Index placé en mémoire vive ?
@jayer : Merci

@Manatorme :
En effet, j'ai jamais dit que c'était une tâche aisée. Surtout que, comme tu le dis, le bruit inséré par un mauvais algorithme sera probablement plus néfaste que le gain.

Au niveau des performances, j'ai choisi de me baser sur les fichiers binaires. L'index créé est trop volumineux pour être placé en mémoire vive, et les bases de données existantes sont trop lentes ou trop gourmandes. Par contre, il y a un cache supplémentaire, qui lui est placé en mémoire vive.
Très bonne idée merci !
Une partie de l'article, trop technique pour moi, me laisse indifférente (d'autant plus que je n'utilise pas Twitter, il y a trop de messages, ils sont perdus dans la masse), mais ça reste un bon projet.

Les articles populaires sont, à quelques rares exceptions près, intéressants. Par contre, le coté "mode et beauté" est un peu délaissé : à croire que les blogueurs/blogueuses de cette catégorie ne s'inscrivent pas sur ces outils ? Je vais essayer de motiver quelques copines !
Bonjour,

Notre société édite un forum généraliste, basé sur la solution VBulletin. Le forum grandissant (plus de 400 000 messages), le moteur de recherche intégré pose des problèmes au niveau des ressources consommées. D'autant plus que la pertinence des résultats est discutable.

Ainsi, votre projet nous intéresse. Pensez-vous qu'il soit possible d'adapter votre solution à notre problématique ? Pouvez-vous nous établir un devis ?

Cordialement,
Thierry C.

Note : Mon adresse email est laissé dans le champ prévu à cet effet. Si vous le désirez, je peux vous envoyer mes coordonnées téléphoniques par courrier électronique.
@Thierry C. : Naturellement, c'est possible. Je viens de vous contacter par email.