algorithme de promotion d’article similaire

23 janvier 201125 février 2019

Algorithme de promotion d'article

L'idée est de faire la promotion sur un article d'autres articles qui peuvent également intéresser le visiteur.

Il existe de nombreuses manières de faire de la promotion d'article, étudions un peu ce qu'il existe.

La nouveauté et la popularité

D'une manière générale, la plupart des gens s'intéressent à ce qui est nouveau et ce qui est populaire.

C'est exactement ce prinicpe que l'on retrouve sur la page d'accueil de facebook. Ce qui est populaire est mis en avant suivant les interactions qu'il y a eu autour d'un objet en particulier. Plus il y a de like, plus il y a de commentaire, plus l'objet sera mis en avant. (mais difficile de déceler quel est exactement l'algorithme utilisé.)

L'algorithme de PageRank de google est également une manière de mesurer la popularité d'un objet. Plus il y a de liens qui pointent sur un objet, plus cet objet sera populaire. Par effet de cascade, un site pointé par des site populaire sera plus populaire qu'un site pointée par le même nombre de site, mais moins populaire.

La nouveauté, c'est le principe qui est utilisé par tous les blog et les site avec des news. On place les articles par ordre chornologique inverse. Ainsi, il est possible de lire en premier les articles les plus récents.

Ce principe est également exploité par les flux atom et rss. Nous sommes notifié de la nouveauté.

Les articles similaires

La popularité d'un article est défnie par des interactions autour de l'objet. La nouveauté est effémère. Quel autre moyen utiliser quand on a peu d'interaction autour d'un objet ?

L'idée est d'utiliser la promotion d'article en proposant des articles similaires. Si un visiteur s'intéresse à un article, il va probablement aussi s'intéresser à un article similaire.

C'est l'idée qui est largement exploitée par le magasin en ligne Amazon. Pour chaque article, le site propose d'autres articles. Le principe est simple. Ceux qui ont acheté cet article ont également acheté ceci....

Le fonctionnement de cet alogrithme redoutable de Amazon est fait à l'aide d'algorithmes item to item ou slope one.

On parle de l'approche par cosinus ou de similarité de Tanimoto, pour mesurer la similarité entre des vecteurs.

Le système de recommandation d'Amazon est le coeur du magasin. C'est ce qui assure qu'un client vu acheter un article reparte avec 3 articles !

Cet algorithme de similarité est basé sur des interactions des clients.

Quand on toujours que peu d'interaction comment faire pour évaluer la similarité ?

Implémentation d'un alogorithme de similarité basé sur le contenu

Il y a quelques idées qui sont données dans cet article.

Si l'on se base sur le contenu d'un article pour trouver les articles similaires, il y a un grande quantité de données à analyser et ce ne sont pas focrément des données pertinentes.

Une idées est d'utiliser un système de tag associé à un article. Là on sait déjà que les quelques tags utilisés sont pertinent.

L'idée de base toute simple est déjà d'afficher les tags liés à chaque article. En cliquant sur le tag, on obtient la liste des articles qui sont liés.

Le perfectionnement de ce principe est de calculer la similarité des tags associés à des articles pour construire une carte des articles similaires. La fonction php similar_text permet de calculer la similarité entre des chaines de caractères.

Sur le même principe, on peut utiliser le titre d'un document pour calculer les similarités entre les articles.

En pratique

En pratique, il faut fournir le plus de possibilités différentes pour naviguer dans des articles. Ces derniers temps sur facebook on remarque que c'est exactement cette politique qui est mise en place. Il y a toujours plus "d'objet similaires" ou potentiellement intéressants qui sont proposés. Il y a les photos de ses amis, il y les personnes que vous connaissez potentiellement.

Donc ici, le but est d'avoir plusieurs entrées:

les articles les plus populaires (il faut ajouter un compteur et un champ pour stocker la valeur)
les articles les plus récents
les articles les plus commentés (il faut ajouter un champ qui stock dans la table du document le nombre de commentaires)
articles les mieux notés. (il faut mettre en place un système de notation.. c'est assez partial... et lourd)
propositon des articles similaire par titre et par tags. A voir le plus pertinent
Les tags de chaque articles sont affichés pour permettre une lecture transersale.

Quelques essais

Après quelques essais. Il semble que l'algorithme basé sur les tags est plus pertinent que celui basé sur les titres. Bien qu'il y ait quelques exception.

Le titre est parfois trompeur. L'algorithme voit un similarité entre "geek barbu" et "barbare" ... c'est pas top !

Mais pour tout ce qui commence par "recette..." ça fonctionne bien.

Pr contre l'algorithme de basé sur les tags est plus lent. Il a fallu 3 minutes de calcul pour afficher la liste des 5 articles les plus proche des 285 documents existants.

Il faut donc éviter de lancer le script trop souvent ! Mais en fait, tant qu'aucun tag n'a bougé, le classement ne change pas.

L'idée est donc de stocker la liste des articles similaires directement dans la table du document. Puis rafraichir le classement de temps en temps.

la créativité des bugs

22 décembre 201025 février 2019

La créativité des bugs informatiques

Parfois les bugs informatiques créent de jolies choses.

Voici un petit exemple d'un bug de l'atlas de la suisse en 3d qui affiche comme texture les fenêtres de ouvertes sur mon mac plutôt que les photos aériennes de la suisse romande.

C'était en octobre 2004, avant l'ère de google earth !

En juin 2011, un autre bug graphique mélange mes fenêtres dans une mosaïque quand je veux lancer l'application de planétatirum: stellarium.

En août 2010, un aperçu d'icone semble avoir quelques doubles...

Janvier 2011, parfois il y a des conjonctions de quelques noms de fichiers qui donnent des choses étranges...

Voici quand iTunes veux télécharger des oiseaux morts...

Ceci s'explique par le téléchargment par iTunes d'un podcast à propos des étranges vagues d'oiseaux morts retrouvés en janvier 2011...

En semptembre 2008, j'ai eu la chance de voir le texte de mon terminal se désintégrer.....

Chocolat versus fitness

C'est bientôt Noël, la fête de tous les excès. Qu'est ce qui est particulièrement populaire à Noël ?

...... le chocolat !

C'est en tout cas ce que montre le graphe que j'ai fait ici à droite.

Sur ce graphe, on observe que le chocolat a un pic d'intérêt chaque année en décembre.

Puis, cette nourriture des dieux tombe dans l'oubli au mois de juillet.

(Nourriture des dieux est la traduction littérale de Teobroma cacao, le nom du cacaoyer.)

D'après quelle statistique j'ai fait ce graphe ?

D'après les statistiques de recherche effectuée sur le moteur de recherche Google !

Eh, oui, quand quelqu'un s'intéresse à un sujet, il est de plus en plus courant qu'il googelise sa recherche.

Le moteur de recherche google est donc devenu une immense base de donnée de l'intérêt des internautes à un moment donné.

Dans son immense bonté (:P), google nous met à disposition un outil qui permet d'effectuer quelques recherches sur la popularité d'un terme et ainsi en ressortir les tendances du moment. Il s'agit de l'outil: http://google.com/trends

C'est ainsi que pour créer le graphe ci-dessus, j'ai extrait les données de la popularité de recherche du mot chocolat en suisse ce dernières années. Après un petit tour dans openOffice pour faire le graphe je peux vous le présenter.

Avec cet outil, il est également possible de faire des comparaisons de popularité de plusieurs mots. C'est ainsi que j'ai comparé le mot chocolat avec le mot fitness.

Chocolat vs fitness

C'est là que j'ai découvert qu'il y a une corrélation entre la consommation de chocolat et les inscriptions aux fitness !

On voit nettement en comparant les graphes, que décembre est le pic d'intéret pour le chocolat et que juste après, janvier a le pic d'intérêt pour le fitness.

Voilà d'où viennent les bonnes résolutions de janvier !

Google trends pour traquer les événements périodiques

Google trends peut être utilisé pour trouver les dates des événements périodiques.

On peut observer les phénomènes comme les phases de la lune, les vendredi 13, ou les éclipses !

Il faut croire qu'à chaque vendredi 13, il y a un nombre énorme de gens qui recherchent des infos sur ce qui peut leur arriver un vendredi 13 !

Répondre à des questions existentielles

Il est possible de répondre à des questions sociologiques existentielles:

Quand est ce que les gens achètent des sacs à dos ??

On lance une recherche sur la marque très connue eastpak.... et c'est parti..

On observe que les gens achètent des sacs à dos eastpak à la fin de l'été.. donc à la rentrée scolaire... et juste avant la fin de l'année.. donc pour les cadeaux de Noël !

Observer les phénomènes de mode

Google trends est un excellent outil pour observer les phénomènes de mode. Par exemple le phénomène sudoku. On observe que le sudoku est arrivé début 2005, qu'il a rapidement eu beaucoup de succès avec une apogée à la fin de l'année 2005, et depuis les recherches s'effritent.

Pourquoi ? soit par ce que tout le monde sait ce qu'est un sudoku et ne fait plus de recherche à ce propos, soit par ce que la mode passe...

Ainsi on peut observer le succès de l'iPhone relancé à chaque sortie d'un nouveau modèle, la déconfiture du monde virtuel second life, la désertion de myspace, au profit de facebook....

Traquer la grippe avec google trends

Que font en premier de nombreuses personnes qui commencent à tomber malade d'un mal inconnu ?

.... Ces personnes font une recherche sur google des symptômes de la maladie !!

C'est ainsi que bien souvent, google est au courant, avant les hôpitaux et les médecins, des trainées de virus qui se propagent dans une population.

C'est fort de ce constat que google a mis en place un service pour traquer le virus de la grippe: http://www.google.org/flutrends

Sur la carte ci-contre, on peut voir la progression de la grippe en suisse, en décembre 2010.

Si l'on compare avec les années précédentes, il y a de grandes chances de voir la grippe arriver dans nos contrées d'ici 2-3 semaines... donc restez sur vos gardes !

1 2 3 … 5 6 7 8 9 10 11 … 19 20 21