algorithme de promotion d’article similaire

Algorithme de promotion d'article

L'idée est de faire la promotion sur un article d'autres articles qui peuvent également intéresser le visiteur.

Il existe de nombreuses manières de faire de la promotion d'article, étudions un peu ce qu'il existe.

La nouveauté et la popularité

D'une manière générale, la plupart des gens s'intéressent à ce qui est nouveau et ce qui est populaire.

C'est exactement ce prinicpe que l'on retrouve sur la page d'accueil de facebook. Ce qui est populaire est mis en avant suivant les interactions qu'il y a eu autour d'un objet en particulier. Plus il y a de like, plus il y a de commentaire, plus l'objet sera mis en avant. (mais difficile de déceler quel est exactement l'algorithme utilisé.)

L'algorithme de PageRank de google est également une manière de mesurer la popularité d'un objet. Plus il y a de liens qui pointent sur un objet, plus cet objet sera populaire. Par effet de cascade, un site pointé par des site populaire sera plus populaire qu'un site pointée par le même nombre de site, mais moins populaire.

La nouveauté, c'est le principe qui est utilisé par tous les blog et les site avec des news. On place les articles par ordre chornologique inverse. Ainsi, il est possible de lire en premier les articles les plus récents.

Ce principe est également exploité par les flux atom et rss. Nous sommes notifié de la nouveauté.

Les articles similaires

La popularité d'un article est défnie par des interactions autour de l'objet. La nouveauté est effémère. Quel autre moyen utiliser quand on a peu d'interaction autour d'un objet ?

L'idée est d'utiliser la promotion d'article en proposant des articles similaires. Si un visiteur s'intéresse à un article, il va probablement aussi s'intéresser à un article similaire.

C'est l'idée qui est largement exploitée par le magasin en ligne Amazon.  Pour chaque article, le site propose d'autres articles. Le principe est simple. Ceux qui ont acheté cet article ont également acheté ceci....

Le fonctionnement de cet alogrithme redoutable de Amazon est fait à l'aide d'algorithmes item to item ou slope one.

On parle de l'approche par cosinus ou de similarité de Tanimoto, pour mesurer la similarité entre des vecteurs.

Le système de recommandation d'Amazon est le coeur du magasin. C'est ce qui assure qu'un client vu acheter un article reparte avec 3 articles !

Cet algorithme de similarité est basé sur des interactions des clients.

Quand on toujours que peu d'interaction comment faire pour évaluer la similarité ?

Implémentation d'un alogorithme de similarité basé sur le contenu

Il y a quelques idées qui sont données dans cet article.

Si l'on se base sur le contenu d'un article pour trouver les articles similaires, il y a un grande quantité de données à analyser et ce ne sont pas focrément des données pertinentes.

Une idées est d'utiliser un système de tag associé à un article. Là on sait déjà que les quelques tags utilisés sont pertinent.

L'idée de base toute simple est déjà d'afficher les tags liés à chaque article. En cliquant sur le tag, on obtient la liste des articles qui sont liés.

Le perfectionnement de ce principe est de calculer la similarité des tags associés à des articles pour construire une carte des articles similaires. La fonction php similar_text permet de calculer la similarité entre des chaines de caractères.

Sur le même principe, on peut utiliser le titre d'un document pour calculer les similarités entre les articles.

En pratique

En pratique, il faut fournir le plus de possibilités différentes pour naviguer dans des articles. Ces derniers temps sur facebook on remarque que c'est exactement cette politique qui est mise en place. Il y a toujours plus "d'objet similaires" ou potentiellement intéressants qui sont proposés. Il y a les photos de ses amis, il y les personnes que vous connaissez potentiellement.

Donc ici, le but est d'avoir plusieurs entrées:

  • les articles les plus populaires (il faut ajouter un compteur et un champ pour stocker la valeur)
  • les articles les plus récents
  • les articles les plus commentés (il faut ajouter un champ qui stock dans la table du document le nombre de commentaires)
  • articles les mieux notés. (il faut mettre en place un système de notation.. c'est assez partial... et lourd)
  • propositon des articles similaire par titre et par tags. A voir le plus pertinent
  • Les tags de chaque articles sont affichés pour permettre une lecture transersale.

Quelques essais

Après quelques essais. Il semble que l'algorithme basé sur les tags est plus pertinent que celui basé sur les titres. Bien qu'il y ait quelques exception.

Le titre est parfois trompeur. L'algorithme voit un similarité entre "geek barbu" et "barbare" ... c'est pas top !

Mais pour tout ce qui commence par "recette..." ça fonctionne bien.

Pr contre l'algorithme de basé sur les tags est plus lent. Il a fallu 3 minutes de calcul pour afficher la liste des 5 articles les plus proche des 285 documents existants.

Il faut donc éviter de lancer le script trop souvent ! Mais en fait, tant qu'aucun tag n'a bougé, le classement ne change pas.

L'idée est donc de stocker la liste des articles similaires directement dans la table du document. Puis rafraichir le classement de temps en temps.

Avant-Maintenant La place Alexis-Marie Piaget

On continue dans la série de comparaisons Avant-Maintenant avec une photo de la place Alexis-Marie Piaget

La première photo a été prise vers 1900 par Victor Attinger et la seconde en 2009 par moi-même.

Place Alexis-Marie Piaget à Neuchâtel vers 1900 et en 2009.jpg

Vous pouvez retrouver toutes les photos de cette série dans la galerie des photos avant-maintenant.

Comme ça m'avait déjà frappé à la vue de l'avenue du premier mars il y a 100 ans, la ville était vide ! Il y avait beaucoup de grands espaces comme cette place vide. On se demande à quoi ça pouvait bien servir ? A accueillir les carrousels comme c'est le cas, actuellement, chaque année à la fête des vendanges ?

En tout cas, c'est frappant de voir la place que prend la voiture dans notre société actuelle !

Sinon, sur cette photo, vous pouvez voir l'Office de photographie Attinger. L'endroit même où ces photos du début du 20ème siècle on été retrouvées en 1984 alors qu'on les croyait détruites !

La maison abrite actuellement le cinéma studio qui n'est d'autre que le descendant du "Home cinéma" du photographe Victor Attinger !

En effet, il semble que c'est là que vers 1915 Victor Attinger a ouvert une cinémathèque pour tester cette nouvelle technologie qu'était le cinéma. Certaines projections attiraient tellement de monde que la police a parfois du intervenir pour disperser les badauds !

... ça contraste avec mon expérience de mardi dernier où je suis allé dans ce cinéma voir l'excellent film, Le nom des gens. Cinq minutes avant le début de la projection j'étais tout seul dans le cinéma !!

Heureusement, j'ai été rejoint tout de suite après par un douzaine de personnes.

Erreur sur la une du quotidien gratuit 20 minutes

Ce matin, le quotidien gratuit 20 minutes a réussi à ruser pour arriver jusqu'à moi....

Comme je ne le lis jamais, mais que je me permet parfois de le critiquer... j'ai fait l'effort de parcourir un peu ce "journal" pour voir si la qualité s'était améliorée....

Conclusion: ce n'est pas le cas. Ce "journal" est toujours aussi affligeant !

Coquille sur deux lignes

Je vais m'expliquer sur les raisons qui font que je déteste ce "journal", mais tout d'abord voici une petite coquille rigolote qui montre tout de suite l'attention que les journalistes du 20 minutes portent à leur journal...

Voici une photo de l'édition du 31 décembre 2007...

coquille 20 minutes édition 31 décembre 2007.jpg

Si l'on observe un peu plus en détail du côté des deux jolies filles, que peut ont remarquer ?

coquille 20 minutes titre sur deux lignes.jpgIl est écrit:

Titre sur
deux lignes

Mais quel étrange titre !!

Ceci ressemble bien au texte par défaut de la maquette de la une !

Personne n'a pensé à remplacer le titre par défaut par un vrai titre ! Ce qui me fait dire que les journalistes du 20 minutes ne relisent même pas la une de leur "journal" !

Un nouveau support publicitaire

Cette coquille ne m'étonne pas. Quand à moi je ne considère pas le 20 minutes comme un journal, mais plutôt comme un nouveau support publicitaire !tv.png

En effet, un jour un pro du marketing a été obligé de prendre les transports publics au lieu de sa grosse voiture. Il a découvert une foule de personnes semblant ne rien faire en attendant que leur bus, train, tram arrive. Puis, hormis regarer le paysage, pendant le voyage, de nombreuses personnes semblent ne rien faire .

En observant ces comportements, notre ami pro du marketing et vendeur de temps de cerveau patenté s'est dit qu'il y avait là un bon créneau à exploiter pour vendre du temps de cerveau disponible !

Après une petite étude, il a été montré qu'en moyenne les pendulaires "s'ennuyent" pendant environ 20 minutes dans les transports publics.

Parfait ! Voilà 20 minutes de temps de cerveau disponible à vendre sous forme de publicité ! Le concept du quotidien gratuit est né !  (20 minutes est né en décembre 1999 à Zürich avant d'essaimer dans le vaste monde.)

Le concept de vente de temps de cerveau humain disponible est tiré d'une citation de Patrick Le Lay, l'ex-PDG de la chaine de TV TF1 qui expliquait son métier: vendre du temps de cerveau disponible. Divertir pour mieux faire passer le message publicitaire !

Responsable d'une culture de l'insécurité

Si l'on comprend bien le concept du quotidien gratuit comme nouveau support publicitaire, on comprend aisément que le contenu informationnel n'as que peut d'importance dans un tel journal.

Si l'on compare la presse quotidienne gratuite avec d'autres quotidiens, on remarque d'ailleurs que la quantité de publicité est nettement différentes. On trouve par exemple, ~20% de publicité dans le contenu du quotidiens Le Temps, et ~ 45% de publicité dans le contenu du 20 minutes.

L'effet colatéral de ce support publicitaire est de ne véhiculer que de l'information de remplissage et de l'information accrocheuse. Les sujets de prédilections de la presse quotidiennes gratuites, sont le sexe, les faits divers, les people et le programme TV.

En lisant le 20 minutes et tous les faits divers morbides que l'on y trouve, j'ai toujours l'impression que le monde est fou. Il y a un telle concentration de faits divers qui est faite que je commence à croire que c'est la réalité du monde.

Clue_Guns_Pack.pngEn lisant le 20 minutes, je commence à penser que forcément mon voisin du dessous est un pédophile, que le concierge de mon immeuble détient sa femmes coupée en morceau dans son congélateur, que la voisine de pallier mange tous les chats du quartier..... (c'était ça cette odeur bizarre ??), le p'tit d'jeune du rez de chaussée détient tout un arsenal d'armes dans sa cave et quantité d'autres faits divers du genre doivent exister juste à côté de chez moi !

La lecture de ce "journal" crée une réalité biaisée du monde. La lecture de ce journal augmente le sentiment d'insécurité !

...et après on s'étonne de voir que les gens se sentent moins en sécurité alors que la criminalité est en baisse depuis plus de 20 ans dans nos contrées !

Pour étayer mes propos, voici un résumé des sujets que j'ai trouvé dans l'édition d'aujourd'hui (20 janvier 2011) du 20 minutes:

La une:

  • Les prostituées zurichoises devront louer leur trottoir
  • Un trésor entre les seins: L'actrice Christina Hendriks a failli perdre un bijou vallant une fortune prêté par un joillier genevois.

Quelques titres en vrac...

  • Si les prostituées zurichoises devront louer les trottoirs, les mendiants lausannois pourront continuer de mendier.
  • Un dévoreur de chat sévit à Wholen en argovie. 20 chats ont disparu avant noël.
  • Entre lundi et mardi 7 autos ont été volées à Lausanne.
  • Erection à haut risque. Attention au produit "hard night", ce n'est pas à base de plante comme indiqué.
  • Mort en roulant à contrens
  • Bolide désintégré suite à une série de tonneaux
  • Il découvre une grenade à la cave.
  • L'âne aveugle "Noldi" pourrait être piqué !
  • une fillette de 9 ans se suicide, elle ne supportait plus son diabète.
  • un avion à du atterir en urgence aux Açores, un passagé de 22 ans est mort d'une surdose de cocaine.
  • Traire les vaches la nuit guérit les insomnies.
  • Il est possible d'acheter une assurance annulation de mariage dans 317 kiosque de suisse allemande.
  • En chine, les ordinateurs portables sont plus utilisés que les ordis fixes pour surfer sur le web.
  • Playboy prêt pour l'iPad
  • Deux americains coffré pour avoir dérobé 120 000 courriels et numéros d'identifiants iPad.
  • La première photo du fils d'Orlando Blum est disponible.
  • La cacahuète dans le slip ! Justin bieber en a une petite !
  • Kate Middleton fait un régime pour préparer son mariage.
  • La lingerie se dévoile et mélange les genres.
  • Le froid se renforcera ces prochains jours. Il fera -1 degré seulement samedi après-midi !

Sexe, mort, accidents, étrangetés, banalité et people... Panem et circenses...

La femme objet

une du matin bleu le 8 mars 2007, journée de la femme.jpgComme pour tout bon support publicitaire qui se respecte, la femme ne doit pas avoir une autre place que celle de la femme objet !

Régulièrement en tournant les pages d'un quotidien gratuit, on retrouve des photos de femmes dénudées. C'est pour maintenir l'attention du lecteur mâle !

Un excellent exemple de la vision de la femme par les quotidiens gratuits est la une du défunt Matin Bleu du 8 mars 2007, le jour de la journée de la femme. La une titre: La parole aux lectrices ! Ainsi que: Les Pussycat Dolls recrutent ! Ceci agrémenté d'une photo des filles de ce groupe de musique surtout connu pour la plastique de ses membres plutôt que pour sa musique !

Voici donc le modèle à suivre pour toutes les jeunes filles qui est prôné par la presse quotidienne gratuite !

Pour aller plus loin dans l'étude de la presse quotidienne gratuite, je recommande la lecture de plusieurs études qui ont été réalisées par des étudiant(e)s du défunt institut de journalisme de l'université de Neuchâtel.

Pour aller plus loin dans la compréhension de la publicité, voici en pdf (12Mo) une présentation que j'ai utilisé lors de mon cours à propos de la décroissance.

Navigation au sein des articles

1 2 3 105 106 107 108 109 110 111 181 182 183
Remonter