Fantomas’side

Weblog open-source

Analyse hiérarchique par le contenu

Je suis actuellement en train de lire un livre sur les différents types d'intelligences dîtes collectives. C'est à dire l'analyse de données représentant les choix, ou les comportement de plusieurs personnes, et comment en extraire des vérités globales.

Une des première applications à laquelle je me suis attaqué à été de construire un Feed Clusterer en Python, servant à effectuer des regroupements par pertinences entre différents sites web.

Comment ca marche ?

Tout site web qui se respect propose un service de Flux RSS ou Atom, résumant les dernières actualités publiées sur le site. L'idée est d'en récupérer le contenu et d'en extraire une liste de mot pertinents.

En calculant le coefficient de Pearson en me basant sur les fréquences de mots comme vecteur, je peux en constituer des groupes et les classer de façon hiérarchique.

Pour visualiser cela, il suffit ensuite de tracer un dendogramme. Un dendogramme va représenter les groupes et la distance entre chaque groupes sur un ensemble de branches. Comme le montre l'image de l'article.

Ceci reste une expérience à petite échelle, mais imaginons maintenant toutes les données que récoltent les gros site web, en particulier ceux à vocations sociales, comme FaceBook, Twitter, MySpace, et n'oublions pas certains moteurs de recherches qui avec leurs dizaines de services sont capables de tracer toutes nos habitudes.

Je ne rentrerais pas dans le détails de toutes les applications inimaginables avec ces données pour tracer les gens, mais de plus avec l'internet mobile, on fournit une nouvelle donnée, c'est à dire le lieu et donc les conditions dans lesquelles on est quand on décide d'acheter un livre sur Amazon.

Marketing ciblé, ou Big Brother ? Où est la différence ?
A titre personnel, je pense que la différence se fera quand on mettra à profit les intelligences collectives au services de l'intelligence humaine, et non à son asservissement, commercial ou autre.

Donc pour finir j'ai décidé de programmer une application Django mettant à l'ouvrage cette étude, qui servira à proposer une navigation différente sur le site. Bientôt la release. :)