Analyse hiérarchique par le contenu

Posté par fantomas, le 14 décembre 2008 sous Développement Expériences

DendogrammeJe suis actuellement en train de lire un livre sur les différents types d'intelligences dîtes collectives.
C'est à dire l'analyse de données représentant les choix, ou les comportement de plusieurs personnes, et comment en extraire des vérités globales.

Une des première applications à laquelle je me suis attaqué à été de construire un Feed Clusterer en Python, servant à effectuer des regroupements par pertinences entre différents sites web.

Comment ca marche ?

Tout site web qui se respect propose un service de Flux RSS ou Atom, résumant les dernières actualités publiées sur le site. L'idée est d'en récupérer le contenu et d'en extraire une liste de mot pertinents.

En calculant le coefficient de Pearson en me basant sur les fréquences de mots comme vecteur, je peux en constituer des groupes et les classer de façon hiérarchique.

Pour visualiser cela, il suffit ensuite de tracer un dendogramme. Un dendogramme va représenter les groupes et la distance entre chaque groupes sur un ensemble de branches. Comme le montre l'image de l'article.

Ceci reste une expérience à petite échelle, mais imaginons maintenant toutes les données que récoltent les gros site web, en particulier ceux à vocations sociales, comme FaceBook, Twitter, MySpace, et n'oublions pas certains moteurs de recherches qui avec leurs dizaines de services sont capables de tracer toutes nos habitudes.

Je ne rentrerais pas dans le détails de toutes les applications inimaginables avec ces données pour tracer les gens, mais de plus avec l'internet mobile, on fournit une nouvelle donnée, c'est à dire le lieu et donc les conditions dans lesquelles on est quand on décide d'acheter un livre sur Amazon.

Marketing ciblé, ou Big Brother ? Où est la différence ?
A titre personnel, je pense que la différence se fera quand on mettra à profit les intelligences collectives au services de l'intelligence humaine, et non à son asservissement, commercial ou autre.

Donc pour finir j'ai décidé de programmer une application Django mettant à l'ouvrage cette étude, qui servira à proposer une navigation différente sur le site.
Bientôt la release. :)

Partager : intelligence python robot
Flux RSS des commentaires 5 Commentaires
  1. david

    ton bouquin, ne serait-ce pas:
    Programming Collective Intelligence: Building Smart Web 2.0 Applications ?

    comptes-tu release()r Feed Clusterer ?
    je t'y encourage. un yahoo pipes en python, ça déchire !

    pour le coéf de pearson, il y a cette librairie:
    http://code.google.com/p/python-statlib/wiki/StatsDoc

  2. Fantomas
    http://fantomas.willbreak.it/

    Oui effectivement david, c bien ce bouquin que je suis en train de lire.

    Releaser FeedClusterer, pourquoi pas. En fait j'avais un peu abandonner l'idée. Mais je vais suivre tes conseils.

    Merci pour le lien aussi, je vais aller y faire un tour.

  3. david

    dans ce cas tu dois sans doute connaître cette app django:
    http://code.google.com/p/django-recommender/

    happy new year !

  4. Fantomas
    http://fantomas.willbreak.it/

    Merci pour ton lien très intéressant.

    Il reprend certaines features que j'ai mis sur mon module ClusteredModels mais en plus poussé.

    J'ai bien fais de pas me prendre plus la tête. :)

    Pour la release de FeedClusterer, je m'en occupe dès ce soir.

  5. david

    cool pour FeedClusterer, tu comptes le mettre sur google code ou autre ?

Poster un commentaire

Micro Blogging

Suivez mon actu sur Twitter.com...

Référencement

Quelques liens recommandés chaudement...

Last.fm

Ce que j'écoute actuellement...