article sur le Exploration de données, Explication sur le Exploration de données

Exploration de données Article, Signification, Explication

     

L'exploration de données, ou data mining, tente d'extraire du savoir implicite à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.

Ces données peuvent être stockées dans un entrepôt de données (datawarehouse), mais peuvent aussi être récupérées de sources riches comme internet. Lorsque la source n'est pas directement un entrepôt de données, une première phase consiste à rapatrier les données brutes et à les stocker localement sous forme d'une base de données. On structure alors habituellement les données de l'entrepôt sous forme d'un hypercube OLAP. Des algorithmes dits d'intelligence artificielle (il s'agit en fait de détecteurs de corrélations, et de classifieurs automatiques) sont ensuite utilisés pour trouver des schémas intéressants selon des critères fixés au départ.

Table of contents
1 Différence avec l'approche statistique
2 Anecdote
3 Voir aussi

Différence avec l'approche statistique

Le data mining a une approche très différente de la méthode statistique : cette dernière exige en effet qu'on se fixe une hypothèse, que les données vont confirmer ou non. Rien de tel avec la data mining, qui au contraire va faire émerger à partir des données brutes des hypothèses que souvent l'expérimentateur ne soupçonne même pas.

Un exemple souvent cité est le suivant : si on baisse le prix du Coca-Cola de 5%, on va par exemple en augmenter les ventes de 15%, ce que l'on savait sans data mining. Mais le data mining révèle l'élement inattendu (bien qu'évident a posteriori) que les ventes des cacachuètes vont augmenter d'une proportion voisine (sans doute suite à l'association d'idées : « Tiens, je vais profiter de cette baisse du Coca pour faire un pot; il me faut donc aussi des cacahuètes »; le data mining ne fait pas d'hypothèse sur le sujet). Si la marge sur le Coca-Cola est relativement faible, et celle sur les cacachuètes importantes, la conclusion s'en tire d'elle-même : baisser le prix du Coca-Cola est un moyen de vendre des cacahuètes. Par le côté quasi-déterministe qu'elle présente du comportement du consommateur, cette approche provoque quelques réticences. Mais elle fonctionne. Ou, au moins, elle se vend.

Anecdote

Les premiers essais de data mining se firent historiquement sur des dépouillements de millions de tickets de caisse de supermarché tels que mémorisés par les caisses enregistreuses. Leur premier résultat aurait été qu'avec une corrélation très forte les clients qui achetaient des couches pour bébés achetaient également des pots de nourriture pour bébés. D'autres analyses, en particulier d'indices précurseurs de modification des habitudes d'achat, se montrèrent d'un plus grand intérêt dans la pratique.

Voir aussi


C'est un article concernant le Exploration de données. La page contient la signification du Exploration de données , Description et explication au sujet de Exploration de données

recherche quelque chose