Exploration de données Article, Signification, Explication
L'exploration de données, ou data mining, tente d'extraire du savoir implicite à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
Ces données peuvent être stockées dans un entrepôt de données (datawarehouse), mais peuvent aussi être récupérées de sources riches comme internet. Lorsque la source n'est pas directement un entrepôt de données, une première phase consiste à rapatrier les données brutes et à les stocker localement sous forme d'une base de données. On structure alors habituellement les données de l'entrepôt sous forme d'un hypercube OLAP. Des algorithmes dits d'intelligence artificielle (il s'agit en fait de détecteurs de corrélations, et de classifieurs automatiques) sont ensuite utilisés pour trouver des schémas intéressants selon des critères fixés au départ.
| Table of contents |
|
2 Anecdote 3 Voir aussi |
Le data mining a une approche très différente de la méthode statistique : cette dernière exige en effet qu'on se fixe une hypothèse, que les données vont confirmer ou non. Rien de tel avec la data mining, qui au contraire va faire émerger à partir des données brutes des hypothèses que souvent l'expérimentateur ne soupçonne même pas.
Un exemple souvent cité est le suivant : si on baisse le prix du Coca-Cola de 5%, on va par exemple en augmenter les ventes de 15%, ce que l'on savait sans data mining. Mais le data mining révèle l'élement inattendu (bien qu'évident a posteriori) que les ventes des cacachuètes vont augmenter d'une proportion voisine (sans doute suite à l'association d'idées : « Tiens, je vais profiter de cette baisse du Coca pour faire un pot; il me faut donc aussi des cacahuètes »; le data mining ne fait pas d'hypothèse sur le sujet). Si la marge sur le Coca-Cola est relativement faible, et celle sur les cacachuètes importantes, la conclusion s'en tire d'elle-même : baisser le prix du Coca-Cola est un moyen de vendre des cacahuètes. Par le côté quasi-déterministe qu'elle présente du comportement du consommateur, cette approche provoque quelques réticences. Mais elle fonctionne. Ou, au moins, elle se vend.Différence avec l'approche statistique
