article sur le Analyse de la variance, Explication sur le Analyse de la variance

Analyse de la variance Article, Signification, Explication

=Introduction Ă  l'ANOVA=

Table of contents
1 Définition
2 Principe

Définition

Contrairement à ce que laisse penser son nom, l'analyse de la variance n'est pas une méthode qui permet d'étudier les différences de variances entre populations. Il s'agit non pas de s'intéresser à un paramètre de dispersion (variance, ou écart type), mais à un paramètre de position (en l'occurrence, la moyenne), en se basant sur des tests qui font appel à des comparaisons de variances entre populations.

Il s'agit par conséquent d'une généralisation à k populations du classique test de comparaison de moyennes de deux échantillons : le célèbre test de T.

L'hypothèse est : les moyennes des différents groupes sont égales, i.e.

Principe

Idée générale

L'idée de l'analyse de la variance repose sur un modèle qu'on se donne a priori des données. On suppose ainsi, par exemple, qu'une variable mesurée vérifie la relation suivante :

avec :

  • α un paramètre commun Ă  toutes les observations, c’est-Ă -dire une ordonnĂ©e Ă  l'origine (dont on pourra tester Ă©ventuellement la nullitĂ© plus tard)
  • k variables explicatives
  • ε reprĂ©sente la variabilitĂ© alĂ©atoire du modèle, non contrĂ´lable.

On s'attache ensuite à l'étude de la variance de ces différents termes dans une décomposition justement dite de « l'analyse de la variance ».

Il est important de comprendre que l'ANOVA n'est pas un test permettant de « classer » des moyennes par exemple. Le but ici est beaucoup plus « humble », il s'agit de comparer des moyennes de différents groupes et de dire si, parmi l'ensemble, au moins une d'entre elles diffère des autres, mais on ne sait pas laquelle ni combien d'entre elles. Déterminer quel groupe a un effet différentiel, c’est-à-dire quel groupe présente une moyenne de la variable étudiée différente des autres, est un problème tout à fait différent. Il peut se poser après une ANOVA et les tests associés sont dits « tests de comparaison multiples », ou MCP pour Multiple Comparison Test. Ces tests obligent en général à augmenter les risques de l'analyse (en terme de risque statistique).

Première approche technique

Cette décomposition est intuitive mais permet de mettre en place tout le schéma de l'ANOVA. On la présente ici pour une ANOVA à un facteur contrôlé (c’est-à-dire qu'on a un seul groupe discriminant dans lequel « ranger » nos valeurs).

Il s'agit en pratique de décomposer la variabilité selon (au moins) deux critères :

  • VariabilitĂ© non expliquĂ©e, ou rĂ©siduelle, entre un terme estimĂ© et la vraie valeur mesurĂ©e, qu'on appellera , pour la variance rĂ©siduelle
  • VariabilitĂ© expliquĂ©e par le modèle, c’est-Ă -dire la diffĂ©rence entre l'estimation de moyenne d'une classe et la moyenne totale des observations, qu'on appellera , pour la variance du au facteur A
À partir de cette définition, on va comparer les espérances des variances et en faisant leur rapport. Il se trouve (comme on peut le voir dans la décomposition mathématique, voir plus loin) que les deux termes sont tous les deux une estimation de la variabilité résiduelle si le facteur A n'a pas d'effet. De plus, ces deux termes suivent chacun une loi de khi-deux, leur rapport suit donc une loi de F (voir plus loin pour les degrés de liberté de ces lois). Résumons :
  • Si le facteur A n'a pas d'effet, le rapport de et suit une loi de F et il est possible de vĂ©rifier si la valeur du rapport est « Ă©tonnante » pour une loi de F
  • Si le facteur A a un effet, le terme n'est plus une estimation de la variabilitĂ© rĂ©siduelle et la rapport ne suit plus une loi de F. On peut comparer la valeur du rapport Ă  la valeur attendue pour une loi de F et voir, lĂ  aussi, Ă  quel point le rĂ©sultat est « Ă©tonnant ».
Résumer les choses ainsi permet de clarifier l'idée mais renverse la démarche : on obtient en pratique une valeur du rapport qu'on compare à une loi de F, en se donnant un risque α (voir l'article sur les tests et leurs risques). Si la valeur obtenue est trop grande, on en déduit que le rapport ne suit vraisemblablement pas une loi de F et que le facteur A a un effet. On conclue donc à une différence des moyennes.

Un exemple concret

Imaginons qu'on mesure par exemple la production journalière de lait de vaches. Les différentes vaches peuvent être rangées dans différents groupes selon leur race. On se pose la question suivante : la production de lait d'une vache dépend-elle de la race de ladite vache ?

Pour répondre à cette question, l'ANOVA est la plus appropriée (à partir du moment où on a plus de deux races, sinon on se contentera du test de T).

Le facteur A sera donc la race de la vache et on va chercher à vérifier s'il y a des différences de moyenne entre les différents groupes.

Pour résumer le principe de l'ANOVA, on va comparer la variabilité entre :

  • la moyenne d'un groupe moins la moyenne gĂ©nĂ©rale de toutes les vaches, c'est le terme
  • la production d'une vache donnĂ©e moins la production moyenne du groupe, c'est le terme

=Décomposition mathématique=

C'est un article concernant le Analyse de la variance. La page contient la signification du Analyse de la variance , Description et explication au sujet de Analyse de la variance

recherche quelque chose