StatEL : Test d'analyse de variance (ANOVA) pour séries indépendantes
 
Cette commande de StatEL lance le test de comparaison des moyennes (d'un paramètre) issues de groupes de sujets différents.

Exemple : on dispose d'un médicament (déjà éprouvé) pour soigner une pathologie et on souhaite connaître l'efficacité de 2 nouvelles molécules par rapport à ce médicament. On répartit donc un échantillonnage de sujets dans 3 groupes différents, de façon aléatoire, puis on attribue à chaque groupe l'une des 3 molécules à tester (pour éviter tout biais, il conviendrait d'effectuer ce protocole en double aveugle, c'est à dire que ni les sujets, ni les expérimentateurs ne savent quel sujet prend quelle molécule, seul le statisticien étant en mesure de connaitre ces informations). On mesure ensuite un paramètre quantitatif pertinent (c'est à dire censé être influencé par la prise des molécules testées) chez tous les sujets de ces 3 groupes, ce qui nous conduit à disposer de 3 séries de mesures dont on peut calculer les moyennes. L'objectif de l'Anova est de comparer les moyennes des 3 séries de mesure afin de savoir si les différences entre les 3 moyennes sont significatives (c'est à dire liées à l'influence des différents traitements subis par les 3 groupes) ou simplement dûs au fait du hasard.

1 - Principes de l'analyse de variance pour séries indépendantes :

On dispose de plusieurs échantillons (K>2) dont les moyennes (mi, mj, ...) et les variances (s²i, s²j, ...) sont des estimateurs des moyennes (µi, µj, ...) et variances (θ²i, θ²j, ...) des populations d'où sont issus les échantillons. La question posée est : si mi, mj, ... sont différents (ce qui est facile à vérifier), en est-il de même pour µi, µj, ... ?

  • Hypothèse nulle : "H0 : µi = µj = ..."
  • Hypothèse alternative : "H1 : il existe au moins une moyenne différente des autres"


Si les moyennes µi, µj, ... ne sont pas toutes identiques, leurs estimations mi, mj, ... différeront également. Le test consiste donc à calculer la dispersion des moyennes calculées. L'Anova, ou Analyse de la Variance, repose sur le rapport de 2 estimations de la variance du paramètre mesuré :

  • la première est la variance entre populations, ou variance inter-colonnes, qui exprime la variabilité des mesures d'une colonne à l'autre, c'est à dire la variabilité liée aux traitement subis par chaque groupe,
  • la seconde est la variance résiduelle, ou variance intra-colonne, qui exprime la variabilité des mesures dans une colonne, c'est à dire la variabilité liée aux différences entre les sujets (statistiquement, l'influence de cette différence sur la mesure sera la même quel que soit le groupe).



Ainsi, quand le rapport Variance entre Colonnes / Variance Résiduelle dépasse une certaine limite, c'est que la variabilité est plus grande d'une colonne à l'autre que dans une même colonne, c'est à dire que la variabilité liée au traitement est supérieure à celle liée aux sujets.


  • On définit :
    • ni = nombre de mesures de la colonne i, N = nombre total de mesures
    • Ti = somme des mesures de la colonne i, Tg = total général des mesures (somme des Ti).
    • K = nombre d'échantillons, nombre de colonnes

    • Calcul de la variance inter-traitements ou inter-colonnes :

    formule variance factorielle anova

    • Calcul de la variance résiduelle ou intra-colonnes :

    formule variance résiduelle anova


    • Le rapport des 2 suit une loi F de Fisher sous l'hypothèse nulle, il est comparé à la valeur limite fournie par la table de Fisher pour (K - 1) et (N - K) ddl, au seuil de 5% d'erreur :

    formule anova

    • Conditions d'utilisation du test (vérifiées automatiquement par StatEL) :
      • Distribution normale des échantillons
      • Homogénéité des variances


    Au terme du test d'Anova, l'utilitaire StatEL recourt à des tests a posteriori afin de préciser les conclusions de l'Anova si celles-ci révèlent que l'un au moins des groupes se distingue des autres. En effet, dans un tel cas, l'Anova ne permet pas de détecter quelle(s) moyenne(s) est (sont) différente(s) des autres.


    2 - Lancement du test d'analyse de variance pour séries indépendantes :


    StatEL vous demande d'abord de préciser le nombre de groupes que vous souhaitez comparer. Puis, vous devez sélectionner successivement les plages de cellules correspondant aux mesures relatives à chacun des groupes de données. Cette boîte de sélection sera affichée autant de fois que le nombre de groupes de données à étudier. Pour procéder à la sélection, il vous suffit de cliquer sur la première cellule de la série de données et de faire glisser la souris jusqu'à la dernière valeur.

    Nota bene : afin d'identifier au mieux les différents groupes de mesures, la première cellule de chaque série doit impérativement contenir le nom du groupe. Ce nom servira d'entête aux groupes étudiés sur la feuille des résultats.


    Ensuite, dans le cas où le calcul a effectivement détecté une différence significative entre les moyennes des différents groupes, une boîte de dialogue vous propose de pratiquer 5 tests a posteriori. Vous êtes libre de choisir parmi

    • le test de Fisher accompagné des corrections de Bonferroni et de Sidak,
    • le test HSD de Tuckey,
    • le test de Student, Newman & Keuls,
    • le test de Ryan,
    • le test de Dunnett particulier à la situation où un groupe sert de témoin parmi ceux étudiés, dans ce cas, StatEL attendra que vous ayez sélectioné le nom de celui-ci dans la liste déroulante avant d'exécuter les tests à pratiquer.

    anova test posteriori Fisher Bonferroni Sidak Tuckey HSD Dunnett Student Newman Keuls Ryan REGW

    Une fois le choix du témoin effectué, il vous suffit de le valider en cliquant sur "OK".



    3 - Résultats du test d'analyse de variance pour séries indépendantes :

    Le résultat du test d'analyse de variance apparaît sur une nouvelle feuille de votre classeur Excel :

    • Sur la partie gauche de la feuille sont affichés, sous forme de tableau, les données sélectionnées.

    • Sur la partie droite de la feuille sont affichés les tableaux des moyennes, écart-types et les résultats des calculs intermédiaires, ainsi que les conclusions du test. En cas de résultat permettant de rejeter significativement l'hypothèse H0, c'est à dire si le test conclue qu'une moyenne au moins se distingue significativement des autres, les conclusions ainsi que la probabilité d'erreur sont écrites en rouge.

    • En cas de non respect des conditions d'utilisation de l'ANOVA, cela vous est signalé en rouge, de même il vous est indiqué le nom du test non-paramétrique analogue au test d'ANOVA que vous pouvez utiliser.

    anova


    Dans l'exemple présenté, le logiciel StatEL explique clairement qu'il existe au moins une moyenne qui diffère significativement des autres, et que le risque de se tromper est inférieur à 0,0053.

    Il est notamment précisé à l'utilisateur que les conditions d'utilisation de ce test sont respectées (conditions vérifiées par StatEL de façon transparente à l'utilisateur) ; il peut donc se fier à la conclusion présentée.

    • Les tests a posteriori sont présentés à la suite des conclusions sur l'Anova, à condition que plus de 2 groupes aient été étudiés.

    anova test posteriori Fisher Bonferroni Sidak Tuckey HSD Dunnett Student Newman Keuls Ryan REGW

    Dans l'exemple présenté, le logiciel StatEL explique clairement que vis à vis du médicament témoin, seuls les sujets à qui on a administré la molécule N°1 présentent une moyenne significativement différente, avec risque de se tromper inférieur à 0,01 (cf. Test de Dunnett).

    Les autres tests a posteriori détectent également que le groupe "Témoin" diffère significativement du groupe "Mol. 1", lequel diffère également du groupe "Mol. 2". Cela permet de procéder au regroupement des moyennes du groupe témoin et du groupe "Mol. 2" (non significativement différentes), distinctes de la moyenne du groupe "Mol. 1".


    Des graphiques en "Boîte à Moustaches" viennent automatiquement illustrer ces résultats :

    anova boite moustache

     

    Société ad Science - 46, Rue Marx Dormoy, 75018 Paris