Rassembler et calculer des données statistiques pour acquérir la moyenne est souvent un processus long et fastidieux. Le test t et l'analyse de variance unidirectionnelle (ANOVA) sont les deux tests les plus couramment utilisés à cette fin..
Le test t est un test d'hypothèse statistique dans lequel la statistique de test suit la distribution t de Student si l'hypothèse nulle est supportée. Ce test est appliqué lorsque la statistique de test suit une distribution normale et que la valeur d'un terme de mise à l'échelle dans la statistique de test est connue. Si le terme de mise à l'échelle est inconnu, il est alors remplacé par une estimation basée sur les données disponibles. La statistique de test suivra la distribution t de Student.
William Sealy Gosset a introduit la statistique t en 1908. Gosset était un chimiste pour la brasserie Guinness à Dublin, en Irlande. La brasserie Guinness avait pour politique de recruter les meilleurs diplômés d’Oxford et de Cambridge, en choisissant parmi ceux qui pourraient fournir des applications de la biochimie et des statistiques aux processus industriels établis de la société. William Sealy Gosset était l'un de ces diplômés. Ce faisant, William Sealy Gosset a mis au point le test t, qui avait été initialement envisagé comme un moyen de contrôler la qualité de la bière brune (la bière brune produite par la brasserie) de manière rentable. Gosset a publié le test sous le nom de pseudonyme "Student" dans Biometrika, vers 1908. La raison de ce pseudonyme était l'insistance de Guinness, l'entreprise souhaitant conserver sa politique d'utilisation des statistiques dans le cadre de ses "secrets commerciaux"..
Les statistiques de test t prennent généralement la forme T = Z / s, où Z et s sont des fonctions des données. La variable Z est conçue pour être sensible à l'hypothèse alternative; effectivement, la grandeur de la variable Z est plus grande lorsque l'hypothèse alternative est vraie. Dans l'intervalle, 's' est un paramètre d'échelle permettant de déterminer la distribution de T. Les hypothèses sur lesquelles repose le test t sont les suivantes: a) Z suit une distribution normale standard sous l'hypothèse nulle; b) ps2 suit une distribution Ï ‡ 2 avec p degrés de liberté sous l'hypothèse nulle (où p est une constante positive); et c) la valeur Z et la valeur s sont indépendantes. Dans un type spécifique de test t, ces conditions sont des conséquences de la population étudiée, ainsi que de la manière dont les données sont échantillonnées..
En revanche, l’analyse de variance (ANOVA) est un ensemble de modèles statistiques. Les chercheurs et les statisticiens utilisent depuis longtemps les principes de l'ANOVA, mais ce n'est qu'en 1918 que Sir Ronald Fisher a formulé une proposition visant à officialiser l'analyse de la variance dans un article intitulé "La corrélation entre parents sur la supposition d'un héritage mendélien". . Depuis lors, le champ d'application et l'application de l'ANOVA ont été élargis. L’ANOVA est en fait un abus de langage, car elle ne découle pas des différences de variance mais plutôt des différences entre les moyennes des groupes. Il inclut les procédures associées dans lesquelles la variance observée dans une variable particulière est divisée en composants attribuables à différentes sources de variation..
Une ANOVA fournit essentiellement un test statistique permettant de déterminer si les moyennes de plusieurs groupes sont égales et, en conséquence, de généraliser le test t à plus de deux groupes. Une ANOVA peut être plus utile qu'un test t à deux échantillons car elle a moins de chance de commettre une erreur de type I. Par exemple, avoir plusieurs tests t sur deux échantillons aurait plus de chance de commettre une erreur qu'une ANOVA des mêmes variables impliquées pour obtenir la moyenne. Le modèle est le même et la statistique de test est le ratio F. En termes plus simples, les tests t ne sont qu'un cas particulier d'ANOVA: faire une ANOVA aura le même résultat que plusieurs tests t. Il existe trois classes de modèles d'analyse de variance: a) Les modèles à effets fixes qui supposent que les données proviennent de populations normales, ne différant que par leurs moyennes; b) Les modèles à effets aléatoires supposant que les données décrivent une hiérarchie de populations variées dont les différences sont contraintes par la hiérarchie; et, c) Modèles à effets mixtes qui sont des situations dans lesquelles les effets fixes et aléatoires sont présents.