Déviation standard et variance sont des mesures statistiques de la dispersion des données, c’est-à-dire qu’elles représentent l’ampleur de la variation par rapport à la moyenne ou la mesure dans laquelle les valeurs "s'écartent" généralement de la moyenne (moyenne). Une variance ou un écart type de zéro indique que toutes les valeurs sont identiques.
La variance est la moyenne des carrés des écarts (c’est-à-dire la différence entre les valeurs et la moyenne), et l’écart type est la racine carrée de cette variance. L'écart-type est utilisé pour identifier les valeurs aberrantes dans les données..
Déviation standard | Variance | |
---|---|---|
Formule mathématique | Racine carrée de la variance | Moyenne des carrés des écarts de chaque valeur par rapport à la moyenne dans un échantillon. |
symbole | Lettre grecque sigma - σ | Aucun symbole dédié; exprimé en termes d'écart type ou d'autres valeurs. |
Valeurs par rapport à un ensemble de données donné | Même échelle que les valeurs de l'ensemble de données donné; donc, exprimé dans les mêmes unités. | Échelle supérieure aux valeurs de l'ensemble de données donné; non exprimés dans la même unité que les valeurs elles-mêmes. |
Les valeurs sont-elles négatives ou positives?? | Toujours non négatif | Toujours non négatif |
Application dans le monde réel | Échantillonnage de population; identifier les valeurs aberrantes | Formules statistiques, finance. |
La formule pour l'écart type et la variance est souvent exprimée à l'aide de:
La variance d'un ensemble de n Les valeurs également probables peuvent être écrites comme suit:
L'écart-type est la racine carrée de la variance:
Les formules avec des lettres grecques peuvent sembler décourageantes, mais cela est moins compliqué qu'il n'y paraît. Pour le mettre en étapes simples:
Cela donne la variance. Prendre la racine carrée de la variance pour trouver l'écart type.
Cette excellente vidéo de Khan Academy explique les concepts de variance et de déviation standard:
Disons qu'un ensemble de données comprend la hauteur de six pissenlits: 3 pouces, 4 pouces, 5 pouces, 4 pouces, 11 pouces et 6 pouces.
Commencez par trouver la moyenne des points de données: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Donc, la hauteur moyenne est de 5,5 pouces. Maintenant que nous avons besoin des écarts, nous trouvons la différence de chaque plante par rapport à la moyenne: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Maintenant, corrigez chaque écart et trouvez leur somme: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Divisez maintenant la somme des carrés par le nombre de points de données, dans ce cas les plantes: 43,5 / 6 = 7,25
La variance de cet ensemble de données est donc de 7,25, ce qui est un nombre assez arbitraire. Pour le convertir en mesure réelle, prenez la racine carrée de 7,25 pour trouver l’écart type en pouces..
L'écart-type est d'environ 2,69 pouces. Cela signifie que pour l'échantillon, tout pissenlit à moins de 2,69 pouces de la moyenne (5,5 pouces) est «normal».
Les écarts sont cadrés pour empêcher les valeurs négatives (écarts inférieurs à la moyenne) d’annuler les valeurs positives. Cela fonctionne car un nombre négatif au carré devient une valeur positive. Si vous aviez un jeu de données simple avec des écarts par rapport à la moyenne de +5, +2, -1 et -6, la somme des écarts sera nulle si les valeurs ne sont pas cadrées (c.-à-d. 5 + 2 - 1 - 6 = 0).
La variance est exprimée sous forme de dispersion mathématique. Comme il s'agit d'un nombre arbitraire par rapport aux mesures d'origine de l'ensemble de données, il est difficile de visualiser et d'appliquer le sens réel. La recherche de la variance n'est généralement que la dernière étape avant de trouver l'écart type. Les valeurs de variance sont parfois utilisées dans les formules financières et statistiques.
L'écart type, qui est exprimé dans les unités d'origine de l'ensemble de données, est beaucoup plus intuitif et plus proche des valeurs de l'ensemble de données d'origine. Il est le plus souvent utilisé pour analyser des données démographiques ou des échantillons de population afin de se faire une idée de ce qui est normal dans la population..
Dans une distribution normale, environ 68% de la population (ou des valeurs) se situe dans un écart-type (1σ) de la moyenne et environ 94% se situe dans une plage de 2σ. Les valeurs qui diffèrent de la moyenne d'au moins 1,7σ sont généralement considérées comme des valeurs aberrantes..
En pratique, les systèmes qualité tels que Six Sigma tentent de réduire le taux d'erreurs afin que les erreurs deviennent une valeur aberrante. Le terme "processus en six sigma" vient de la notion que si l'on a six écarts-types entre la moyenne du processus et la limite de spécification la plus proche, pratiquement aucun élément ne manquera de respecter les spécifications.[1]
Dans les applications réelles, les ensembles de données utilisés représentent généralement des échantillons de population, plutôt que des populations entières. Une formule légèrement modifiée est utilisée si des conclusions partielles sur un échantillon partiel doivent être tirées.
Un "écart-type d'échantillon" est utilisé si vous ne disposez que d'un échantillon, mais que vous souhaitez indiquer l'état de l'écart-type de population à partir duquel l'échantillon est tiré.
La seule différence entre la formule d'écart type et la formule d'écart type est le «-1» dans le dénominateur.
En utilisant l'exemple du pissenlit, cette formule serait nécessaire si nous n'avions échantillonné que 6 pissenlits, mais nous voulions utiliser cet échantillon pour énoncer l'écart type du champ entier avec des centaines de pissenlits..
La somme des carrés serait maintenant divisée par 5 au lieu de 6 (n - 1), ce qui donne une variance de 8,7 (au lieu de 7,25) et un écart-type d'échantillon de 2,95 pouces, au lieu de 2,69 pouces pour l'écart-type d'origine. Ce changement est utilisé pour trouver une marge d'erreur dans un échantillon (9% dans ce cas).