Déviation standard vs variance

Déviation standard et variance sont des mesures statistiques de la dispersion des données, c’est-à-dire qu’elles représentent l’ampleur de la variation par rapport à la moyenne ou la mesure dans laquelle les valeurs "s'écartent" généralement de la moyenne (moyenne). Une variance ou un écart type de zéro indique que toutes les valeurs sont identiques.

La variance est la moyenne des carrés des écarts (c’est-à-dire la différence entre les valeurs et la moyenne), et l’écart type est la racine carrée de cette variance. L'écart-type est utilisé pour identifier les valeurs aberrantes dans les données..

Tableau de comparaison

Tableau de comparaison écart type / variance
Déviation standardVariance
Formule mathématique Racine carrée de la variance Moyenne des carrés des écarts de chaque valeur par rapport à la moyenne dans un échantillon.
symbole Lettre grecque sigma - σ Aucun symbole dédié; exprimé en termes d'écart type ou d'autres valeurs.
Valeurs par rapport à un ensemble de données donné Même échelle que les valeurs de l'ensemble de données donné; donc, exprimé dans les mêmes unités. Échelle supérieure aux valeurs de l'ensemble de données donné; non exprimés dans la même unité que les valeurs elles-mêmes.
Les valeurs sont-elles négatives ou positives?? Toujours non négatif Toujours non négatif
Application dans le monde réel Échantillonnage de population; identifier les valeurs aberrantes Formules statistiques, finance.

Contenu: écart type et variance

  • 1 concepts importants
  • 2 symboles
  • 3 formules
  • 4 exemple
    • 4.1 Pourquoi carré les déviations?
  • 5 applications du monde réel
    • 5.1 Trouver des valeurs aberrantes
  • 6 échantillons d'écart-type
  • 7 références

Concepts importants

  • Signifier: la moyenne de toutes les valeurs d'un ensemble de données (additionnez toutes les valeurs et divisez leur somme par le nombre de valeurs).
  • Déviation: la distance de chaque valeur à la moyenne. Si la moyenne est 3, une valeur de 5 a un écart de 2 (soustrayez la moyenne de la valeur). La déviation peut être positive ou négative.

Symboles

La formule pour l'écart type et la variance est souvent exprimée à l'aide de:

  • x̅ = la moyenne ou la moyenne de tous les points de données du problème
  • X = un point de données individuel
  • N = le nombre de points dans le jeu de données
  • ∑ = la somme des [carrés des déviations]

Formules

La variance d'un ensemble de n Les valeurs également probables peuvent être écrites comme suit:

L'écart-type est la racine carrée de la variance:

Les formules avec des lettres grecques peuvent sembler décourageantes, mais cela est moins compliqué qu'il n'y paraît. Pour le mettre en étapes simples:

  1. trouver la moyenne de tous les points de données
  2. savoir à quelle distance chaque point est éloigné de la moyenne (il s'agit de l'écart)
  3. carré chaque écart (c'est-à-dire la différence de chaque valeur par rapport à la moyenne)
  4. diviser la somme des carrés par le nombre de points.

Cela donne la variance. Prendre la racine carrée de la variance pour trouver l'écart type.

Cette excellente vidéo de Khan Academy explique les concepts de variance et de déviation standard:

Exemple

Disons qu'un ensemble de données comprend la hauteur de six pissenlits: 3 pouces, 4 pouces, 5 pouces, 4 pouces, 11 pouces et 6 pouces.

Commencez par trouver la moyenne des points de données: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Donc, la hauteur moyenne est de 5,5 pouces. Maintenant que nous avons besoin des écarts, nous trouvons la différence de chaque plante par rapport à la moyenne: -2,5, -1,5, -,5, -1,5, 5,5, 1,5

Maintenant, corrigez chaque écart et trouvez leur somme: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5

Divisez maintenant la somme des carrés par le nombre de points de données, dans ce cas les plantes: 43,5 / 6 = 7,25

La variance de cet ensemble de données est donc de 7,25, ce qui est un nombre assez arbitraire. Pour le convertir en mesure réelle, prenez la racine carrée de 7,25 pour trouver l’écart type en pouces..

L'écart-type est d'environ 2,69 pouces. Cela signifie que pour l'échantillon, tout pissenlit à moins de 2,69 pouces de la moyenne (5,5 pouces) est «normal».

Pourquoi carré les déviations?

Les écarts sont cadrés pour empêcher les valeurs négatives (écarts inférieurs à la moyenne) d’annuler les valeurs positives. Cela fonctionne car un nombre négatif au carré devient une valeur positive. Si vous aviez un jeu de données simple avec des écarts par rapport à la moyenne de +5, +2, -1 et -6, la somme des écarts sera nulle si les valeurs ne sont pas cadrées (c.-à-d. 5 + 2 - 1 - 6 = 0).

Applications du monde réel

La variance est exprimée sous forme de dispersion mathématique. Comme il s'agit d'un nombre arbitraire par rapport aux mesures d'origine de l'ensemble de données, il est difficile de visualiser et d'appliquer le sens réel. La recherche de la variance n'est généralement que la dernière étape avant de trouver l'écart type. Les valeurs de variance sont parfois utilisées dans les formules financières et statistiques.

L'écart type, qui est exprimé dans les unités d'origine de l'ensemble de données, est beaucoup plus intuitif et plus proche des valeurs de l'ensemble de données d'origine. Il est le plus souvent utilisé pour analyser des données démographiques ou des échantillons de population afin de se faire une idée de ce qui est normal dans la population..

Trouver des valeurs aberrantes

Une distribution normale (courbe de Bell) avec des bandes correspondant à 1σ

Dans une distribution normale, environ 68% de la population (ou des valeurs) se situe dans un écart-type (1σ) de la moyenne et environ 94% se situe dans une plage de 2σ. Les valeurs qui diffèrent de la moyenne d'au moins 1,7σ sont généralement considérées comme des valeurs aberrantes..

En pratique, les systèmes qualité tels que Six Sigma tentent de réduire le taux d'erreurs afin que les erreurs deviennent une valeur aberrante. Le terme "processus en six sigma" vient de la notion que si l'on a six écarts-types entre la moyenne du processus et la limite de spécification la plus proche, pratiquement aucun élément ne manquera de respecter les spécifications.[1]

Exemple de déviation standard

Dans les applications réelles, les ensembles de données utilisés représentent généralement des échantillons de population, plutôt que des populations entières. Une formule légèrement modifiée est utilisée si des conclusions partielles sur un échantillon partiel doivent être tirées.

Un "écart-type d'échantillon" est utilisé si vous ne disposez que d'un échantillon, mais que vous souhaitez indiquer l'état de l'écart-type de population à partir duquel l'échantillon est tiré.

La seule différence entre la formule d'écart type et la formule d'écart type est le «-1» dans le dénominateur.

En utilisant l'exemple du pissenlit, cette formule serait nécessaire si nous n'avions échantillonné que 6 pissenlits, mais nous voulions utiliser cet échantillon pour énoncer l'écart type du champ entier avec des centaines de pissenlits..

La somme des carrés serait maintenant divisée par 5 au lieu de 6 (n - 1), ce qui donne une variance de 8,7 (au lieu de 7,25) et un écart-type d'échantillon de 2,95 pouces, au lieu de 2,69 pouces pour l'écart-type d'origine. Ce changement est utilisé pour trouver une marge d'erreur dans un échantillon (9% dans ce cas).

Références

  • Exemple simple de calcul de l'écart type - AppSpot
  • Formules d'écart type - Math est amusant
  • Déviation absolue et variance - Laerd Statistiques
  • Écart type et variance - Math est amusant
  • Wikipedia: écart type
  • Wikipedia: Variance # Propriétés
  • Plage, variance et écart type comme mesures de la dispersion - Académie Khan
  • Modes, médians et moyens: une perspective unificatrice