Différence entre la variance de l'échantillon et la variance de la population

Explication

Dans Statistiques, le terme échantillonnage désigne la sélection d’une partie des données statistiques agrégées dans le but d’obtenir des informations pertinentes sur l’ensemble. L'ensemble ou l'ensemble des informations statistiques sur un caractère particulier de tous les membres couverts par l'enquête est appelé "population" ou "univers". (Das, N.G., 2010). La partie sélectionnée de la population qui est utilisée pour obtenir les caractéristiques de la population ou de l’univers est appelée «échantillon». On suppose que la population est constituée d’unités ou de membres individuels et que certaines des unités sont incluses dans l’échantillon. Le nombre total d'unités de la population est appelé taille de la population et celui de l'échantillon est appelé taille de l'échantillon. La population et l'échantillon peuvent être finis ou infinis et, de la même manière, ils peuvent être existants ou hypothétiques..

Variance: La variance est une valeur numérique qui indique dans quelle mesure les chiffres individuels d'un ensemble de données se distribuent autour de la moyenne. C'est à quelle distance chaque nombre est de la moyenne, et donc l'un de l'autre. Un écart de valeur zéro signifie que toutes les données sont identiques. Plus la variance est grande, plus les valeurs sont réparties autour de la moyenne, donc entre elles. Moins la variance est grande, moins les valeurs sont réparties autour de la moyenne, donc entre elles, et la variance ne peut être négative.

Différence entre la variance de la population et la variance de l'échantillon

La principale différence entre la variance de la population et la variance de l'échantillon est liée au calcul de la variance. La variance est calculée en cinq étapes. On calcule d'abord la moyenne, puis on calcule les écarts par rapport à la moyenne, et troisièmement, les écarts sont carrés, ensuite, on additionne les écarts carrés et enfin, on divise cette somme par le nombre d'items pour lesquels la variance est calculée. Ainsi, la variance = Σ (xi-x -) / n. Où xi = ith. Nombre, x- = moyenne et n = nombre d'éléments…

Maintenant, lorsque la variance doit être calculée à partir de données de population, n est égal au nombre d'éléments. Ainsi, si la variance de la pression artérielle de toutes les personnes sur 1000 doit être calculée à partir des données relatives à la pression artérielle de toutes les personnes, alors n = 1 000. Toutefois, lorsque la variance est calculée à partir des données de l’échantillon, il convient de déduire de n avant de diviser le résultat. somme des déviations au carré. Ainsi, dans l'exemple ci-dessus, si les données de l'échantillon comportent 100 éléments, le dénominateur serait 100 - 1 = 99..

Pour cette raison, la valeur de la variance calculée à partir des données de l'échantillon est supérieure à la valeur qui aurait pu être trouvée en utilisant des données de population. La logique consiste à compenser notre manque d’information sur les données démographiques. Il est impossible de découvrir la variance des hauteurs chez les êtres humains, car nous manquons absolument d'informations sur les hauteurs de tous les êtres humains vivants, sans parler de l'avenir. Même si nous prenons un exemple modéré, comme les données de population sur les hauteurs de tous les hommes en vie aux États-Unis, cela est physiquement possible, mais le coût et le temps que cela implique vont à l’encontre du but de son calcul. C'est la raison pour laquelle des échantillons de données sont utilisés pour la plupart des objectifs statistiques, ce qui s'accompagne d'un manque d'informations sur la majorité des données. Pour compenser cela, la valeur de la variance et de l'écart type, qui est la racine carrée de la variance, sont plus élevées dans le cas des données de l'échantillon que la variance des données de population..

Cela agit comme un bouclier automatique pour les analystes et les décideurs. La logique s'applique aux décisions relatives à la budgétisation des immobilisations, aux finances personnelles et commerciales, à la construction, à la gestion du trafic et à de nombreux domaines applicables. Cela aide le preneur à prendre des risques en prenant sa décision ou en tirant d'autres conclusions..

Résumé: La variance de la population fait référence à la valeur de la variance calculée à partir des données de population et la variance de l'échantillon est la variance calculée à partir des données de l'échantillon. En raison de cette valeur de dénominateur dans la formule pour la variance dans le cas d'échantillons de données, la valeur est «n-1» et «n» pour les données de population. En conséquence, la variance et l’écart type dérivés des données de l’échantillon sont supérieurs à ceux obtenus à partir des données de population..