Wszechnica Wszechwiedzy - Baner

Estymacja wariancji i odchylenia standardowego — przedział ufności i rozkład chi-kwadrat

Estymacja wariancji i odchylenia standardowego pozwala ocenić, jak bardzo zróżnicowane są wartości badanej cechy w całej populacji. W artykule omawiamy estymatory punktowe wariancji i odchylenia standardowego, dokładny przedział ufności oparty na rozkładzie chi-kwadrat oraz przybliżony model dla dużej próby.

Średnia odpowiada na pytanie, jaki poziom zjawiska jest przeciętny. Nie mówi jednak, czy większość obserwacji skupia się blisko tej wartości, czy też dane są bardzo rozproszone. Do opisu zróżnicowania służą przede wszystkim wariancja i odchylenie standardowe.

W statystyce opisowej obliczamy te miary dla posiadanych danych. W statystyce matematycznej stawiamy pytanie szersze: jak na podstawie próby oszacować rzeczywistą wariancję i odchylenie standardowe całej populacji oraz jak określić niepewność takiego oszacowania?

Co estymujemy?

Niech \(X\) oznacza badaną cechę w populacji. Jej wariancję oznaczamy przez:

\[ \sigma^2 = Var(X) \]

Odchylenie standardowe populacji jest pierwiastkiem z wariancji:

\[ \sigma=\sqrt{\sigma^2} \]

Wariancja \(\sigma^2\) jest wyrażana w jednostkach podniesionych do kwadratu. Jeżeli badamy wzrost w centymetrach, wariancja jest wyrażana w \(\text{cm}^2\). Odchylenie standardowe \(\sigma\) ma natomiast tę samą jednostkę co badana cecha, dlatego zwykle jest łatwiejsze do praktycznej interpretacji.

W badaniu dysponujemy jednak tylko próbą:

\[ X_1,X_2,\ldots,X_n \]

Na jej podstawie chcemy oszacować nieznane parametry \(\sigma^2\) oraz \(\sigma\).

Estymacja punktowa wariancji i odchylenia standardowego

Najpierw obliczamy średnią z próby:

\[ \overline{X}= \frac{1}{n}\sum_{i=1}^{n}X_i \]

Następnie mierzymy przeciętną wielkość kwadratowych odchyleń obserwacji od średniej. W praktyce spotyka się dwa blisko związane wzory na wariancję z próby.

Wariancja z mianownikiem n

\[ s_n^2= \frac{1}{n} \sum_{i=1}^{n} \left(X_i-\overline{X}\right)^2 \]

W modelu normalnym \(s_n^2\) jest estymatorem największej wiarygodności wariancji populacji. Jest jednak obciążony w dół.

Wariancja skorygowana z mianownikiem n − 1

\[ S^2= \frac{1}{n-1} \sum_{i=1}^{n} \left(X_i-\overline{X}\right)^2 \]

Wariancję \(S^2\) nazywa się często wariancją skorygowaną albo nieobciążoną wariancją z próby. Jej pierwiastek:

\[ S=\sqrt{S^2} \]

jest standardowym estymatorem odchylenia standardowego populacji.

Wariancja z mianownikiem n i n − 1

Różnica między \(n\) i \(n-1\) nie jest jedynie kosmetyczna. Średnia populacji jest nieznana i zastępujemy ją średnią z próby. Powoduje to utratę jednego stopnia swobody.

Między obiema wersjami wariancji zachodzi zależność:

\[ S^2= \frac{n}{n-1}s_n^2 \]

W konsekwencji:

\[ (n-1)S^2=ns_n^2 \]

Ta równość jest bardzo wygodna przy przedziałach ufności. Można stosować wzory zapisane przez \(S^2\) albo przez \(s_n^2\), pod warunkiem że zachowamy właściwy licznik.

Praktyczna zasada

Jeżeli wariancję obliczono z mianownikiem \(n-1\), we wzorach na przedział ufności używamy \((n-1)S^2\). Jeżeli podano wariancję z mianownikiem \(n\), używamy \(ns_n^2\). Obie postacie są równoważne.

Własności estymatorów wariancji i odchylenia standardowego

Zakładając, że populacja ma wariancję \(\sigma^2\), dla wariancji z mianownikiem \(n\) zachodzi:

\[ E(s_n^2) = \frac{n-1}{n}\sigma^2 \]

Oznacza to, że \(s_n^2\) przeciętnie zaniża wariancję populacji. Jego obciążenie wynosi:

\[ B(s_n^2) = E(s_n^2)-\sigma^2 = -\frac{\sigma^2}{n} \]

Dla wariancji skorygowanej zachodzi natomiast:

\[ E(S^2)=\sigma^2 \]

Wariancja \(S^2\) jest więc nieobciążonym estymatorem wariancji populacji.

Warto jednak zachować ścisłość terminologiczną. Pierwiastek \(S\) nie jest dokładnie nieobciążonym estymatorem odchylenia standardowego \(\sigma\). W praktyce \(S\) jest mimo to powszechnie stosowany, ponieważ jest prosty, intuicyjny i zgodny.

Zgodność oznacza, że wraz ze wzrostem liczebności próby estymatory zbliżają się do rzeczywistych parametrów populacji:

\[ S^2\xrightarrow{P}\sigma^2 \]
\[ S\xrightarrow{P}\sigma \]

W dużych próbach różnica między stosowaniem \(n\) i \(n-1\) stopniowo maleje. Nie oznacza to jednak, że w małych próbach można ją ignorować.

Dlaczego przedział dla wariancji i odchylenia standardowego to to samo zagadnienie?

Wariancja i odchylenie standardowe są ze sobą jednoznacznie powiązane:

\[ \sigma=\sqrt{\sigma^2} \]

Jeżeli wyznaczymy przedział ufności dla wariancji:

\[ L_{\sigma^2} \leq \sigma^2 \leq U_{\sigma^2} \]

to przedział ufności dla odchylenia standardowego otrzymujemy przez spierwiastkowanie obu krańców:

\[ \sqrt{L_{\sigma^2}} \leq \sigma \leq \sqrt{U_{\sigma^2}} \]

W drugą stronę działa to równie prosto. Jeżeli mamy przedział dla odchylenia standardowego, wystarczy podnieść jego nieujemne krańce do kwadratu, aby uzyskać przedział dla wariancji.

W obu przypadkach przedziały są zwykle niesymetryczne. Nie mają postaci „oszacowanie plus-minus stały margines błędu”, jak często dzieje się przy estymacji średniej.

Dlaczego nie ma modelu ze znaną wariancją?

Przy estymacji średniej można spotkać model, w którym odchylenie standardowe populacji \(\sigma\) jest znane. Wtedy nie znamy średniej \(\mu\), ale znamy wielkość opisującą rozproszenie danych.

Przy estymacji wariancji sytuacja wygląda inaczej. Gdyby \(\sigma^2\) lub \(\sigma\) były znane, nie byłoby czego estymować. Odpowiedź byłaby już dana.

Formalnie można powiedzieć, że przedział ufności dla znanego parametru byłby jednoelementowy:

\[ [\sigma^2,\sigma^2] \]

Taki przedział ma pełne pokrycie, ale nie wynika z procedury statystycznej. Jest po prostu zapisem znanej informacji.

Model dokładny: przedział ufności oparty na rozkładzie chi-kwadrat

Klasyczny, dokładny przedział ufności dla wariancji opiera się na rozkładzie chi-kwadrat. Wymaga założenia, że badana populacja ma rozkład normalny:

\[ X\sim N(\mu,\sigma^2) \]

Wtedy statystyka:

\[ Q= \frac{(n-1)S^2}{\sigma^2} = \frac{ns_n^2}{\sigma^2} \]

ma rozkład chi-kwadrat o \(n-1\) stopniach swobody:

\[ Q\sim\chi^2_{n-1} \]

W dalszych wzorach symbol \(\chi^2_{p;\nu}\) oznacza kwantyl rzędu \(p\) rozkładu chi-kwadrat o \(\nu\) stopniach swobody, czyli wartość spełniającą warunek:

\[ P\left(\chi^2_{\nu}\leq\chi^2_{p;\nu}\right)=p \]

Dla współczynnika ufności \(1-\alpha\) przedział ufności dla wariancji populacji ma postać:

\[ \left( \frac{(n-1)S^2} {\chi^2_{1-\alpha/2;n-1}}, \; \frac{(n-1)S^2} {\chi^2_{\alpha/2;n-1}} \right) \]

Równoważnie, jeżeli dysponujemy wariancją z mianownikiem \(n\), zapisujemy:

\[ \left( \frac{ns_n^2} {\chi^2_{1-\alpha/2;n-1}}, \; \frac{ns_n^2} {\chi^2_{\alpha/2;n-1}} \right) \]

Po spierwiastkowaniu krańców otrzymujemy przedział ufności dla odchylenia standardowego:

\[ \left( \sqrt{ \frac{(n-1)S^2} {\chi^2_{1-\alpha/2;n-1}} }, \; \sqrt{ \frac{(n-1)S^2} {\chi^2_{\alpha/2;n-1}} } \right) \]

Wartości krytyczne można odczytać z tablicy rozkładu chi-kwadrat i kalkulatora.

Mała próba a wzór dokładny

W wielu zadaniach dydaktycznych model chi-kwadrat jest przedstawiany jako model dla małej próby, na przykład \(n<50\). Matematycznie wzór ten pozostaje jednak dokładny także dla dużej próby, pod warunkiem że populacja ma rozkład normalny.

Granica 50 jest więc wygodną konwencją stosowaną w niektórych materiałach dydaktycznych, a nie uniwersalnym prawem statystyki.

Model przybliżony: duża próba

W części podręczników dla próby dużej, zwykle przyjmowanej jako \(n\geq50\), stosuje się przybliżenie normalne rozkładu chi-kwadrat. Nadal zakładamy przy tym, że populacja ma rozkład normalny.

Jeżeli \(Q\sim\chi^2_{n-1}\), to dla dużej liczby stopni swobody można wykorzystać przybliżenie:

\[ \sqrt{2Q} \approx N\left(\sqrt{2n-3},1\right) \]

Po przekształceniu otrzymujemy przybliżony przedział ufności dla wariancji:

\[ \left( \frac{2(n-1)S^2} {\left(\sqrt{2n-3}+u_{1-\alpha/2}\right)^2}, \; \frac{2(n-1)S^2} {\left(\sqrt{2n-3}-u_{1-\alpha/2}\right)^2} \right) \]

Symbol \(u_{1-\alpha/2}\) oznacza kwantyl rzędu \(1-\alpha/2\) standaryzowanego rozkładu normalnego. Dla współczynnika ufności 95% jego wartość wynosi około \(1{,}96\).

Przedział dla odchylenia standardowego ma w tym modelu postać:

\[ \left( \frac{S\sqrt{2(n-1)}} {\sqrt{2n-3}+u_{1-\alpha/2}}, \; \frac{S\sqrt{2(n-1)}} {\sqrt{2n-3}-u_{1-\alpha/2}} \right) \]

Wartość \(u_{1-\alpha/2}\) można odczytać z tablicy rozkładu normalnego i kalkulatora.

Duża próba nie usuwa automatycznie problemu normalności

Przy estymacji średniej duża próba pozwala często korzystać z centralnego twierdzenia granicznego nawet wtedy, gdy populacja nie jest normalna. Dla wariancji sytuacja jest trudniejsza.

Klasyczny przedział chi-kwadrat oraz przedstawione przybliżenie normalne wynikają z założenia normalności populacji. Sama liczebność \(n\geq50\) nie zamienia automatycznie dowolnego rozkładu danych w model bezpieczny dla estymacji wariancji.

Dlaczego normalność populacji jest ważna?

Rozkład chi-kwadrat pojawia się w estymacji wariancji dlatego, że w populacji normalnej odpowiednio przeskalowana wariancja z próby ma dokładnie znany rozkład.

Przy silnej asymetrii, ciężkich ogonach rozkładu lub licznych obserwacjach odstających klasyczny przedział chi-kwadrat może mieć rzeczywiste pokrycie inne niż deklarowany poziom ufności.

Dla populacji o dowolnym rozkładzie można wprawdzie badać asymptotyczny rozkład wariancji z próby, ale zależy on od czwartego momentu centralnego populacji:

\[ \sqrt{n} \left(S^2-\sigma^2\right) \xrightarrow{d} N\left(0,\mu_4-\sigma^4\right) \]

gdzie \(\mu_4=E[(X-\mu)^4]\). To pokazuje, dlaczego nie istnieje jeden prosty, uniwersalny wzór dla wariancji w populacji o całkowicie dowolnym rozkładzie.

W zastosowaniach praktycznych przy wyraźnych odstępstwach od normalności rozważa się między innymi metody bootstrapowe albo bardziej odporne procedury estymacyjne.

Przykład: przedział ufności dla wariancji i odchylenia standardowego

W losowej próbie liczącej \(n=16\) obserwacji otrzymano skorygowaną wariancję z próby:

\[ S^2=144 \]

Stąd odchylenie standardowe z próby wynosi:

\[ S=\sqrt{144}=12 \]

Zakładamy, że populacja ma rozkład normalny. Wyznaczymy 90-procentowy przedział ufności dla wariancji i odchylenia standardowego.

Krok 1. Poziom ufności i stopnie swobody

\[ 1-\alpha=0{,}90 \]
\[ \alpha=0{,}10 \]
\[ \nu=n-1=15 \]

Krok 2. Wartości krytyczne rozkładu chi-kwadrat

Dla \(\nu=15\) stopni swobody odczytujemy:

\[ \chi^2_{0{,}95;15}\approx24{,}996 \]
\[ \chi^2_{0{,}05;15}\approx7{,}261 \]

Krok 3. Przedział ufności dla wariancji

\[ \left( \frac{15\cdot144}{24{,}996}, \; \frac{15\cdot144}{7{,}261} \right) \]
\[ (86{,}41;\;297{,}48) \]

Otrzymujemy 90-procentowy przedział ufności dla wariancji populacji:

\[ 86{,}41 \leq \sigma^2 \leq 297{,}48 \]

Krok 4. Przedział ufności dla odchylenia standardowego

Spierwiastkowujemy oba krańce przedziału dla wariancji:

\[ \left( \sqrt{86{,}41}, \; \sqrt{297{,}48} \right) \]
\[ (9{,}30;\;17{,}25) \]

Otrzymujemy 90-procentowy przedział ufności dla odchylenia standardowego populacji:

\[ 9{,}30 \leq \sigma \leq 17{,}25 \]

Widać wyraźnie, że przedział jest niesymetryczny względem punktowego oszacowania \(S=12\). Jest to naturalna konsekwencja zastosowania rozkładu chi-kwadrat.

Najczęstsze błędy przy estymacji wariancji i odchylenia standardowego

Podsumowanie

Wariancja i odchylenie standardowe opisują zróżnicowanie populacji. Z próby można oszacować je punktowo, a następnie określić niepewność oszacowania za pomocą przedziału ufności.

Powiązane artykuły

Masz problem z tym tematem?

Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę, rachunkowość i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku. 

Zapytaj o pomoc