Wszechnica Wszechwiedzy - Baner

Odchylenie standardowe i wariancja, jako miary rozrzutu

Wprowadzenie

Każdy nowy klient korzystający z moich korepetycji ze statystyki (zresztą podobnie jak w przypadku innych przedmiotów) proszony jest o pokazanie notatek, prezentacji z uczelni bądź — jako wariant minimum — karty wzorów. Jak wiadomo, uczelnie, a także poszczególni prowadzący zajęcia i wykłady, różnią się pod względem zakresu przerabianego materiału, przyjętej konwencji oznaczeń, a także wzorów na konkretne miary statystyczne. Jedną z ważniejszych i bardzo istotnych różnic jest rozumienie pojęcia odchylenia standardowego i wzory stosowane do obliczenia tej miary.

Spis treści

Czym jest odchylenie standardowe?

Odchylenie standardowe to najpowszechniejsza klasyczna miara rozrzutu danych. Klasyczna dlatego, że w wyliczeniu odchylenia standardowego biorą udział wszystkie dane w szeregu, a nie tylko niektóre, jak ma to miejsce w przypadku miar pozycyjnych. Rozrzutu — zwanego także zróżnicowaniem bądź dyspersją — dlatego, że mierzy ono, jak bardzo poszczególne wartości cechy w badanej zbiorowości różnią się między sobą.

Jeżeli mamy $n$-elementową zbiorowość, daną szeregiem szczegółowym: $X=\{x_1, x_2,...,x_n \}$, to odchylenie standardowe, oznaczane najczęściej symbolem $s$, wyraża się wzorem:

$$s=\sqrt{ {1 \over n} \cdot \sum_{i=1}^n \left(x_i - \bar x \right)^2} \tag 1 \label{eq:1}$$

Najczęściej odchylenie standardowe definiuje się po prostu jako pierwiastek z wariancji:

$$s=\sqrt{s^2}$$

a samą wariancję definiuje się wzorem:

$$s^2={1 \over n} \cdot \sum_{i=1}^n \left(x_i - \bar x \right)^2 \tag 2 \label{eq:2}$$

W dalszej części niniejszego artykułu wariancja pojawiać się będzie bardzo często, być może nawet nieco częściej niż odchylenie standardowe. Wynika to ze ścisłego związku tych miar, a obliczenie odchylenia standardowego zawsze wymaga — jawnego bądź niejawnego — obliczenia wariancji, stąd wszelkie niemal uwagi tyczą się obydwu tych miar.

Jak widać, obliczenie wariancji oraz odchylenia standardowego wymaga w pierwszej kolejności obliczenia średniej arytmetycznej:

$$\bar x = {1 \over n} \cdot \sum_{i=1}^n x_i$$

Ponieważ bardzo często średnia ma część ułamkową, każdorazowe obliczanie odchyłki od średniej $x_i - \bar x$ może być żmudne (gdy musimy obliczenia prowadzić „ręcznie”) i prowadzić do kumulowania błędów zaokrągleń. Często stosuje się więc równoważny wzór na wariancję, pozbawiony tej niedogodności:

$$s^2={1 \over n} \cdot \sum_{i=1}^n x_i^2 - \left( \bar x \right)^2 \tag 3 \label {eq:3}$$

W tym przypadku do kwadratu podnosimy same wartości zmiennej $x$, a kwadrat średniej odejmujemy tylko raz, na samym końcu. Wadą tego sposobu jest z kolei to, że otrzymujemy dość wysokie liczby, gdyż podnosimy bezpośrednio nasze dane, a nie ich odchyłki od średniej. Generalnie więc wybór wariantu wzoru podyktowany jest tylko wygodą obliczającego, gdyż oba warianty wzoru dają jednakowe wyniki, a ewentualne drobne różnice wyniknąć mogą tylko i wyłącznie z błędów zaokrągleń. Jeśli średnia arytmetyczna wyraża się liczbą całkowitą, wybieramy wariant (2), a jeśli jest to jakiś „skomplikowany”, okresowy ułamek — wówczas optymalnym wyborem staje się (3).

Nie na tym jednak polega największy problem z odchyleniem standardowym i wariancją, jako pojęciami obecnymi w kursie statystyki na najróżniejszych kierunkach wyższych uczelni.

Próbka a populacja

Źródłem największej ilości nieporozumień oraz niezrozumienia (i to niezrozumienia po obu stronach wykładowej auli) jest to, że w statystycznym „obiegu”, równolegle do wariancji (a tym samym i odchylenia standardowego, jako pierwiastka kwadratowego z wariancji) określonej wzorami (2) oraz (3), funkcjonuje jeszcze tak zwana wariancja próbkowa, a dokładniej — skorygowana wariancja z próby, często oznaczana jako ${\hat s}^2$, wyliczana ze wzoru:

$${\hat s}^2={1 \over {n-1}} \cdot \sum_{i=1}^n \left(x_i - \bar x \right)^2 \tag 4 \label{eq:4}$$

Jak widać, różni się ona od omówionej wcześniej wariancji występowaniem w mianowniku $n-1$ w miejsce $n$. Wariancja ta bywa czasem oznaczana ${\hat \sigma }^2$, choć bardzo często bywa również oznaczana przez $s^2$, zwłaszcza przez tych prowadzących, którzy w ogóle „nie uznają” wariancji wyliczonej ze wzorów (2) oraz (3).

Oczywiście pierwiastek z wariancji próbkowej to odchylenie standardowe próbkowe, oznaczane odpowiednio przez $\hat s$, $\hat \sigma$ lub czasem, niestety, po prostu przez $s$.

Dla wariancji próbkowej również istnieje alternatywny wzór, przydatny wówczas, gdy średnia arytmetyczna z danych jest ułamkowa. Wówczas można wariancję próbkową obliczyć ze wzoru:

$${\hat s}^2={1 \over {n-1}} \cdot \sum_{i=1}^n x_i^2 - {n \over{n-1}} \cdot \left( \bar x \right)^2 \tag 5 \label {eq:5}$$

Można także, oczywiście, przeliczać między jedną a drugą wariancją, korzystając z zależności:

$${\hat s}^2 = {n \over {n-1}} \cdot s^2$$

Oczywiście, jak łatwo wywnioskować ze wzorów, wariancja próbkowa ${\hat s}^2$ zawsze jest nieco wyższa od wariancji $s^2$ (zwanej często, dla odróżnienia, wariancją populacyjną) i różnica ta jest tym mniejsza, im większa jest liczebność zbioru danych $n$, co jest oczywiste.

Po co to wszystko? Dlaczego dwie różne wariancje?

Otóż prawidłowy wybór określonego rodzaju wariancji zależy od tego, w jaki sposób traktujemy badaną zbiorowość statystyczną. Jeśli nasz zbiór danych jest kompletną populacją, czyli badamy wszystkie jednostki, wówczas jedynym słusznym wyborem jest wariancja „populacyjna”, określona wzorami (2) oraz (3) i ewentualnie odchylenie standardowe „populacyjne” jako pierwiastek z tej wariancji.

A zatem jeśli chcemy wyliczyć odchylenie standardowe np. wzrostu wszystkich studentów w naszej grupie, to wszystkich ich mierzymy i obliczając wariancję, korzystamy wyłącznie ze wzoru (2) lub (3). Obliczenie wariancji próbkowej będzie w takim wypadku błędem (choć niektórzy nauczyciele akademiccy, niestety, są innego zdania).

Jeśli jednak badana zbiorowość statystyczna jest tylko próbką, wybraną w sposób losowy z jakiejś większej zbiorowości i chcemy nie tyle obliczyć wariancję w naszej próbce, co oszacować (estymować) wariancję w całej populacji, wówczas właściwym wyborem jest wariancja próbkowa, do wyliczenia której stosujemy wzór (4) lub (5) i pierwiastek z tej wariancji wyliczamy jako odchylenie standardowe.

Jeśli więc, chcąc oszacować odchylenie standardowe masy ciała wszystkich dorosłych mieszkańców miasta, dysponujemy masą ciała np. pięćdziesięciu w reprezentatywny (najlepiej losowy) sposób wybranych mieszkańców, to wyliczymy wariancję próbkową i pierwiastek z niej będzie owym poszukiwanym oszacowaniem.

Ważna uwaga. Jak wynika z postaci przytoczonych wyżej wzorów, do wyliczenia wariancji (czy to „populacyjnej”, czy też próbkowej) potrzebna jest średnia arytmetyczna. W przypadku szacowania wariancji na podstawie próbki, ową średnią arytmetyczną traktujemy jako oszacowanie przeciętnej wartości zmiennej w populacji (czyli oszacowanie tzw. wartości oczekiwanej tej zmiennej). Gdybyśmy jednak w jakiś cudowny sposób znali tę przeciętną wartość — nie oszacowaną, ale dokładną (oznaczmy ją przez $\mu$) — to wówczas wariancję na podstawie próby policzylibyśmy ze wzoru:

$${\hat s}^2={1 \over n} \cdot \sum_{i=1}^n \left(x_i - \mu \right)^2 \tag 6 \label{eq:6}$$

bądź alternatywnie (gdyby np. $\mu$ było ułamkowe):

$${\hat s}^2={1 \over n} \cdot \sum_{i=1}^n x_i^2 - \left( \mu \right)^2 \tag 7 \label {eq:7}$$

A zatem, pomimo iż nadal mówimy o szacowaniu wariancji na podstawie próby, mamy nie $n-1$, a po prostu $n$. Dlaczego tak się dzieje? Wyjaśnienie jest proste.

Załóżmy, że nic nie wiemy o przeciętnej wadze mieszkańców jakiejś odległej planety. Wysłana sonda kosmiczna zważyła losowo wybranego jednego mieszkańca tej planety. Powiedzmy, że ważył on 150 kg. Co możemy na podstawie tej próbki oszacować? Czy możemy oszacować przeciętną masę ciała, a może jej rozrzut?

Jeśli chodzi o przeciętną masę ciała, jak najbardziej możemy ją oszacować, obliczając po prostu średnią arytmetyczną z próby. Ponieważ $n=1$, toteż średnia równa jest po prostu wartości jedynej danej, jaką dysponujemy, i wynosi ona $\bar x = 150$. Oczywiście mogliśmy mieć niefart i „trafił” nam się akurat jakiś nietypowy mieszkaniec planety, ale dzięki tak nawet szczątkowej informacji można sformułować twierdzenie, że tamtejsi kosmici są nieco ciężsi od ludzi, ale nie są to raczej ani krasnoludki, ani dinozaury. Czy jednak możemy cokolwiek powiedzieć o zróżnicowaniu masy ciała kosmitów na tamtejszej planecie? Nie! Nie jesteśmy w stanie powiedzieć o niej absolutnie nic. Skąd mamy wiedzieć, czy są oni pod względem masy bardziej, czy mniej zróżnicowani, skoro mamy tylko masę ciała jednego osobnika?

Obliczenie wariancji „populacyjnej” nic nam nie da, gdyż dla $n=1$ wariancja wyjdzie zawsze zero — tak samo, jak dla szeregu składającego się z $n$ takich samych wartości. Wariancji próbkowej natomiast nie policzymy, z uwagi na $n-1$ w mianowniku — w naszym przypadku w mianowniku tym znalazłoby się zero. Już rozumiemy, skąd owo $n-1$ w „próbkowych” wariantach wzorów, prawda?

Sytuacja diametralnie się zmieni, gdy będziemy dysponowali masą ciała dwóch osobników zamiast jednego. Wtedy policzymy wariancję próbkową i pierwiastek z niej. Ale nie tylko wtedy. Rozrzut masy ciała wspomnianych kosmitów na podstawie jednoelementowej próbki oszacujemy także wówczas, gdybyśmy jakimś „cudem” posiadali informację o przeciętnej masie ciała w całej populacji. Gdybyśmy wiedzieli np., że ta wartość oczekiwana masy wynosi 150 kg i nasz jedyny zważony osobnik również waży 150 kg, to już mielibyśmy wystarczającą informację, by spodziewać się bardzo niewielkiego zróżnicowania masy ciała, nie wykluczając opcji, że wszyscy, jak jeden mąż, ważą 150 kg.

Gdyby z naszych informacji wynikało, że przeciętna masa wynosi 200 kg, to również mielibyśmy jakąś orientację przynajmniej o rzędzie wielkości różnic masy analizowanych kosmitów. No to już chyba jasne, skąd we wzorach (6) oraz (7) wzięło się $n$?

Odchylenie standardowe we wnioskowaniu statystycznym

Nieporozumienia związane z omówionymi dwoma rodzajami odchylenia standardowego pojawiają się także bardzo często przy okazji kursu statystyki matematycznej. Choć w teorii estymacji bardziej właściwą miarą jest próbkowe odchylenie standardowe, to jego populacyjny odpowiednik również się tam pojawia.

W zagadnieniach związanych z estymacją średniej (wartości oczekiwanej) oraz weryfikacją hipotez dotyczących wartości oczekiwanej niezbędne jest obliczenie standardowego błędu estymacji średniej. Jest on niezbędny zarówno do wyznaczenia krańców przedziału ufności dla wartości oczekiwanej, jak też do wyznaczenia statystyki testowej w teście istotności dotyczącym wartości oczekiwanej. Standardowy błąd estymacji średniej oznacza, o ile średnio estymator wartości oczekiwanej w populacji (czyli średnia arytmetyczna z próby) różni się od rzeczywistej, nieznanej wartości oczekiwanej w populacji generalnej.

W stosunkowo rzadkim przypadku, gdy znamy odchylenie standardowe w populacji generalnej (tzw. „model I”), standardowy błąd estymacji średniej wyraża się wzorem:

$$S \left( \bar x \right) = {\sigma \over {\sqrt n}} \tag 8 \label {eq:8}$$

W pozostałych jednak — znacznie bardziej realistycznych — przypadkach, gdy odchylenie standardowe w populacji generalnej pozostaje nieznane, standardowy błąd estymacji średniej wylicza się za pomocą wzoru:

$$S \left( \bar x \right) = {s \over {\sqrt {n-1}}} \tag 9 \label {eq:9}$$

lub też:

$$S \left( \bar x \right) = {{\hat s} \over {\sqrt n}} \tag {10} \label {eq:10}$$

Jak więc wynika z porównania wzorów (9) oraz (10), w zależności od tego, jaki rodzaj odchylenia standardowego wyliczono z próby, w mianowniku wzoru na standardowy błąd estymacji średniej pojawia się albo $\sqrt{n-1}$, albo $\sqrt n$.

Najprościej zapamiętać sobie, że obowiązuje zasada „obu pierwiastków”, czyli $\sqrt{n-1}$ oraz $\sqrt n$. Albowiem jeśli do wyliczenia standardowego błędu estymacji średniej użyto „populacyjnego” odchylenia standardowego, które zawiera już w sobie pierwiastek z $n$, to w mianowniku pojawi się pierwiastek z $n-1$. I na odwrót, jeśli użyjemy próbkowego odchylenia standardowego, które ma w swojej formule zawarty pierwiastek z $n-1$, to we wzorze na standardowy błąd estymacji pojawić się musi pierwiastek z $n$. Innymi słowy, podstawiając do wzoru (9) wzór (2) albo też do wzoru (10) wzór (4), dostaniemy finalnie:

$$S \left( \bar x \right) = \sqrt{{\sum_{i=1}^n \left(x_i - \bar x \right)^2} \over {n \cdot (n -1)}} \tag {11} \label{eq:11}$$

Wszystko jest jasne i oczywiste, jeśli mamy dane wartości i sami z nich wyliczamy średnią oraz odchylenie standardowe. Wówczas to do nas należy decyzja, czy liczymy odchylenie standardowe „populacyjne”, czy próbkowe i którego wariantu wzoru finalnie użyjemy. Problem pojawia się wówczas, gdy — jak to ma miejsce na większości kolokwiów czy egzaminów — wyznaczyć musimy przedział ufności bądź zweryfikować hipotezę w oparciu o miary już wyliczone. Czyli mamy zadanie typu:

Producent śrubek chce sprawdzić, czy produkowane śrubki spełniają normy (…) w wyniku losowo pobranej próby 50 śrubek otrzymano średnią arytmetyczną równą 5,03 mm i odchylenie standardowe 0,05 mm (…).

Niestety w zadaniu tego typu trzeba zgadywać, jakie odchylenie standardowe jego autor miał na myśli. W praktyce korepetytorskiej najczęściej przeglądam notatki, karty wzorów bądź szukam podobnych zadań w prezentacjach. Pewien trop daje także liczebność próby. Zazwyczaj zadania są tak dobrane, by „łatwo się liczyło”. Skoro trzeba wyciągać pierwiastek, to bardzo często jest tak, że pierwiastek ten jest liczbą całkowitą. Jeśli więc w zadaniu z estymacji bądź hipotez mamy liczebność próby będącą pełnym kwadratem (9; 16; 25 itd.), to skłaniam się ku twierdzeniu, że „anonimowe” odchylenie standardowe, o którym mowa w treści zadania, to odchylenie próbkowe, bowiem wówczas korzystamy ze wzoru (10) i wyciągamy pierwiastek z $n$. Natomiast jeśli w zadaniu mamy kwadrat powiększony o 1, czyli $n$ wynosi 10; 17; 26; 37, czy tak, jak w naszym przykładzie, 50, to oznacza, że mamy wyciągać pierwiastek z $n-1$, czyli wymieniając bezimienne odchylenie standardowe w treści zadania, autor miał na myśli odchylenie „populacyjne”, a zatem obliczając standardowy błąd estymacji średniej, korzystać będziemy ze wzoru (9).

Tego typu śledztwo nie wyjaśnia wszystkich wątpliwości, gdyż prowadzący bardzo często „mieszają” wzory — np. w zadaniach z niewielką liczebnością próby (korzystających z rozkładu Studenta) domyślnie zakładają próbkowe odchylenie standardowe, ale już w przypadku dużej liczebności (gdy aproksymujemy rozkładem normalnym) zakładają wersję „populacyjną”. Niektórzy robią też dokładnie na odwrót. Jednak jest to temat na inny artykuł.

Obliczenia w Excelu

W arkuszu kalkulacyjnym Microsoft Excel korzystać można z obu rodzajów wariancji oraz odchylenia standardowego. Warto jednak mieć na uwadze, że w polskiej wersji tego programu standardowe, starsze nazwy formuł:

WARIANCJA()

ODCH.STANDARDOWE()

dotyczą wariancji próbkowej oraz próbkowego odchylenia standardowego (czyli tych z $n-1$ w mianowniku). Dodatkowo formuły te mają obecnie status funkcji zgodności, co oznacza, że Microsoft pozostawia je przede wszystkim ze względu na zgodność ze starszymi arkuszami, natomiast w nowych plikach zaleca stosowanie nowszych nazw funkcji.

Zamiast owych starszych formuł, do wyliczenia wariancji próbkowej oraz próbkowego odchylenia standardowego Microsoft rekomenduje formuły:

WARIANCJA.PRÓBKI()

ODCH.STANDARD.PRÓBKI()

Z kolei do obliczenia „populacyjnych” wersji obu miar służą obecnie formuły:

WARIANCJA.POP()

ODCH.STAND.POPUL()

W starszych arkuszach można też spotkać formuły:

WARIANCJA.POPUL()

ODCH.STANDARD.POPUL()

które również pełnią obecnie przede wszystkim funkcję zgodności ze starszymi wersjami Excela.

Dodatkowo nowsze formuły posiadają także warianty:

WARIANCJA.A(), ODCH.STANDARDOWE.A()

dla próbki, oraz

WARIANCJA.POPUL.A(), ODCH.STANDARD.POPUL.A()

dla populacji, w sposób niestandardowy traktujące tekst oraz wartości logiczne PRAWDAFAŁSZ. Podstawowe warianty formuł ignorują bowiem wartości tekstowe i logiczne w odwołaniach do komórek (traktują zawierające je komórki tak, jak gdyby były one puste). Natomiast warianty z .A na końcu traktują wartości tekstowe oraz FAŁSZ jak zera, natomiast wartości logiczne PRAWDA traktują jak liczbę 1.

Powiązane artykuły

Masz problem z tym tematem?

Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku. 

Zapytaj o pomoc