Wszechnica Wszechwiedzy - Baner

Różne oblicza odchylenia standardowego i wariancji

Wprowadzenie

Każdy nowy Klient korzystający z moich korepetycji ze statystyki (zresztą podobnie w przypadku innych przedmiotów), proszony jest o pokazanie notatek, prezentacji z uczelni bądź – jako wariant minimum – karty wzorów. Jak wiadomo, uczelnie a także poszczególni prowadzący zajęcia i wykłady, różnią się pod względem zakresu przerabianego materiału, przyjętej konwencji oznaczeń a także wzorów na konkretne miary statystyczne. Jedną z ważniejszych i bardzo istotnych różnic jest rozumienie pojęcia odchylenia standardowego i wzory stosowane do obliczenia tej miary.

Czym jest odchylenie standardowe

Odchylenie standardowe, to najpowszechniejsza klasyczna miara rozrzutu danych. Klasyczna, dlatego, że w wyliczeniu odchylenia standardowego biorą udział wszystkie dane w szeregu, a nie tylko niektóre, jak ma to miejsce w przypadku miar pozycyjnych. Rozrzutu, zwanego także zróżnicowaniem bądź dyspersją dlatego, że mierzy ono, jak bardzo poszczególne wartości cechy w badanej zbiorowości różnią się między sobą.

Jeżeli mamy $n$-elementową zbiorowość, daną szeregiem szczegółowym: $X=\{x_1, x_2,...,x_n \}$, to odchylenie standardowe, oznaczane najczęściej symbolem $s$ wyraża się wzorem:

$$s=\sqrt{ {1 \over n} \cdot \sum_{i=1}^n \left(x_i - \bar x \right)^2 \tag 1 \label{eq:1}}$$

Najczęściej odchylenie standardowe definiuje się po prostu, jako pierwiastek z wariancji:

$$s=\sqrt{s^2}$$

a samą wariancję definiuje się wzorem:

$$s^2={1 \over n} \cdot \sum_{i=1}^n \left(x_i - \bar x \right)^2 \tag 2 \label{eq:2}$$

W dalszej części niniejszego artykułu wariancja pojawiać się będzie bardzo często, być może nawet nieco częściej niż odchylenie standardowe. Wynika to ze ścisłego związku tych miar, a obliczenie odchylenia standardowego zawsze wymaga – jawnego bądź niejawnego – obliczenia wariancji, stąd wszelkie niemal uwagi tyczą się obydwu tych miar.

Jak widać, obliczenie wariancji oraz odchylenia standardowego wymaga w pierwszej kolejności obliczenia średniej arytmetycznej:

$$\bar x = {1 \over n} \cdot \sum_{i=1}^n x_i$$

Ponieważ bardzo często średnia ma część ułamkową, każdorazowe obliczanie odchyłki od średniej $x_i - \bar x$ może być żmudne (gdy musimy obliczenia prowadzić „ręcznie”) i prowadzić do kumulowania błędów zaokrągleń, często stosuje się równoważny wzór na wariancję, pozbawiony tej niedogodności:

$$s^2={1 \over n} \cdot \sum_{i=1}^n x_i^2 - \left( \bar x \right)^2 \tag 3 \label {eq:3}$$

W tym przypadku do kwadratu podnosimy same wartości zmiennej $x$, a kwadrat średniej odejmujemy tylko raz, na samym końcu. Wadą z kolei tego sposobu jest to, że otrzymujemy dość wysokie liczby, gdyż podnosimy bezpośrednio nasze dane, a nie ich odchyłki od średniej. Generalnie więc wybór wariantu wzoru podyktowany jest tylko wygodą obliczającego, gdyż oba warianty wzoru dają jednakowe wyniki a ewentualne drobne różnice wyniknąć mogą tylko i wyłącznie z błędów zaokrągleń. Jeśli średnia arytmetyczna wyraża się liczbą całkowitą, wybieramy wariant (2), a jeśli jest to jakiś „skomplikowany”, okresowy ułamek – wówczas optymalnym wyborem staje się (3).

Nie na tym jednak polega największy problem z odchyleniem standardowym i wariancją, jako pojęciami obecnymi w kursie statystyki na najróżniejszych kierunkach wyższych uczelni.

Próbka a populacja

Źródłem największej ilości nieporozumień oraz niezrozumienia (i to niezrozumienia po obu stronach wykładowej auli) jest to, że w statystycznym „obiegu”, równolegle do wariancji (a tym samym i odchylenia standardowego, jako pierwiastka kwadratowego z wariancji) określonej wzorami (2) oraz (3) funkcjonuje jeszcze tak zwana wariancja próbkowa, często oznaczana jako ${\hat s}^2$, wyliczana ze wzoru:

$${\hat s}^2={1 \over {n-1}} \cdot \sum_{i=1}^n \left(x_i - \bar x \right)^2 \tag 4 \label{eq:4}$$

Jak widać różni się ona od omówionej wcześniej wariancji występowaniem w mianowniku $n-1$ w miejsce $n$. Wariancja ta bywa czasem oznaczana ${\hat \sigma }^2$, choć bardzo często bywa również oznaczana przez $s^2$ zwłaszcza przez tych prowadzących, którzy w ogóle „nie uznają” wariancji wyliczonej ze wzorów (2) oraz (3).

Oczywiście pierwiastek z wariancji próbkowej to odchylenie standardowe próbkowe, oznaczane odpowiednio przez $\hat s$, $\hat \sigma$ lub czasem, niestety, po prostu przez $s$.

Dla wariancji próbkowej również istnieje alternatywny wzór, przydatny wówczas, gdy średnia arytmetyczna z danych jest ułamkowa. Wówczas można wariancję próbkową obliczyć ze wzoru:

$${\hat s}^2={1 \over {n-1}} \cdot \sum_{i=1}^n x_i^2 - {n \over{n-1}} \cdot \left( \bar x \right)^2 \tag 5 \label {eq:5}$$

Można także, oczywiście, przeliczać między jedną a drugą wariancją, korzystając z zależności:

$${\hat s}^2 = {n \over {n-1}} \cdot s^2$$

Oczywiście, jak łatwo wywnioskować ze wzorów, wariancja próbkowa ${\hat s}^2$ zawsze jest nieco wyższa od wariancji $s^2$ (zwanej często, dla odróżnienia wariancją populacyjną) i różnica ta jest tym mniejsza, im większa jest liczebność zbioru danych $n$, co jest oczywiste.

Po co to wszystko? Dlaczego dwie różne wariancje?

Otóż prawidłowy wybór określonego rodzaju wariancji zależy od tego, w jaki sposób traktujemy badaną zbiorowość statystyczną. Jeśli nasz zbiór danych jest kompletną populacją, czyli badamy wszystkie jednostki, wówczas jedynym słusznym wyborem jest wariancja „populacyjna”, określona wzorami (2) oraz (3) i ewentualnie odchylenie standardowe „populacyjne” jako pierwiastek z tej wariancji.

A zatem jeśli chcemy wyliczyć odchylenie standardowe np wzrostu wszystkich studentów w naszej grupie, to wszystkich ich mierzymy i obliczając wariancję korzystamy wyłącznie ze wzoru (2) lub (3). Obliczenie wariancji próbkowej będzie w takim wypadku błędem (choć niektórzy nauczyciele akademiccy, niestety, są innego zdania).

Jeśli jednak badana zbiorowość statystyczna jest tylko próbką, wybraną w sposób losowy z jakiejś większej zbiorowości i chcemy nie tyle obliczyć wariancję w naszej próbce, co oszacować (estymować) wariancję w całej populacji, wówczas właściwym wyborem jest wariancja próbkowa, do wyliczenia której stosujemy wzór (4) lub (5) i pierwiastek z tej wariancji wyliczamy, jako odchylenie standardowe.

Jeśli więc, chcąc oszacować odchylenie standardowe masy ciała wszystkich dorosłych mieszkańców miasta dysponujemy masą ciała np. pięćdziesięciu w reprezentatywny (najlepiej losowo) wybrany sposób takich mieszkańców, to wyliczymy wariancję próbkową i pierwiastek z niej będzie owym poszukiwanym oszacowaniem.

Ważna uwaga. Jak wynika z postaci przytoczonych wyżej wzorów, do wyliczenia wariancji (czy to „populacyjnej”, czy też próbkowej) potrzebna jest średnia arytmetyczna. W przypadku szacowania wariancji na podstawie próbki, ową średnią arytmetyczną traktujemy, jako oszacowanie przeciętnej wartości zmiennej w populacji (czyli oszacowanie tzw. wartości oczekiwanej tej zmiennej). Gdybyśmy jednak, w jakiś cudowny sposób znali tę przeciętną wartość – nie oszacowaną, ale dokładną (oznaczmy ją przez $\mu$) to wówczas, wariancję próbkową policzylibyśmy ze wzoru:

$${\hat s}^2={1 \over n} \cdot \sum_{i=1}^n \left(x_i - \mu \right)^2 \tag 6 \label{eq:6}$$

bądź alternatywnie (gdyby np. $\mu$ było ułamkowe):

$${\hat s}^2={1 \over n} \cdot \sum_{i=1}^n x_i^2 - \left( \mu \right)^2 \tag 7 \label {eq:7}$$

A zatem, pomimo iż nadal jest to wariancja próbkowa, mamy nie $n-1$ a po prostu $n$. Dlaczego tak się dzieje? Wyjaśnienie jest proste.

Załóżmy, że nic nie wiemy o przeciętnej wadze mieszkańców jakiejś odległej planety. Wysłana sonda kosmiczna zważyła losowo wybranego jednego mieszkańca tej planety. Powiedzmy, że ważył on 150 kg. Co możemy na podstawie tej próbki oszacować? Czy możemy oszacować przeciętną masę ciała, a może jej rozrzut?

Jeśli chodzi o przeciętną masę ciała, jak najbardziej możemy ją oszacować, obliczając po prostu średnią arytmetyczną z próby. Ponieważ $n=1$, toteż średnia równa jest po prostu wartości jedynej danej, jaką dysponujemy i wynosi ona $\bar x = 150$. Oczywiście mogliśmy mieć niefart i „trafił” nam się akurat jakiś nietypowy mieszkaniec planety, ale dzięki tak nawet szczątkowej informacji można sformułować twierdzenie, że tamtejsi kosmici są nieco ciężsi od ludzi, ale nie są to raczej ani krasnoludki ani dinozaury. Czy jednak możemy cokolwiek powiedzieć o zróżnicowaniu masy ciała kosmitów na tamtejszej planecie? Nie! Nie jesteśmy w stanie powiedzieć o niej absolutnie nic. Skąd mamy wiedzieć, czy są oni pod względem masy bardziej, czy mniej zróżnicowani, skoro mamy tylko masę ciała jednego osobnika?

Obliczenie wariancji „populacyjnej” nic nam nie da, gdyż dla $n=1$ wariancja wyjdzie zawsze zero – tak samo, jak dla szeregu składającego się z $n$ takich samych wartości. Wariancji próbkowej natomiast nie policzymy, z uwagi na $n-1$ w mianowniku – w naszym przypadku w mianowniku tym znalazłoby się zero. Już rozumiemy, skąd owo $n-1$ w „próbkowych” wariantach wzorów, prawda?

Sytuacja diametralnie się zmieni, gdy będziemy dysponowali masa ciała dwóch osobników zamiast jednego. Wtedy policzymy wariancję próbkową i pierwiastek z niej. Ale nie tylko wtedy. Rozrzut masy ciała wspomnianych kosmitów na podstawie jednoelementowej próbki oszacujemy także wówczas, gdybyśmy jakimś „cudem” posiadali informację o przeciętnej masie ciała w całej populacji. Gdybyśmy wiedzieli np., że ta wartość oczekiwana masy wynosi 150 kg i nasz jedyny zważony osobnik również waży 150 kg, to już mielibyśmy wystarczająca informację, by spodziewać się bardzo niewielkiego zróżnicowania masy ciała, nie wykluczając opcji, że wszyscy, jak jeden mąż, ważą 150 kg.

Gdyby z naszych informacji wynikało, że przeciętna masa wynosi 200 kg, to również mielibyśmy jakąś tam orientację przynajmniej o rzędzie wielkości różnic masy analizowanych kosmitów. No to już chyba jasne, skąd we wzorach (6) oraz (7) wzięło się $n$?

Odchylenie standardowe we wnioskowaniu statystycznym

Nieporozumienia związane z omówionymi dwoma rodzajami odchylenia standardowego pojawiają się także bardzo często przy okazji kursu statystyki matematycznej. Choć w teorii estymacji bardziej właściwą miarą jest próbkowe odchylenie standardowe, to jego populacyjny odpowiednik również się tam pojawia.

W zagadnieniach związanych z estymacją średniej (wartości oczekiwanej) oraz weryfikacji hipotez dotyczących wartości oczekiwanej, niezbędne jest obliczenie standardowego błędu estymacji średniej. Jest on niezbędny zarówno do wyznaczenia krańców przedziału ufności dla wartości oczekiwanej, jak tez i do wyznaczenia statystyki testowej w teście istotności dotyczącym wartości oczekiwanej. Standardowy błąd estymacji średniej oznacza, o ile średnio estymator wartości oczekiwanej  w populacji (czyli średnia arytmetyczna) różni się od rzeczywistej, nieznanej wartości oczekiwanej w populacji generalnej.

W stosunkowo rzadkim przypadku, gdy znamy odchylenie standardowe w populacji generalnej (tzw. „model I”), standardowy błąd estymacji średniej wyraża się wzorem:

$$S \left( \bar x \right) = {\sigma \over {\sqrt n} \tag 8 \label {eq:8}}$$

W pozostałych jednak – znacznie bardziej realistycznych – przypadkach, gdy odchylenie standardowe w populacji generalnej pozostaje nieznane, standardowy błąd estymacji średniej wylicza się za pomocą wzoru:

$$S \left( \bar x \right) = {s \over {\sqrt {n-1}} \tag 9 \label {eq:9}}$$

lub też:

$$S \left( \bar x \right) = {{\hat s} \over {\sqrt n} \tag {10} \label {eq:10}}$$

Jak więc wynika z porównania wzorów (9) oraz (10), w zależności od tego, jaki rodzaj odchylenia standardowego wyliczono z próby, w mianowniku wzoru na standardowy błąd estymacji średniej pojawia się albo $\sqrt{n-1}$ albo $\sqrt n$.

Najprościej zapamiętać sobie, że obowiązuje zasada „obu pierwiastków”, czyli $\sqrt{n-1}$ oraz $\sqrt n$. Albowiem, jeśli do wyliczenia standardowego błędu estymacji średniej użyto „populacyjnego” odchylenia standardowego, które zawiera już w sobie pierwiastek z $n$, to w mianowniku pojawi się pierwiastek z $n-1$. I na odwrót, jeśli użyjemy próbkowego odchylenia standardowego, które ma w swojej formule zawarty pierwiastek z $n-1$, to we wzorze na standardowy błąd estymacji pojawić się musi pierwiastek z $n$. Innymi słowy, podstawiając do wzoru (9) wzór (2) albo też do wzoru (10) wzór (4), dostaniemy finalnie:

$$S \left( \bar x \right) = \sqrt{{\sum_{i=1}^n \left(x_i - \bar x \right)^2} \over {n \cdot (n -1)}} \tag {11} \label{eq:11}$$

Wszystko jest jasne i oczywiste, jeśli mamy dane wartości i sami z nich wyliczamy średnią oraz odchylenie standardowe. Wówczas to do nas należy decyzja, czy liczymy odchylenie standardowe „populacyjne”, czy próbkowe i którego wariantu wzoru finalnie użyjemy. Problem pojawia się wówczas, gdy – jak to ma miejsce na większości kolokwiów czy egzaminów – wyznaczyć musimy przedział ufności bądź zweryfikować hipotezę w oparciu o miary już wyliczone. Czyli mamy zadanie typu:

Producent śrubek chce sprawdzić, czy produkowane śrubki spełniają normy (…) w wyniku losowo pobranej próby 50 śrubek otrzymano średnią arytmetyczną równą 5,03 mm i odchylenie standardowe 0,05 mm (…).

Niestety w zadaniu tego typu trzeba zgadywać, jakie odchylenie standardowe jego autor miał na myśli. W praktyce korepetytorskiej, najczęściej przeglądam notatki, karty wzorów, bądź szukam podobnych zadań w prezentacjach. Pewien trop daje także liczebność próby. Zazwyczaj zadania są tak dobrane, by „łatwo się liczyło”. Skoro trzeba wyciągać pierwiastek, to bardzo często jest tak, że pierwiastek ten jest liczbą całkowitą. Jeśli więc w zadaniu z estymacji bądź hipotez mamy liczebność próby będącą pełnym kwadratem (9; 16; 25, itd), to skłaniam się ku twierdzeniu, że „anonimowe” odchylenie standardowe, o którym mowa w treści zadania, to odchylenie próbkowe, bowiem wówczas korzystamy ze wzoru (10) i wyciągamy pierwiastek z $n$. Natomiast jeśli w zadaniu mamy kwadrat powiększony o 1, czyli $n$ wynosi 10; 17; 26; 37, czy tak, jak w naszym przypadku 50, to oznacza, że mamy wyciągać pierwiastek z $n-1$, czyli wymieniając bezimienne odchylenie standardowe w treści zadania, autor miał na myśli odchylenie „populacyjne”, a zatem obliczając standardowy błąd estymacji średniej korzystać będziemy ze wzoru (9).

Tego typu śledztwo nie wyjaśnia wszystkich wątpliwości, gdyż prowadzący bardzo często „mieszają” wzory – np. w zadaniach z niewielką liczebnością próby (korzystających z rozkładu Studenta) domyślnie zakładają próbkowe odchylenie standardowe ale już w przypadku dużej liczebności (gdy aproksymujemy rozkładem normalnym) zakładają wersję „populacyjną”. Niektórzy robią też dokładnie na odwrót. Jednak jest to temat na inny artykuł.

Obliczenia w Excelu

W arkuszu kalkulacyjnym Microsoft Excel korzystać można z obu rodzajów wariancji oraz odchylenia standardowego. Warto jednak mieć na uwadze, że w polskiej wersji tego programu, standardowe nazwy formuł:

WARIANCJA()

ODCH.STANDARDOWE()

dotyczą wariancji próbkowej oraz próbkowego odchylenia standardowego (czyli tych z $n-1$ w mianowniku). Dodatkowo, na chwilę obecną (2025 rok), formuły te mają status depreciated , co oznacza, że Microsoft nie zaleca ich stosowania, gdyż mogą one w nowszych wersjach zostać wycofane i wykorzystujące takie formuły pliki mogą się w tych przyszłych wersjach już nie otwierać.

Zamiast owych wycofywanych formuł, do wyliczenia wariancji próbkowej oraz próbkowego odchylenia standardowego, Microsoft rekomenduje formuły:

WARIANCJA.PRÓBKI()

ODCH.STANDARD.PRÓBKI()

Z kolei do obliczenia „populacyjnych” wersji obu miar, dotychczas służyły formuły:

WARIANCJA.POPUL()

ODCH.STANDARD.POPUL()

Obie mają współcześnie status depreciated, toteż zamiast nich, Microsoft rekomenduje stosowanie formuł:

WARIANCJA.POP()

ODCH.STAND.POPUL()

Dodatkowo nowsze (a więc te niebędące depreciated) formuły posiadają także warianty:

WARIANCJA.PRÓBKI.A() , ODCH.STANDARDOWE.A()

dla próbki, oraz

WARIANCJA.POPUL.A() , ODCH.STANDARD.POPUL.A()

dla populacji, w sposób niestandardowy traktujące tekst oraz wartości logiczne PRAWDAFAŁSZ. Podstawowe warianty formuł bowiem ignorują wartości tekstowe i logiczne (traktują zawierające je komórki tak, jak gdyby były one puste). Natomiast warianty z .A na końcu traktują wartości tekstowe oraz FAŁSZ, jak zera, natomiast wartości logiczne PRAWDA traktują, jak liczbę 1.