Wszechnica Wszechwiedzy - Baner

Miary zróżnicowania w statystyce opisowej — rozstęp, wariancja i odchylenie standardowe

Dwie grupy danych mogą mieć taką samą średnią, a mimo to znaczyć coś zupełnie innego. Miary zróżnicowania pokazują, czy wartości są skupione blisko siebie, czy mocno rozrzucone wokół typowego poziomu.

Wyobraźmy sobie dwóch studentów. Pierwszy ma oceny: \(4,\ 4,\ 4,\ 4\). Drugi ma oceny: \(3,\ 3,\ 5,\ 5\). W obu przypadkach średnia wynosi \(4\), ale sytuacja nie jest taka sama. Pierwszy student ma wyniki całkowicie stabilne, a drugi — bardziej zróżnicowane. Sama średnia nie pozwala więc odróżnić tych dwóch przypadków.

Właśnie do tego służą miary zróżnicowania, nazywane także miarami zmienności, miarami rozproszenia albo miarami dyspersji. Pokazują one, jak bardzo wartości badanej cechy różnią się między sobą i jak daleko leżą od wybranego punktu odniesienia, na przykład od średniej albo mediany.

Ten artykuł jest szczegółowym rozwinięciem ogólnego tekstu Miary statystyczne w statystyce opisowej. Warto go czytać razem z artykułem Miary położenia w statystyce opisowej, ponieważ miary położenia i miary zróżnicowania wzajemnie się uzupełniają.

Czym są miary zróżnicowania?

Miary zróżnicowania opisują stopień rozproszenia danych. Informują, czy wartości są do siebie podobne, czy też występują między nimi duże różnice.

Miary zróżnicowania to miary statystyczne określające, jak bardzo wartości badanej cechy różnią się między sobą lub jak bardzo odchylają się od wybranej miary położenia, na przykład średniej arytmetycznej albo mediany.

Jeżeli wszystkie obserwacje są jednakowe, zróżnicowanie jest równe zero. Jeżeli wartości są bardzo rozproszone, miary zróżnicowania przyjmują większe wartości.

W praktyce miary zróżnicowania odpowiadają między innymi na pytania:

Dlaczego sama średnia nie wystarcza?

Rozważmy dwa zestawy ocen:

Student Oceny Średnia Ocena sytuacji
A \(4,\ 4,\ 4,\ 4\) \(4\) wyniki całkowicie stabilne
B \(3,\ 3,\ 5,\ 5\) \(4\) wyniki bardziej rozproszone

W obu przypadkach średnia jest taka sama:

\[ \bar{x}=4 \]

Różnica polega na tym, że w pierwszym zestawie wszystkie oceny są identyczne, a w drugim występują odchylenia od średniej. Miary położenia pokazują więc poziom typowy, natomiast miary zróżnicowania pokazują, jak bardzo dane wokół tego poziomu się rozchodzą. Szerzej o średniej i innych miarach położenia piszemy w artykule Miary położenia w statystyce opisowej.

Najważniejsze miary zróżnicowania

Miary zróżnicowania można podzielić na kilka grup. W podstawowej statystyce opisowej najczęściej omawia się rozstęp, odchylenie przeciętne, wariancję, odchylenie standardowe, rozstęp kwartylowy oraz współczynniki zmienności.

Plansza edukacyjna przedstawiająca klasyczne i pozycyjne miary zróżnicowania oraz współczynnik zmienności
Najważniejsze miary zróżnicowania: rozstęp, odchylenie przeciętne, wariancja, odchylenie standardowe, rozstęp kwartylowy i współczynnik zmienności.
Miara Rodzaj Co opisuje? Wrażliwość na wartości skrajne
Rozstęp absolutna, skrajna różnicę między największą i najmniejszą wartością bardzo duża
Odchylenie przeciętne klasyczna przeciętne bezwzględne odchylenie wartości od średniej lub mediany umiarkowana
Wariancja klasyczna przeciętny kwadrat odchyleń od średniej duża
Odchylenie standardowe klasyczna typową wielkość odchylenia od średniej duża
Rozstęp kwartylowy pozycyjna rozpiętość środkowych około \(50\%\) obserwacji mała
Odchylenie ćwiartkowe pozycyjna połowę rozstępu kwartylowego mała
Współczynnik zmienności względna zróżnicowanie odniesione do poziomu przeciętnego zależy od użytej miary w liczniku

Miary klasyczne, takie jak wariancja i odchylenie standardowe, opierają się zwykle na średniej arytmetycznej. Miary pozycyjne, takie jak rozstęp kwartylowy, odchylenie ćwiartkowe i pozycyjny współczynnik zmienności, opierają się na kwartylach i medianie. Dlatego są mniej wrażliwe na wartości odstające.

Kiedy miary zróżnicowania są równe zero?

Dla najczęściej stosowanych miar zróżnicowania obowiązuje bardzo ważna zasada: jeżeli wszystkie wartości w zbiorze są jednakowe, zróżnicowanie wynosi zero.

Jeżeli wszystkie obserwacje mają tę samą wartość, to rozstęp, wariancja, odchylenie standardowe, odchylenie przeciętne i rozstęp kwartylowy są równe zero.

Przykład:

\[ 4,\ 4,\ 4,\ 4 \]

W tym zbiorze nie ma żadnego rozproszenia, ponieważ każda obserwacja jest taka sama. Średnia wynosi \(4\), mediana wynosi \(4\), a każda wartość jest dokładnie równa poziomowi typowemu.

Rozstęp

Rozstęp jest najprostszą miarą zróżnicowania. Obliczamy go jako różnicę między największą i najmniejszą wartością w zbiorze.

Wzór na rozstęp:

\[ R=x_{\max}-x_{\min} \]

Dla danych:

\[ 3,\ 3,\ 5,\ 5 \]

najmniejsza wartość wynosi \(3\), a największa \(5\), więc:

\[ R=5-3=2 \]

Rozstęp jest bardzo łatwy do obliczenia, ale ma poważną wadę: zależy tylko od dwóch wartości skrajnych. Nie mówi nic o tym, jak rozłożone są pozostałe obserwacje.

Przykładowo zbiory:

\[ 1,\ 5,\ 5,\ 5,\ 9 \]

oraz

\[ 1,\ 2,\ 5,\ 8,\ 9 \]

mają ten sam rozstęp równy \(8\), ale rozkład wartości wewnątrz zbioru jest inny.

Odchylenie przeciętne

Odchylenie przeciętne pokazuje, o ile przeciętnie wartości różnią się od wybranej miary położenia. Najczęściej liczy się odchylenie przeciętne od średniej arytmetycznej albo od mediany.

Idea jest prosta: najpierw obliczamy odchylenia od średniej, następnie bierzemy ich wartości bezwzględne, sumujemy je i dzielimy przez liczbę obserwacji.

Odchylenie przeciętne od średniej:

\[ d=\frac{|x_1-\bar{x}|+|x_2-\bar{x}|+\ldots+|x_n-\bar{x}|}{n} \]

Dla danych:

\[ 3,\ 3,\ 5,\ 5 \]

średnia wynosi:

\[ \bar{x}=\frac{3+3+5+5}{4}=4 \]

Odchylenia bezwzględne od średniej wynoszą:

\[ |3-4|=1,\quad |3-4|=1,\quad |5-4|=1,\quad |5-4|=1 \]

Zatem:

\[ d=\frac{1+1+1+1}{4}=1 \]

Odchylenie przeciętne wynosi \(1\), co oznacza, że oceny różnią się od średniej przeciętnie o \(1\) punkt.

Odchylenie przeciętne jest intuicyjne, bo mówi o przeciętnym dystansie od środka rozkładu. W praktyce jednak częściej stosuje się wariancję i odchylenie standardowe, ponieważ mają większe znaczenie w dalszych metodach statystycznych.

Uwaga: odchylenie przeciętne i odchylenie standardowe mierzą podobną rzecz, ale nie są tą samą miarą. Obie miary są równe zero wtedy, gdy nie ma żadnego zróżnicowania. Przy danych bez silnych wartości odstających mogą dawać podobny obraz zmienności, ale wartości liczbowe nie muszą być identyczne.

Wariancja

Wariancja jest jedną z podstawowych klasycznych miar zróżnicowania. Opiera się na kwadratach odchyleń od średniej arytmetycznej.

Dla populacji wariancję można zapisać następująco:

Wariancja populacyjna:

\[ \sigma^2=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2}{n} \]

Wariancja informuje o przeciętnym kwadracie odchyleń od średniej. Ponieważ odchylenia są podnoszone do kwadratu, większe odchylenia mają szczególnie silny wpływ na wynik.

Szczegółowe omówienie wariancji oraz różnicy między wariancją populacyjną i próbkową znajduje się w artykule Odchylenie standardowe i wariancja.

Odchylenie standardowe

Odchylenie standardowe jest pierwiastkiem z wariancji. Jest bardzo popularną miarą zróżnicowania, ponieważ wyraża rozproszenie w tych samych jednostkach, w których mierzymy badaną cechę.

Odchylenie standardowe populacyjne:

\[ \sigma=\sqrt{\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2}{n}} \]

Jeżeli analizujemy oceny, odchylenie standardowe jest wyrażone w punktach oceny. Jeżeli analizujemy wynagrodzenia, jest wyrażone w złotych. Jeżeli analizujemy wzrost, jest wyrażone w centymetrach.

Odchylenie standardowe jest szczególnie użyteczne wtedy, gdy chcemy opisać typową skalę odchyleń od średniej. Trzeba jednak pamiętać, że jest miarą klasyczną, a więc może być silnie podwyższane przez wartości odstające.

W tym artykule traktujemy odchylenie standardowe jako jedną z miar zróżnicowania. Dokładne przykłady obliczeń, interpretację i porównanie z wariancją omawia osobny tekst: Odchylenie standardowe i wariancja.

Przykład: wariancja i odchylenie standardowe

Weźmy ponownie dane:

\[ 3,\ 3,\ 5,\ 5 \]

Średnia wynosi:

\[ \bar{x}=4 \]

Odchylenia od średniej to:

\[ -1,\ -1,\ 1,\ 1 \]

Kwadraty odchyleń wynoszą:

\[ 1,\ 1,\ 1,\ 1 \]

Wariancja populacyjna wynosi:

\[ \sigma^2=\frac{1+1+1+1}{4}=1 \]

Odchylenie standardowe wynosi:

\[ \sigma=\sqrt{1}=1 \]

W tym prostym przykładzie odchylenie standardowe wynosi \(1\), czyli tyle samo co odchylenie przeciętne od średniej. Nie należy jednak traktować tego jako ogólnej reguły. W innych zbiorach danych wartości te mogą się różnić.

Rozstęp kwartylowy i odchylenie ćwiartkowe

Miary pozycyjne zróżnicowania opierają się na kwartylach. Najważniejszą z nich jest rozstęp kwartylowy, oznaczany często jako \(IQR\).

Rozstęp kwartylowy:

\[ IQR=Q_3-Q_1 \]

Rozstęp kwartylowy pokazuje szerokość środkowej części rozkładu, obejmującej około \(50\%\) obserwacji. Ponieważ pomija najbardziej skrajne \(25\%\) najniższych i \(25\%\) najwyższych wartości, jest znacznie mniej wrażliwy na wartości odstające niż rozstęp, wariancja czy odchylenie standardowe.

Drugą prostą miarą pozycyjną jest odchylenie ćwiartkowe, czyli połowa rozstępu kwartylowego:

Odchylenie ćwiartkowe:

\[ Q=\frac{Q_3-Q_1}{2} \]

Kwartyle omawiamy szerzej w artykule Kwantyle w szeregu szczegółowym. Ich interpretacja jako miar położenia została też przedstawiona w artykule Miary położenia w statystyce opisowej.

Miary klasyczne a miary pozycyjne

W statystyce opisowej często porównuje się miary klasyczne i pozycyjne. Miary klasyczne, takie jak wariancja i odchylenie standardowe, wykorzystują średnią arytmetyczną i wszystkie wartości w zbiorze. Miary pozycyjne, takie jak rozstęp kwartylowy, odchylenie ćwiartkowe i pozycyjny współczynnik zmienności, opierają się na położeniu wartości w uporządkowanym szeregu.

Cecha porównania Miary klasyczne Miary pozycyjne
Punkt odniesienia najczęściej średnia arytmetyczna najczęściej mediana i kwartyle
Wrażliwość na wartości odstające duża mała
Wykorzystanie wszystkich obserwacji tak nie w takim samym sensie; ważna jest pozycja w szeregu
Przykłady wariancja, odchylenie standardowe, odchylenie przeciętne od średniej rozstęp kwartylowy, odchylenie ćwiartkowe, pozycyjny współczynnik zmienności

Gdy dane są dość symetryczne i nie zawierają silnych wartości odstających, miary klasyczne i pozycyjne zwykle prowadzą do podobnych wniosków. Gdy jednak pojawiają się obserwacje nietypowe, wartości miar klasycznych mogą znacznie wzrosnąć, podczas gdy miary pozycyjne pozostaną bardziej stabilne.

Współczynnik zmienności

Dotychczas omawialiśmy głównie bezwzględne miary zróżnicowania, czyli takie, które są wyrażone w jednostkach badanej cechy albo ich kwadratach. Czasem jednak chcemy porównać zmienność dwóch różnych zjawisk, na przykład wynagrodzeń w dwóch grupach, cen dwóch produktów albo wyników dwóch testów. Wtedy przydatne są względne miary zróżnicowania.

Najbardziej znaną względną miarą jest klasyczny współczynnik zmienności, który porównuje odchylenie standardowe ze średnią arytmetyczną.

Klasyczny współczynnik zmienności:

\[ V_s=\frac{s}{\bar{x}}\cdot 100\% \]

gdzie \(s\) oznacza odchylenie standardowe, a \(\bar{x}\) średnią arytmetyczną. W praktyce często stosuje się wartość bezwzględną średniej w mianowniku:

\[ V_s=\frac{s}{|\bar{x}|}\cdot 100\% \]

Współczynnik zmienności informuje, jak duże jest odchylenie standardowe w stosunku do przeciętnego poziomu zjawiska. Dzięki temu można porównywać zmienność danych wyrażonych w różnych jednostkach albo mających różne poziomy średnie.

Jak interpretować współczynnik zmienności?

Orientacyjnie można przyjąć, że im większy współczynnik zmienności, tym większe względne zróżnicowanie danych. Progi interpretacyjne zależą jednak od dziedziny i rodzaju danych, dlatego należy traktować je ostrożnie.

Wartość współczynnika zmienności Przykładowa interpretacja
\(0\%\) brak zróżnicowania; wszystkie wartości są jednakowe
do około \(10\%\) bardzo małe zróżnicowanie
około \(10\%\text{ – }20\%\) małe lub umiarkowane zróżnicowanie
około \(20\%\text{ – }40\%\) wyraźne zróżnicowanie
powyżej \(40\%\) duże zróżnicowanie
powyżej \(100\%\) bardzo duże zróżnicowanie; odchylenie standardowe przekracza poziom średniej

Współczynnik zmienności większy niż \(100\%\) nie jest błędem rachunkowym ani wynikiem niemożliwym. Oznacza po prostu, że odchylenie standardowe jest większe niż średnia. Może się tak zdarzyć na przykład przy bardzo silnie zróżnicowanych dochodach, sprzedaży, stopach zwrotu albo danych z wartościami odstającymi.

Uwaga: współczynnik zmienności trzeba interpretować szczególnie ostrożnie, gdy średnia jest bliska zeru albo gdy w danych występują zarówno wartości dodatnie, jak i ujemne. Wtedy mianownik może być bardzo mały, a współczynnik zmienności może przyjmować bardzo duże albo trudne do sensownej interpretacji wartości.

Jeżeli średnia \(\bar{x}\) jest równa zero, klasycznego współczynnika zmienności nie można obliczyć, ponieważ nie wolno dzielić przez zero.

Pozycyjny współczynnik zmienności

Oprócz klasycznego współczynnika zmienności można stosować także pozycyjny współczynnik zmienności. Zamiast odchylenia standardowego i średniej wykorzystuje on odchylenie ćwiartkowe oraz medianę.

Pozycyjny współczynnik zmienności:

\[ V_Q=\frac{Q}{Me}\cdot 100\% \]

gdzie:

\[ Q=\frac{Q_3-Q_1}{2} \]

W praktyce, zwłaszcza gdy mediana może być ujemna, stosuje się także zapis z wartością bezwzględną mediany:

\[ V_Q=\frac{Q}{|Me|}\cdot 100\% \]

Pozycyjny współczynnik zmienności jest mniej wrażliwy na wartości skrajne niż klasyczny współczynnik zmienności, ponieważ opiera się na kwartylach i medianie. Jeżeli jednak mediana jest równa zero, także tej miary nie można obliczyć w zwykły sposób, ponieważ wystąpiłoby dzielenie przez zero.

Klasyczny i pozycyjny współczynnik zmienności często prowadzą do podobnych wniosków, jeżeli rozkład danych jest dość regularny i nie zawiera silnych wartości odstających. Mogą jednak dawać wyraźnie różne wyniki, gdy w zbiorze pojawiają się obserwacje skrajne. Wtedy miara klasyczna zwykle mocniej reaguje na nietypowe wartości, a miara pozycyjna pozostaje stabilniejsza.

Przykład porównania miary klasycznej i pozycyjnej

Rozważmy dwa zbiory danych:

Zbiór Wartości Średnia Mediana Rozstęp
A \(8,\ 9,\ 10,\ 11,\ 12\) \(10\) \(10\) \(4\)
B \(8,\ 9,\ 10,\ 11,\ 100\) \(27{,}6\) \(10\) \(92\)

W zbiorze B pojawia się wartość odstająca \(100\). Średnia i rozstęp reagują na nią bardzo silnie. Mediana pozostaje jednak równa \(10\), ponieważ zależy od pozycji środkowej wartości w uporządkowanym szeregu.

To samo zjawisko występuje przy miarach zróżnicowania: klasyczne miary, takie jak odchylenie standardowe, zwykle mocno wzrosną pod wpływem wartości odstającej. Miary pozycyjne, oparte na kwartylach, będą bardziej odporne.

Miary zróżnicowania w szeregu przedziałowym

Jeżeli dane są przedstawione w postaci szeregu przedziałowego, dokładne wartości obserwacji nie są znane. Wtedy do obliczeń wykorzystuje się najczęściej środki przedziałów oraz liczebności. Podstawy budowania i odczytywania szeregów statystycznych omawia artykuł Szeregi statystyczne i formy prezentacji danych.

Dla szeregu przedziałowego wariancję można obliczać w przybliżeniu według schematu:

Wariancja dla szeregu z liczebnościami:

\[ \sigma^2=\frac{\sum_{i=1}^{k} n_i(x_i-\bar{x})^2}{n} \]

gdzie \(x_i\) oznacza środek przedziału, \(n_i\) liczebność danego przedziału, a \(n\) łączną liczbę obserwacji.

Takie obliczenie jest przybliżeniem, ponieważ nie znamy rzeczywistego położenia obserwacji wewnątrz przedziałów. Zakładamy jedynie, że środek przedziału reprezentuje wszystkie wartości należące do tego przedziału.

Najczęstsze błędy przy interpretacji miar zróżnicowania

1. Ocenianie danych wyłącznie po średniej

Ta sama średnia może występować przy bardzo różnym poziomie zróżnicowania. Dlatego średnią warto interpretować razem z odchyleniem standardowym, rozstępem kwartylowym albo inną miarą rozproszenia.

2. Mylenie wariancji z odchyleniem standardowym

Wariancja jest wyrażona w kwadratach jednostek badanej cechy, natomiast odchylenie standardowe — w tych samych jednostkach co dane. Dlatego w opisowej interpretacji często wygodniejsze jest odchylenie standardowe. Szczegółowo wyjaśniamy to w artykule Odchylenie standardowe i wariancja.

3. Bezrefleksyjne używanie współczynnika zmienności

Współczynnik zmienności jest bardzo użyteczny, ale nie zawsze ma sensowną interpretację. Szczególną ostrożność trzeba zachować, gdy średnia lub mediana są bliskie zeru, równe zeru albo gdy dane przyjmują zarówno wartości dodatnie, jak i ujemne.

4. Ignorowanie wartości odstających

Wartości odstające mogą bardzo silnie wpływać na rozstęp, wariancję, odchylenie standardowe i klasyczny współczynnik zmienności. W takich sytuacjach warto porównać wyniki z miarami pozycyjnymi, takimi jak rozstęp kwartylowy i pozycyjny współczynnik zmienności.

Zadanie dla czytelnika

Porównaj dwa zestawy ocen

Dane są dwa zestawy ocen:

\[ A:\ 4,\ 4,\ 4,\ 4 \]

\[ B:\ 3,\ 3,\ 5,\ 5 \]

Oblicz średnią, rozstęp i odchylenie przeciętne od średniej dla obu zestawów. Następnie odpowiedz, który zestaw jest bardziej zróżnicowany.

Pokaż rozwiązanie

Dla zestawu \(A\):

\[ \bar{x}_A=\frac{4+4+4+4}{4}=4 \]

\[ R_A=4-4=0 \]

Wszystkie odchylenia od średniej są równe zero, więc:

\[ d_A=0 \]

Dla zestawu \(B\):

\[ \bar{x}_B=\frac{3+3+5+5}{4}=4 \]

\[ R_B=5-3=2 \]

Odchylenia bezwzględne od średniej wynoszą:

\[ |3-4|=1,\quad |3-4|=1,\quad |5-4|=1,\quad |5-4|=1 \]

Zatem:

\[ d_B=\frac{1+1+1+1}{4}=1 \]

Oba zestawy mają tę samą średnią równą \(4\), ale zestaw \(B\) jest bardziej zróżnicowany, ponieważ ma większy rozstęp i większe odchylenie przeciętne.

Podsumowanie

Miary zróżnicowania uzupełniają miary położenia. Średnia, mediana albo dominanta pokazują, gdzie znajduje się typowy poziom danych, ale dopiero miary zróżnicowania informują, czy wartości są skupione blisko tego poziomu, czy silnie rozproszone.

Rozstęp jest najprostszy, ale bardzo wrażliwy na wartości skrajne. Odchylenie przeciętne pokazuje przeciętny dystans od średniej lub mediany. Wariancjaodchylenie standardowe należą do najważniejszych klasycznych miar zmienności. Rozstęp kwartylowyodchylenie ćwiartkowe są miarami pozycyjnymi, bardziej odpornymi na wartości odstające. Współczynnik zmienności pozwala porównywać względne zróżnicowanie różnych zbiorów danych.

Najważniejsza zasada interpretacyjna jest prosta: im większe miary zróżnicowania, tym bardziej rozproszone są dane. Trzeba jednak zawsze zwracać uwagę na typ danych, obecność wartości odstających oraz to, czy stosujemy miary klasyczne, czy pozycyjne.

Powiązane artykuły

Masz problem z tym tematem?

Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę, rachunkowość i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku. 

Zapytaj o pomoc