Miary zróżnicowania w statystyce opisowej — rozstęp, wariancja i odchylenie standardowe
Dwie grupy danych mogą mieć taką samą średnią, a mimo to znaczyć coś zupełnie innego. Miary zróżnicowania pokazują, czy wartości są skupione blisko siebie, czy mocno rozrzucone wokół typowego poziomu.
Wyobraźmy sobie dwóch studentów. Pierwszy ma oceny: \(4,\ 4,\ 4,\ 4\). Drugi ma oceny: \(3,\ 3,\ 5,\ 5\). W obu przypadkach średnia wynosi \(4\), ale sytuacja nie jest taka sama. Pierwszy student ma wyniki całkowicie stabilne, a drugi — bardziej zróżnicowane. Sama średnia nie pozwala więc odróżnić tych dwóch przypadków.
Właśnie do tego służą miary zróżnicowania, nazywane także miarami zmienności, miarami rozproszenia albo miarami dyspersji. Pokazują one, jak bardzo wartości badanej cechy różnią się między sobą i jak daleko leżą od wybranego punktu odniesienia, na przykład od średniej albo mediany.
Ten artykuł jest szczegółowym rozwinięciem ogólnego tekstu Miary statystyczne w statystyce opisowej. Warto go czytać razem z artykułem Miary położenia w statystyce opisowej, ponieważ miary położenia i miary zróżnicowania wzajemnie się uzupełniają.
Czym są miary zróżnicowania?
Miary zróżnicowania opisują stopień rozproszenia danych. Informują, czy wartości są do siebie podobne, czy też występują między nimi duże różnice.
Miary zróżnicowania to miary statystyczne określające, jak bardzo wartości badanej cechy różnią się między sobą lub jak bardzo odchylają się od wybranej miary położenia, na przykład średniej arytmetycznej albo mediany.
Jeżeli wszystkie obserwacje są jednakowe, zróżnicowanie jest równe zero. Jeżeli wartości są bardzo rozproszone, miary zróżnicowania przyjmują większe wartości.
W praktyce miary zróżnicowania odpowiadają między innymi na pytania:
- czy wyniki uczniów są podobne, czy bardzo różne,
- czy dochody w badanej grupie są wyrównane, czy silnie rozproszone,
- czy ceny mieszkań skupiają się wokół typowej ceny, czy występują duże różnice,
- czy ryzyko inwestycji jest małe, czy duże,
- czy średnia dobrze opisuje całą grupę, czy ukrywa duże rozbieżności.
Dlaczego sama średnia nie wystarcza?
Rozważmy dwa zestawy ocen:
| Student | Oceny | Średnia | Ocena sytuacji |
|---|---|---|---|
| A | \(4,\ 4,\ 4,\ 4\) | \(4\) | wyniki całkowicie stabilne |
| B | \(3,\ 3,\ 5,\ 5\) | \(4\) | wyniki bardziej rozproszone |
W obu przypadkach średnia jest taka sama:
\[ \bar{x}=4 \]
Różnica polega na tym, że w pierwszym zestawie wszystkie oceny są identyczne, a w drugim występują odchylenia od średniej. Miary położenia pokazują więc poziom typowy, natomiast miary zróżnicowania pokazują, jak bardzo dane wokół tego poziomu się rozchodzą. Szerzej o średniej i innych miarach położenia piszemy w artykule Miary położenia w statystyce opisowej.
Najważniejsze miary zróżnicowania
Miary zróżnicowania można podzielić na kilka grup. W podstawowej statystyce opisowej najczęściej omawia się rozstęp, odchylenie przeciętne, wariancję, odchylenie standardowe, rozstęp kwartylowy oraz współczynniki zmienności.

| Miara | Rodzaj | Co opisuje? | Wrażliwość na wartości skrajne |
|---|---|---|---|
| Rozstęp | absolutna, skrajna | różnicę między największą i najmniejszą wartością | bardzo duża |
| Odchylenie przeciętne | klasyczna | przeciętne bezwzględne odchylenie wartości od średniej lub mediany | umiarkowana |
| Wariancja | klasyczna | przeciętny kwadrat odchyleń od średniej | duża |
| Odchylenie standardowe | klasyczna | typową wielkość odchylenia od średniej | duża |
| Rozstęp kwartylowy | pozycyjna | rozpiętość środkowych około \(50\%\) obserwacji | mała |
| Odchylenie ćwiartkowe | pozycyjna | połowę rozstępu kwartylowego | mała |
| Współczynnik zmienności | względna | zróżnicowanie odniesione do poziomu przeciętnego | zależy od użytej miary w liczniku |
Miary klasyczne, takie jak wariancja i odchylenie standardowe, opierają się zwykle na średniej arytmetycznej. Miary pozycyjne, takie jak rozstęp kwartylowy, odchylenie ćwiartkowe i pozycyjny współczynnik zmienności, opierają się na kwartylach i medianie. Dlatego są mniej wrażliwe na wartości odstające.
Kiedy miary zróżnicowania są równe zero?
Dla najczęściej stosowanych miar zróżnicowania obowiązuje bardzo ważna zasada: jeżeli wszystkie wartości w zbiorze są jednakowe, zróżnicowanie wynosi zero.
Jeżeli wszystkie obserwacje mają tę samą wartość, to rozstęp, wariancja, odchylenie standardowe, odchylenie przeciętne i rozstęp kwartylowy są równe zero.
Przykład:
\[ 4,\ 4,\ 4,\ 4 \]
W tym zbiorze nie ma żadnego rozproszenia, ponieważ każda obserwacja jest taka sama. Średnia wynosi \(4\), mediana wynosi \(4\), a każda wartość jest dokładnie równa poziomowi typowemu.
Rozstęp
Rozstęp jest najprostszą miarą zróżnicowania. Obliczamy go jako różnicę między największą i najmniejszą wartością w zbiorze.
Wzór na rozstęp:
\[ R=x_{\max}-x_{\min} \]
Dla danych:
\[ 3,\ 3,\ 5,\ 5 \]
najmniejsza wartość wynosi \(3\), a największa \(5\), więc:
\[ R=5-3=2 \]
Rozstęp jest bardzo łatwy do obliczenia, ale ma poważną wadę: zależy tylko od dwóch wartości skrajnych. Nie mówi nic o tym, jak rozłożone są pozostałe obserwacje.
Przykładowo zbiory:
\[ 1,\ 5,\ 5,\ 5,\ 9 \]
oraz
\[ 1,\ 2,\ 5,\ 8,\ 9 \]
mają ten sam rozstęp równy \(8\), ale rozkład wartości wewnątrz zbioru jest inny.
Odchylenie przeciętne
Odchylenie przeciętne pokazuje, o ile przeciętnie wartości różnią się od wybranej miary położenia. Najczęściej liczy się odchylenie przeciętne od średniej arytmetycznej albo od mediany.
Idea jest prosta: najpierw obliczamy odchylenia od średniej, następnie bierzemy ich wartości bezwzględne, sumujemy je i dzielimy przez liczbę obserwacji.
Odchylenie przeciętne od średniej:
\[ d=\frac{|x_1-\bar{x}|+|x_2-\bar{x}|+\ldots+|x_n-\bar{x}|}{n} \]
Dla danych:
\[ 3,\ 3,\ 5,\ 5 \]
średnia wynosi:
\[ \bar{x}=\frac{3+3+5+5}{4}=4 \]
Odchylenia bezwzględne od średniej wynoszą:
\[ |3-4|=1,\quad |3-4|=1,\quad |5-4|=1,\quad |5-4|=1 \]
Zatem:
\[ d=\frac{1+1+1+1}{4}=1 \]
Odchylenie przeciętne wynosi \(1\), co oznacza, że oceny różnią się od średniej przeciętnie o \(1\) punkt.
Odchylenie przeciętne jest intuicyjne, bo mówi o przeciętnym dystansie od środka rozkładu. W praktyce jednak częściej stosuje się wariancję i odchylenie standardowe, ponieważ mają większe znaczenie w dalszych metodach statystycznych.
Uwaga: odchylenie przeciętne i odchylenie standardowe mierzą podobną rzecz, ale nie są tą samą miarą. Obie miary są równe zero wtedy, gdy nie ma żadnego zróżnicowania. Przy danych bez silnych wartości odstających mogą dawać podobny obraz zmienności, ale wartości liczbowe nie muszą być identyczne.
Wariancja
Wariancja jest jedną z podstawowych klasycznych miar zróżnicowania. Opiera się na kwadratach odchyleń od średniej arytmetycznej.
Dla populacji wariancję można zapisać następująco:
Wariancja populacyjna:
\[ \sigma^2=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2}{n} \]
Wariancja informuje o przeciętnym kwadracie odchyleń od średniej. Ponieważ odchylenia są podnoszone do kwadratu, większe odchylenia mają szczególnie silny wpływ na wynik.
Szczegółowe omówienie wariancji oraz różnicy między wariancją populacyjną i próbkową znajduje się w artykule Odchylenie standardowe i wariancja.
Odchylenie standardowe
Odchylenie standardowe jest pierwiastkiem z wariancji. Jest bardzo popularną miarą zróżnicowania, ponieważ wyraża rozproszenie w tych samych jednostkach, w których mierzymy badaną cechę.
Odchylenie standardowe populacyjne:
\[ \sigma=\sqrt{\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2}{n}} \]
Jeżeli analizujemy oceny, odchylenie standardowe jest wyrażone w punktach oceny. Jeżeli analizujemy wynagrodzenia, jest wyrażone w złotych. Jeżeli analizujemy wzrost, jest wyrażone w centymetrach.
Odchylenie standardowe jest szczególnie użyteczne wtedy, gdy chcemy opisać typową skalę odchyleń od średniej. Trzeba jednak pamiętać, że jest miarą klasyczną, a więc może być silnie podwyższane przez wartości odstające.
W tym artykule traktujemy odchylenie standardowe jako jedną z miar zróżnicowania. Dokładne przykłady obliczeń, interpretację i porównanie z wariancją omawia osobny tekst: Odchylenie standardowe i wariancja.
Przykład: wariancja i odchylenie standardowe
Weźmy ponownie dane:
\[ 3,\ 3,\ 5,\ 5 \]
Średnia wynosi:
\[ \bar{x}=4 \]
Odchylenia od średniej to:
\[ -1,\ -1,\ 1,\ 1 \]
Kwadraty odchyleń wynoszą:
\[ 1,\ 1,\ 1,\ 1 \]
Wariancja populacyjna wynosi:
\[ \sigma^2=\frac{1+1+1+1}{4}=1 \]
Odchylenie standardowe wynosi:
\[ \sigma=\sqrt{1}=1 \]
W tym prostym przykładzie odchylenie standardowe wynosi \(1\), czyli tyle samo co odchylenie przeciętne od średniej. Nie należy jednak traktować tego jako ogólnej reguły. W innych zbiorach danych wartości te mogą się różnić.
Rozstęp kwartylowy i odchylenie ćwiartkowe
Miary pozycyjne zróżnicowania opierają się na kwartylach. Najważniejszą z nich jest rozstęp kwartylowy, oznaczany często jako \(IQR\).
Rozstęp kwartylowy:
\[ IQR=Q_3-Q_1 \]
Rozstęp kwartylowy pokazuje szerokość środkowej części rozkładu, obejmującej około \(50\%\) obserwacji. Ponieważ pomija najbardziej skrajne \(25\%\) najniższych i \(25\%\) najwyższych wartości, jest znacznie mniej wrażliwy na wartości odstające niż rozstęp, wariancja czy odchylenie standardowe.
Drugą prostą miarą pozycyjną jest odchylenie ćwiartkowe, czyli połowa rozstępu kwartylowego:
Odchylenie ćwiartkowe:
\[ Q=\frac{Q_3-Q_1}{2} \]
Kwartyle omawiamy szerzej w artykule Kwantyle w szeregu szczegółowym. Ich interpretacja jako miar położenia została też przedstawiona w artykule Miary położenia w statystyce opisowej.
Miary klasyczne a miary pozycyjne
W statystyce opisowej często porównuje się miary klasyczne i pozycyjne. Miary klasyczne, takie jak wariancja i odchylenie standardowe, wykorzystują średnią arytmetyczną i wszystkie wartości w zbiorze. Miary pozycyjne, takie jak rozstęp kwartylowy, odchylenie ćwiartkowe i pozycyjny współczynnik zmienności, opierają się na położeniu wartości w uporządkowanym szeregu.
| Cecha porównania | Miary klasyczne | Miary pozycyjne |
|---|---|---|
| Punkt odniesienia | najczęściej średnia arytmetyczna | najczęściej mediana i kwartyle |
| Wrażliwość na wartości odstające | duża | mała |
| Wykorzystanie wszystkich obserwacji | tak | nie w takim samym sensie; ważna jest pozycja w szeregu |
| Przykłady | wariancja, odchylenie standardowe, odchylenie przeciętne od średniej | rozstęp kwartylowy, odchylenie ćwiartkowe, pozycyjny współczynnik zmienności |
Gdy dane są dość symetryczne i nie zawierają silnych wartości odstających, miary klasyczne i pozycyjne zwykle prowadzą do podobnych wniosków. Gdy jednak pojawiają się obserwacje nietypowe, wartości miar klasycznych mogą znacznie wzrosnąć, podczas gdy miary pozycyjne pozostaną bardziej stabilne.
Współczynnik zmienności
Dotychczas omawialiśmy głównie bezwzględne miary zróżnicowania, czyli takie, które są wyrażone w jednostkach badanej cechy albo ich kwadratach. Czasem jednak chcemy porównać zmienność dwóch różnych zjawisk, na przykład wynagrodzeń w dwóch grupach, cen dwóch produktów albo wyników dwóch testów. Wtedy przydatne są względne miary zróżnicowania.
Najbardziej znaną względną miarą jest klasyczny współczynnik zmienności, który porównuje odchylenie standardowe ze średnią arytmetyczną.
Klasyczny współczynnik zmienności:
\[ V_s=\frac{s}{\bar{x}}\cdot 100\% \]
gdzie \(s\) oznacza odchylenie standardowe, a \(\bar{x}\) średnią arytmetyczną. W praktyce często stosuje się wartość bezwzględną średniej w mianowniku:
\[ V_s=\frac{s}{|\bar{x}|}\cdot 100\% \]
Współczynnik zmienności informuje, jak duże jest odchylenie standardowe w stosunku do przeciętnego poziomu zjawiska. Dzięki temu można porównywać zmienność danych wyrażonych w różnych jednostkach albo mających różne poziomy średnie.
Jak interpretować współczynnik zmienności?
Orientacyjnie można przyjąć, że im większy współczynnik zmienności, tym większe względne zróżnicowanie danych. Progi interpretacyjne zależą jednak od dziedziny i rodzaju danych, dlatego należy traktować je ostrożnie.
| Wartość współczynnika zmienności | Przykładowa interpretacja |
|---|---|
| \(0\%\) | brak zróżnicowania; wszystkie wartości są jednakowe |
| do około \(10\%\) | bardzo małe zróżnicowanie |
| około \(10\%\text{ – }20\%\) | małe lub umiarkowane zróżnicowanie |
| około \(20\%\text{ – }40\%\) | wyraźne zróżnicowanie |
| powyżej \(40\%\) | duże zróżnicowanie |
| powyżej \(100\%\) | bardzo duże zróżnicowanie; odchylenie standardowe przekracza poziom średniej |
Współczynnik zmienności większy niż \(100\%\) nie jest błędem rachunkowym ani wynikiem niemożliwym. Oznacza po prostu, że odchylenie standardowe jest większe niż średnia. Może się tak zdarzyć na przykład przy bardzo silnie zróżnicowanych dochodach, sprzedaży, stopach zwrotu albo danych z wartościami odstającymi.
Uwaga: współczynnik zmienności trzeba interpretować szczególnie ostrożnie, gdy średnia jest bliska zeru albo gdy w danych występują zarówno wartości dodatnie, jak i ujemne. Wtedy mianownik może być bardzo mały, a współczynnik zmienności może przyjmować bardzo duże albo trudne do sensownej interpretacji wartości.
Jeżeli średnia \(\bar{x}\) jest równa zero, klasycznego współczynnika zmienności nie można obliczyć, ponieważ nie wolno dzielić przez zero.
Pozycyjny współczynnik zmienności
Oprócz klasycznego współczynnika zmienności można stosować także pozycyjny współczynnik zmienności. Zamiast odchylenia standardowego i średniej wykorzystuje on odchylenie ćwiartkowe oraz medianę.
Pozycyjny współczynnik zmienności:
\[ V_Q=\frac{Q}{Me}\cdot 100\% \]
gdzie:
\[ Q=\frac{Q_3-Q_1}{2} \]
W praktyce, zwłaszcza gdy mediana może być ujemna, stosuje się także zapis z wartością bezwzględną mediany:
\[ V_Q=\frac{Q}{|Me|}\cdot 100\% \]
Pozycyjny współczynnik zmienności jest mniej wrażliwy na wartości skrajne niż klasyczny współczynnik zmienności, ponieważ opiera się na kwartylach i medianie. Jeżeli jednak mediana jest równa zero, także tej miary nie można obliczyć w zwykły sposób, ponieważ wystąpiłoby dzielenie przez zero.
Klasyczny i pozycyjny współczynnik zmienności często prowadzą do podobnych wniosków, jeżeli rozkład danych jest dość regularny i nie zawiera silnych wartości odstających. Mogą jednak dawać wyraźnie różne wyniki, gdy w zbiorze pojawiają się obserwacje skrajne. Wtedy miara klasyczna zwykle mocniej reaguje na nietypowe wartości, a miara pozycyjna pozostaje stabilniejsza.
Przykład porównania miary klasycznej i pozycyjnej
Rozważmy dwa zbiory danych:
| Zbiór | Wartości | Średnia | Mediana | Rozstęp |
|---|---|---|---|---|
| A | \(8,\ 9,\ 10,\ 11,\ 12\) | \(10\) | \(10\) | \(4\) |
| B | \(8,\ 9,\ 10,\ 11,\ 100\) | \(27{,}6\) | \(10\) | \(92\) |
W zbiorze B pojawia się wartość odstająca \(100\). Średnia i rozstęp reagują na nią bardzo silnie. Mediana pozostaje jednak równa \(10\), ponieważ zależy od pozycji środkowej wartości w uporządkowanym szeregu.
To samo zjawisko występuje przy miarach zróżnicowania: klasyczne miary, takie jak odchylenie standardowe, zwykle mocno wzrosną pod wpływem wartości odstającej. Miary pozycyjne, oparte na kwartylach, będą bardziej odporne.
Miary zróżnicowania w szeregu przedziałowym
Jeżeli dane są przedstawione w postaci szeregu przedziałowego, dokładne wartości obserwacji nie są znane. Wtedy do obliczeń wykorzystuje się najczęściej środki przedziałów oraz liczebności. Podstawy budowania i odczytywania szeregów statystycznych omawia artykuł Szeregi statystyczne i formy prezentacji danych.
Dla szeregu przedziałowego wariancję można obliczać w przybliżeniu według schematu:
Wariancja dla szeregu z liczebnościami:
\[ \sigma^2=\frac{\sum_{i=1}^{k} n_i(x_i-\bar{x})^2}{n} \]
gdzie \(x_i\) oznacza środek przedziału, \(n_i\) liczebność danego przedziału, a \(n\) łączną liczbę obserwacji.
Takie obliczenie jest przybliżeniem, ponieważ nie znamy rzeczywistego położenia obserwacji wewnątrz przedziałów. Zakładamy jedynie, że środek przedziału reprezentuje wszystkie wartości należące do tego przedziału.
Najczęstsze błędy przy interpretacji miar zróżnicowania
1. Ocenianie danych wyłącznie po średniej
Ta sama średnia może występować przy bardzo różnym poziomie zróżnicowania. Dlatego średnią warto interpretować razem z odchyleniem standardowym, rozstępem kwartylowym albo inną miarą rozproszenia.
2. Mylenie wariancji z odchyleniem standardowym
Wariancja jest wyrażona w kwadratach jednostek badanej cechy, natomiast odchylenie standardowe — w tych samych jednostkach co dane. Dlatego w opisowej interpretacji często wygodniejsze jest odchylenie standardowe. Szczegółowo wyjaśniamy to w artykule Odchylenie standardowe i wariancja.
3. Bezrefleksyjne używanie współczynnika zmienności
Współczynnik zmienności jest bardzo użyteczny, ale nie zawsze ma sensowną interpretację. Szczególną ostrożność trzeba zachować, gdy średnia lub mediana są bliskie zeru, równe zeru albo gdy dane przyjmują zarówno wartości dodatnie, jak i ujemne.
4. Ignorowanie wartości odstających
Wartości odstające mogą bardzo silnie wpływać na rozstęp, wariancję, odchylenie standardowe i klasyczny współczynnik zmienności. W takich sytuacjach warto porównać wyniki z miarami pozycyjnymi, takimi jak rozstęp kwartylowy i pozycyjny współczynnik zmienności.
Zadanie dla czytelnika
Porównaj dwa zestawy ocen
Dane są dwa zestawy ocen:
\[ A:\ 4,\ 4,\ 4,\ 4 \]
\[ B:\ 3,\ 3,\ 5,\ 5 \]
Oblicz średnią, rozstęp i odchylenie przeciętne od średniej dla obu zestawów. Następnie odpowiedz, który zestaw jest bardziej zróżnicowany.
Pokaż rozwiązanie
Dla zestawu \(A\):
\[ \bar{x}_A=\frac{4+4+4+4}{4}=4 \]
\[ R_A=4-4=0 \]
Wszystkie odchylenia od średniej są równe zero, więc:
\[ d_A=0 \]
Dla zestawu \(B\):
\[ \bar{x}_B=\frac{3+3+5+5}{4}=4 \]
\[ R_B=5-3=2 \]
Odchylenia bezwzględne od średniej wynoszą:
\[ |3-4|=1,\quad |3-4|=1,\quad |5-4|=1,\quad |5-4|=1 \]
Zatem:
\[ d_B=\frac{1+1+1+1}{4}=1 \]
Oba zestawy mają tę samą średnią równą \(4\), ale zestaw \(B\) jest bardziej zróżnicowany, ponieważ ma większy rozstęp i większe odchylenie przeciętne.
Podsumowanie
Miary zróżnicowania uzupełniają miary położenia. Średnia, mediana albo dominanta pokazują, gdzie znajduje się typowy poziom danych, ale dopiero miary zróżnicowania informują, czy wartości są skupione blisko tego poziomu, czy silnie rozproszone.
Rozstęp jest najprostszy, ale bardzo wrażliwy na wartości skrajne. Odchylenie przeciętne pokazuje przeciętny dystans od średniej lub mediany. Wariancja i odchylenie standardowe należą do najważniejszych klasycznych miar zmienności. Rozstęp kwartylowy i odchylenie ćwiartkowe są miarami pozycyjnymi, bardziej odpornymi na wartości odstające. Współczynnik zmienności pozwala porównywać względne zróżnicowanie różnych zbiorów danych.
Najważniejsza zasada interpretacyjna jest prosta: im większe miary zróżnicowania, tym bardziej rozproszone są dane. Trzeba jednak zawsze zwracać uwagę na typ danych, obecność wartości odstających oraz to, czy stosujemy miary klasyczne, czy pozycyjne.
Powiązane artykuły
- Miary statystyczne w statystyce opisowej
- Miary położenia, statystyka opisowa, średnia, mediana, dominanta, kwartyle.
- Kwantyle w szeregu szczegółowym
- Odchylenie standardowe i wariancja, jako miary rozrzutu
- Szeregi statystyczne i formy prezentacji danych
- Miary asymetrii w statystyce opisowej — asymetria prawostronna i lewostronna
- Kurtoza, eksces i koncentracja w statystyce opisowej
- Średnia niejedno ma imię
Masz problem z tym tematem?
Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę, rachunkowość i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku.
Zapytaj o pomoc