Krzywa Lorenza i współczynnik Giniego — miary koncentracji
Krzywa Lorenza i współczynnik Giniego służą do badania koncentracji wartości cechy. Pokazują, czy suma badanej cechy jest rozłożona równomiernie między jednostki, czy też skupia się w rękach niewielkiej części zbiorowości.
W statystyce opisowej mówimy o różnych rodzajach miar. Miary położenia pokazują, gdzie znajduje się typowy poziom danych. Miary zróżnicowania opisują rozproszenie wartości. Miary asymetrii informują, czy rozkład ma dłuższy ogon po lewej lub prawej stronie. Z kolei kurtoza i eksces opisują koncentrację rozkładu wokół środka oraz zachowanie ogonów.
Krzywa Lorenza i współczynnik Giniego należą do innego ujęcia koncentracji. Nie pytają o to, czy rozkład jest spiczasty albo spłaszczony, lecz o to, jak nierównomiernie suma wartości cechy jest rozdzielona między jednostki. Najczęściej stosuje się je do analizy dochodów, majątku, sprzedaży, udziałów rynkowych albo innych wielkości nieujemnych, które można sumować.
Uwaga terminologiczna: słowo „koncentracja” może oznaczać różne rzeczy. W artykule o kurtozie, ekscesie i koncentracji chodzi o koncentrację rozkładu wokół środka i zachowanie ogonów. Tutaj natomiast chodzi o koncentrację sumy wartości cechy między jednostkami, mierzoną za pomocą krzywej Lorenza i współczynnika Giniego.
Uwaga językowa: poprawna nazwa to krzywa Lorenza, a nie „krzywa Lorentza”. Współczynnik zapisujemy jako współczynnik Giniego.
Czym jest koncentracja wartości cechy?
Koncentracja wartości cechy oznacza, że duża część łącznej sumy tej cechy przypada na niewielką część jednostek. Przykładowo, jeżeli w pewnej grupie kilka osób posiada większość całego majątku, mówimy o silnej koncentracji majątku.
Podobnie może być ze sprzedażą przedsiębiorstw, liczbą klientów, powierzchnią gospodarstw rolnych albo udziałami w rynku. W każdym z tych przypadków interesuje nas nie tylko to, jakie wartości mają poszczególne jednostki, ale także to, jaka część całkowitej sumy przypada na kolejne części zbiorowości.
Koncentracja wartości cechy oznacza nierównomierny podział łącznej sumy tej cechy między jednostki. Im większa część sumy skupia się w niewielkiej liczbie jednostek, tym większa koncentracja.
Współczynnik Giniego i krzywa Lorenza są szczególnie użyteczne wtedy, gdy badana cecha jest nieujemna i addytywna, czyli można sensownie sumować jej wartości. Dlatego dobrze nadają się do analizy dochodów, majątku, produkcji, sprzedaży albo udziałów rynkowych.
Krzywa Lorenza — intuicja
Krzywa Lorenza pokazuje, jaka część łącznej sumy cechy przypada na kolejne części zbiorowości uporządkowanej od najmniejszych wartości do największych.
Na osi poziomej odkładamy skumulowany udział jednostek, na przykład osób, gospodarstw domowych albo przedsiębiorstw. Na osi pionowej odkładamy skumulowany udział sumy cechy, na przykład dochodów, majątku albo sprzedaży.
Jeżeli analizujemy dochody, to krzywa Lorenza odpowiada na pytania w rodzaju:
- jaki procent łącznego dochodu przypada na najbiedniejsze \(25\%\) osób,
- jaki procent łącznego dochodu przypada na najbiedniejsze \(50\%\) osób,
- jaki procent łącznego dochodu przypada na najbiedniejsze \(75\%\) osób,
- jak bardzo rzeczywisty rozkład dochodów odbiega od pełnej równości.
Przekątna pełnej równości
Na wykresie krzywej Lorenza bardzo ważna jest przekątna pełnej równości. Jest to linia, która biegnie od punktu \((0,0)\) do punktu \((1,1)\), czyli od \(0\%\) jednostek i \(0\%\) sumy cechy do \(100\%\) jednostek i \(100\%\) sumy cechy.
Gdyby każdy miał dokładnie tyle samo, krzywa Lorenza pokrywałaby się z tą przekątną. Wtedy:
- \(25\%\) osób miałoby \(25\%\) łącznego dochodu,
- \(50\%\) osób miałoby \(50\%\) łącznego dochodu,
- \(75\%\) osób miałoby \(75\%\) łącznego dochodu,
- \(100\%\) osób miałoby \(100\%\) łącznego dochodu.
W rzeczywistych danych krzywa Lorenza zwykle przebiega poniżej przekątnej pełnej równości. Im bardziej oddala się od przekątnej, tym większa jest koncentracja wartości cechy.
Intuicja graficzna: im większy obszar między przekątną pełnej równości a krzywą Lorenza, tym większa koncentracja i tym większy współczynnik Giniego.
Jak zbudować krzywą Lorenza?
Aby zbudować krzywą Lorenza, wykonujemy kilka kroków:
- Porządkujemy jednostki rosnąco według wartości badanej cechy.
- Obliczamy sumę wszystkich wartości cechy.
- Obliczamy skumulowany udział jednostek.
- Obliczamy skumulowany udział wartości cechy.
- Na wykresie zaznaczamy punkty i łączymy je linią.
Dla uporządkowanych wartości:
\[ x_1 \leq x_2 \leq \ldots \leq x_n \]
skumulowany udział jednostek dla \(i\)-tej pozycji wynosi:
\[ P_i=\frac{i}{n} \]
a skumulowany udział wartości cechy:
\[ Q_i=\frac{x_1+x_2+\ldots+x_i}{x_1+x_2+\ldots+x_n} \]
Dodatkowo przyjmujemy punkt początkowy:
\[ P_0=0,\qquad Q_0=0 \]
Prosty przykład krzywej Lorenza
Załóżmy, że cztery osoby osiągają dochody:
\[ 2,\ 2,\ 6,\ 10 \]
Dane są już uporządkowane rosnąco. Suma dochodów wynosi:
\[ 2+2+6+10=20 \]
Budujemy tabelę udziałów skumulowanych:
| Osoba | Dochód | Skumulowany udział osób | Skumulowany udział dochodu |
|---|---|---|---|
| \(0\) | — | \(0\%\) | \(0\%\) |
| \(1\) | \(2\) | \(25\%\) | \(10\%\) |
| \(2\) | \(2\) | \(50\%\) | \(20\%\) |
| \(3\) | \(6\) | \(75\%\) | \(50\%\) |
| \(4\) | \(10\) | \(100\%\) | \(100\%\) |

Interpretacja jest następująca:
- najbiedniejsze \(25\%\) osób ma \(10\%\) łącznego dochodu,
- najbiedniejsze \(50\%\) osób ma \(20\%\) łącznego dochodu,
- najbiedniejsze \(75\%\) osób ma \(50\%\) łącznego dochodu,
- wszystkie osoby razem mają \(100\%\) dochodu.
Gdyby dochody były rozłożone idealnie równo, to \(50\%\) osób miałoby \(50\%\) dochodu. W naszym przykładzie \(50\%\) osób ma tylko \(20\%\) dochodu, więc widzimy wyraźną nierównomierność.
Współczynnik Giniego
Współczynnik Giniego jest liczbową miarą koncentracji wartości cechy. Pokazuje, jak daleko rzeczywisty rozkład odbiega od pełnej równości.
Współczynnik Giniego mierzy nierównomierność rozkładu sumy wartości cechy między jednostki. Im większy współczynnik Giniego, tym większa koncentracja wartości cechy.
Dla nieujemnych wartości cechy współczynnik Giniego przyjmuje zwykle wartości od \(0\) do \(1\). Czasem podaje się go także w procentach, od \(0\%\) do \(100\%\).
| Wartość współczynnika Giniego | Interpretacja |
|---|---|
| \(G=0\) | pełna równość; każda jednostka ma taki sam udział w sumie cechy |
| \(0<G<1\) | częściowa koncentracja; im większa wartość, tym większa nierównomierność |
| \(G\) bliskie \(1\) | bardzo silna koncentracja wartości cechy w niewielkiej liczbie jednostek |
Warto pamiętać, że współczynnik Giniego nie mówi, czy poziom dochodów jest wysoki czy niski. Dwie grupy mogą mieć taki sam współczynnik Giniego, ale zupełnie inny przeciętny poziom dochodów. Dlatego współczynnik Giniego warto interpretować razem z innymi miarami, na przykład średnią, medianą i kwartylami.
Geometryczna interpretacja współczynnika Giniego
Współczynnik Giniego można interpretować geometrycznie na wykresie krzywej Lorenza. Niech:
- \(A\) oznacza pole między przekątną pełnej równości a krzywą Lorenza,
- \(B\) oznacza pole pod krzywą Lorenza.
Wtedy:
\[ G=\frac{A}{A+B} \]
Ponieważ całe pole pod przekątną pełnej równości wynosi \(\frac{1}{2}\), można też zapisać:
\[ G=2A \]
albo:
\[ G=1-2B \]
Ta interpretacja dobrze pokazuje sens miary: im bardziej krzywa Lorenza oddala się od przekątnej pełnej równości, tym większe pole \(A\), a więc tym większy współczynnik Giniego.
Wzór na współczynnik Giniego dla danych szczegółowych
Jednym z wygodnych wzorów na współczynnik Giniego dla uporządkowanych rosnąco, nieujemnych wartości:
\[ x_1 \leq x_2 \leq \ldots \leq x_n \]
jest wzór:
Współczynnik Giniego:
\[ G=\frac{2\sum_{i=1}^{n} i x_i}{n\sum_{i=1}^{n}x_i}-\frac{n+1}{n} \]
gdzie:
- \(x_i\) — uporządkowane rosnąco wartości cechy,
- \(i\) — numer pozycji w uporządkowanym szeregu,
- \(n\) — liczba jednostek.
Ten wzór jest wygodny przy niewielkich zbiorach danych, ponieważ pozwala obliczyć współczynnik Giniego bez rysowania krzywej Lorenza.
Uwaga: przed użyciem tego wzoru wartości muszą być uporządkowane rosnąco. Jeżeli kolejność zostanie pomylona, wynik może być błędny.
Przykład obliczania współczynnika Giniego
Obliczmy współczynnik Giniego dla danych:
\[ 2,\ 2,\ 6,\ 10 \]
Dane są już uporządkowane rosnąco. Najpierw obliczamy sumę wartości:
\[ \sum_{i=1}^{n}x_i = 2+2+6+10=20 \]
Następnie obliczamy sumę \(i x_i\):
\[ \sum_{i=1}^{n}i x_i =1\cdot 2+2\cdot 2+3\cdot 6+4\cdot 10 \]
\[ =2+4+18+40=64 \]
Podstawiamy do wzoru:
\[ G=\frac{2\cdot 64}{4\cdot 20}-\frac{4+1}{4} \]
\[ G=\frac{128}{80}-\frac{5}{4} \]
\[ G=1{,}6-1{,}25=0{,}35 \]
Współczynnik Giniego wynosi:
\[ G=0{,}35 \]
Oznacza to umiarkowaną koncentrację wartości cechy. Rozkład nie jest równy, ale nie mamy też do czynienia z sytuacją skrajnej koncentracji.
Przykład pełnej równości i silnej koncentracji
Dla porównania rozważmy trzy zbiory danych:
| Zbiór | Wartości | Interpretacja |
|---|---|---|
| A | \(5,\ 5,\ 5,\ 5\) | pełna równość; brak koncentracji |
| B | \(2,\ 2,\ 6,\ 10\) | umiarkowana koncentracja |
| C | \(0,\ 0,\ 0,\ 20\) | bardzo silna koncentracja |
W zbiorze A każda jednostka ma taką samą wartość, więc współczynnik Giniego wynosi \(0\). W zbiorze B wartości są nierówne, ale nie cała suma przypada jednej jednostce. W zbiorze C prawie cała suma wartości cechy skupia się w jednej jednostce, dlatego koncentracja jest bardzo silna.
Współczynnik Giniego a średnia, mediana i asymetria
Współczynnik Giniego nie zastępuje średniej, mediany ani miar asymetrii. Odpowiada na inne pytanie.
| Miara | Odpowiada na pytanie |
|---|---|
| Średnia | jaki jest przeciętny poziom wartości? |
| Mediana | jaka wartość dzieli zbiór na dwie równe części? |
| Asymetria | po której stronie rozkładu znajduje się dłuższy ogon? |
| Kurtoza i eksces | jak rozkład zachowuje się względem koncentracji wokół środka i ogonów? |
| Współczynnik Giniego | jak nierównomiernie suma cechy jest podzielona między jednostki? |
Przykładowo dwa kraje mogą mieć podobny średni dochód, ale różny współczynnik Giniego. Oznaczałoby to, że przeciętny poziom dochodu jest podobny, ale nierówności dochodowe są inne.
Podobnie rozkład dochodów może być prawostronnie asymetryczny, ponieważ ma długi ogon wysokich wartości, ale współczynnik Giniego dodatkowo pokazuje, jak silnie łączna suma dochodu koncentruje się wśród bogatszej części populacji.
Kiedy warto stosować współczynnik Giniego?
Współczynnik Giniego warto stosować wtedy, gdy interesuje nas nierównomierność podziału sumy wartości cechy. Typowe zastosowania to:
- analiza nierówności dochodowych,
- analiza nierówności majątkowych,
- badanie koncentracji sprzedaży między przedsiębiorstwami,
- badanie koncentracji udziałów rynkowych,
- analiza koncentracji produkcji, powierzchni gospodarstw albo liczby klientów.
Nie należy jednak stosować współczynnika Giniego mechanicznie do każdej zmiennej. Najlepiej sprawdza się dla wartości nieujemnych, które można sumować i interpretować jako udziały w całości.
Ograniczenia współczynnika Giniego
Współczynnik Giniego jest bardzo użyteczny, ale ma też ograniczenia.
- Nie pokazuje, gdzie dokładnie występują nierówności — dwie różne krzywe Lorenza mogą dać podobną wartość współczynnika.
- Nie informuje o przeciętnym poziomie cechy — mówi o nierównomierności, a nie o wysokości dochodów czy majątku.
- Wymaga ostrożności przy danych z wartościami ujemnymi, ponieważ klasyczna interpretacja udziałów w sumie może wtedy tracić sens.
- Nie mówi nic o przyczynach nierówności — jest miarą opisową, a nie wyjaśniającą.
Ważne: współczynnik Giniego jest miarą opisową. Pokazuje skalę koncentracji, ale sam nie wyjaśnia, dlaczego koncentracja występuje ani czy jest społecznie, ekonomicznie lub organizacyjnie pożądana.
Najczęstsze błędy przy interpretacji współczynnika Giniego
1. Mylenie nierówności z poziomem dochodu
Współczynnik Giniego nie mówi, czy ludzie są bogaci czy biedni. Mówi tylko, jak nierównomiernie rozłożona jest suma dochodu. Możliwa jest sytuacja, w której dwa kraje mają podobny współczynnik Giniego, ale zupełnie inny poziom przeciętnych dochodów.
2. Pomijanie krzywej Lorenza
Sam współczynnik Giniego jest jedną liczbą. Krzywa Lorenza pokazuje więcej szczegółów, ponieważ pozwala zobaczyć, w której części rozkładu pojawia się największe odchylenie od pełnej równości.
3. Stosowanie miary do danych, dla których suma nie ma sensu
Współczynnik Giniego najlepiej działa dla cech, których wartości są nieujemne i mogą być sumowane. Nie ma sensu stosować go do zmiennych jakościowych ani do wielu skal, w których suma wartości nie ma naturalnej interpretacji.
4. Zapominanie o uporządkowaniu danych
Przy korzystaniu ze wzoru dla danych szczegółowych wartości należy uporządkować rosnąco. To samo dotyczy budowy krzywej Lorenza — zaczynamy od jednostek o najmniejszych wartościach cechy i przechodzimy do coraz większych.
Zadanie dla czytelnika
Oblicz współczynnik Giniego
Cztery gospodarstwa domowe mają dochody:
\[ 1,\ 3,\ 3,\ 9 \]
Oblicz współczynnik Giniego ze wzoru:
\[ G=\frac{2\sum_{i=1}^{n} i x_i}{n\sum_{i=1}^{n}x_i}-\frac{n+1}{n} \]
Następnie zinterpretuj otrzymany wynik.
Pokaż rozwiązanie
Dane są już uporządkowane rosnąco:
\[ 1,\ 3,\ 3,\ 9 \]
Obliczamy sumę dochodów:
\[ \sum x_i=1+3+3+9=16 \]
Następnie liczymy:
\[ \sum i x_i=1\cdot 1+2\cdot 3+3\cdot 3+4\cdot 9 \]
\[ =1+6+9+36=52 \]
Podstawiamy do wzoru:
\[ G=\frac{2\cdot 52}{4\cdot 16}-\frac{4+1}{4} \]
\[ G=\frac{104}{64}-\frac{5}{4} \]
\[ G=1{,}625-1{,}25=0{,}375 \]
Współczynnik Giniego wynosi:
\[ G=0{,}375 \]
Wynik jest wyraźnie większy od zera, ale daleki od jedności. Oznacza to umiarkowaną lub dość znaczną koncentrację dochodów. Dochody nie są rozłożone równo, ponieważ ostatnie gospodarstwo ma wyraźnie większy udział w sumie dochodów niż pozostałe.
Podsumowanie
Krzywa Lorenza i współczynnik Giniego służą do badania koncentracji wartości cechy. Krzywa Lorenza pokazuje graficznie, jaka część sumy cechy przypada na kolejne części uporządkowanej zbiorowości. Przekątna pełnej równości pokazuje sytuację idealnie równomiernego podziału.
Współczynnik Giniego jest liczbową miarą odchylenia od pełnej równości. Wartość \(0\) oznacza pełną równość, a wartości bliższe \(1\) oznaczają coraz silniejszą koncentrację. Miara ta jest szczególnie przydatna przy analizie dochodów, majątku, sprzedaży, udziałów rynkowych i innych nieujemnych wielkości, które można sumować.
Najważniejsze jest to, aby nie mylić współczynnika Giniego z miarami położenia, asymetrii czy kurtozy. Gini odpowiada na osobne pytanie: jak nierównomiernie łączna suma cechy jest podzielona między jednostki.
Powiązane artykuły
Masz problem z tym tematem?
Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę, rachunkowość i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku.
Zapytaj o pomoc