Testowanie hipotez dotyczących wskaźnika struktury w dwóch populacjach

Mgr inż.

Sebastian Dziarmaga-Działyński

Wirtualna kancelaria korepetytorska i konsultacyjna – wszechwiedza.pl

Testowanie różnicy dwóch wskaźników struktury pozwala sprawdzić, czy udział określonej cechy różni się między dwiema niezależnymi populacjami. W artykule omawiamy test dla dwóch proporcji: hipotezy jedno- i dwustronne, proporcję łączną, warunki stosowania przybliżenia normalnego, wartość p, przedział ufności dla różnicy proporcji oraz najczęstsze błędy.

W wielu badaniach nie interesuje nas już tylko odpowiedź na pytanie, czy pojedynczy wskaźnik struktury jest równy wartości referencyjnej. Chcemy porównać dwa odsetki: skuteczność dwóch metod leczenia, udział produktów wadliwych na dwóch liniach produkcyjnych, poparcie dla danego rozwiązania w dwóch grupach respondentów albo odsetek zdających egzamin w dwóch rocznikach.

Jeżeli obie grupy są niezależne, podstawowym narzędziem jest test dla różnicy dwóch proporcji. Pozwala on ocenić, czy zaobserwowana różnica między wskaźnikami z prób może wynikać z losowego doboru obserwacji, czy też stanowi podstawę do uznania, że proporcje w populacjach są różne.

Artykuł jest rozwinięciem zagadnienia testowania hipotez dotyczących wskaźnika struktury w jednej populacji. Ogólne zasady interpretacji hipotezy zerowej, poziomu istotności i wartości p omówiono natomiast w artykule Testowanie hipotez statystycznych.

Co testujemy?

Niech:

\[ p_1 \]

oznacza wskaźnik struktury w pierwszej populacji, a:

\[ p_2 \]

— wskaźnik struktury w drugiej populacji.

Interesuje nas różnica:

\[ \delta=p_1-p_2 \]

Najczęściej sprawdzamy, czy różnica ta wynosi zero:

\[ \delta=0 \]

co jest równoważne hipotezie o równości wskaźników struktury:

\[ p_1=p_2 \]

W praktyce możemy badać na przykład, czy skuteczność nowej metody jest większa niż metody dotychczasowej, czy odsetek wadliwych produktów jest różny na dwóch liniach produkcyjnych albo czy deklarowane poparcie dla danego rozwiązania różni się między dwiema grupami społecznymi.

Dwie proporcje w dwóch populacjach

Załóżmy, że z pierwszej populacji pobrano próbę o liczebności \(n_1\), w której zaobserwowano \(m_1\) sukcesów. Z drugiej populacji pobrano niezależną próbę o liczebności \(n_2\), w której zaobserwowano \(m_2\) sukcesów.

Wskaźniki struktury z prób wynoszą:

\[ \hat p_1= \frac{m_1}{n_1} \]

\[ \hat p_2= \frac{m_2}{n_2} \]

Naturalnym estymatorem różnicy proporcji jest:

\[ \hat p_1-\hat p_2 \]

Jeżeli wynik jest dodatni, wskaźnik z pierwszej próby jest większy. Jeżeli jest ujemny, większy wskaźnik uzyskano w drugiej próbie.

Sama różnica z prób nie przesądza jednak jeszcze o różnicy w populacjach. Jej interpretacja wymaga uwzględnienia liczebności prób oraz losowej zmienności wskaźników struktury.

Próby niezależne a próby zależne

Klasyczny test dla dwóch wskaźników struktury dotyczy prób niezależnych. Oznacza to, że wynik uzyskany w pierwszej grupie nie jest bezpośrednio powiązany z wynikiem uzyskanym w drugiej grupie.

porównanie odsetka zdających egzamin w dwóch różnych rocznikach,
porównanie udziału produktów wadliwych na dwóch niezależnych liniach produkcyjnych,
porównanie poparcia dla rozwiązania w dwóch niezależnie dobranych grupach respondentów,
porównanie skuteczności dwóch metod stosowanych wobec dwóch odrębnych grup pacjentów.

Inaczej wygląda sytuacja, gdy te same osoby odpowiadają przed i po interwencji albo gdy obserwacje są zestawione w pary. Wtedy próby są zależne i nie należy stosować zwykłego testu dwóch niezależnych proporcji. W takich przypadkach odpowiednią procedurą jest zazwyczaj test McNemara.

Nie stosuj testu dla prób niezależnych do tych samych osób badanych dwa razy

Jeżeli porównujemy odpowiedzi tych samych osób „przed” i „po”, wyniki nie są niezależne. Test dla dwóch niezależnych wskaźników struktury nie uwzględnia tej zależności i może prowadzić do błędnych wniosków.

Hipotezy jedno- i dwustronne

Najczęściej formułujemy hipotezę zerową:

\[ H_0:p_1=p_2 \]

czyli równoważnie:

\[ H_0:p_1-p_2=0 \]

Test dwustronny

\[ H_0:p_1=p_2 \] \[ H_1:p_1\neq p_2 \]

Stosujemy go, gdy interesuje nas każda różnica między proporcjami, niezależnie od jej kierunku.

Test prawostronny

\[ H_0:p_1=p_2 \] \[ H_1:p_1>p_2 \]

Stosujemy go na przykład wtedy, gdy pierwsza metoda ma być skuteczniejsza od drugiej albo gdy oczekujemy większego odsetka sukcesów w pierwszej populacji.

Test lewostronny

\[ H_0:p_1=p_2 \] \[ H_1:p_1

Ten wariant wybieramy wtedy, gdy interesuje nas wyłącznie niższy wskaźnik w pierwszej populacji.

Kierunek testu wybieramy przed analizą danych

Nie należy wybierać testu prawostronnego tylko dlatego, że po zebraniu danych otrzymaliśmy \(\hat p_1>\hat p_2\). Hipoteza alternatywna powinna wynikać z pytania badawczego, projektu badania albo wcześniej przyjętego założenia.

Warunki stosowania testu normalnego

Klasyczny test z dla dwóch proporcji korzysta z przybliżenia normalnego. Jest ono odpowiednie wtedy, gdy w obu próbach oczekiwana liczba sukcesów i porażek przy założeniu prawdziwości \(H_0\) jest dostatecznie duża.

W teście równości proporcji pod hipotezą zerową zakładamy:

\[ p_1=p_2=p \]

Nieznaną wspólną proporcję oszacujemy za pomocą proporcji łącznej \(\hat p\), którą omówimy dokładniej za chwilę. Warunki dużej próby zapisujemy wtedy jako:

\[ n_1\hat p \]

oraz:

\[ n_1(1-\hat p) \]

dla pierwszej próby, a także:

\[ n_2\hat p \]

oraz:

\[ n_2(1-\hat p) \]

dla drugiej próby.

W praktyce często wymaga się, aby każda z tych wartości była nie mniejsza niż 5 lub — ostrożniej — niż 10. Są to reguły praktyczne, które mają zapewnić dostatecznie dobre przybliżenie normalne.

Statystyka testowa dla dwóch proporcji

W klasycznym teście równości dwóch proporcji statystyka ma postać:

\[ Z= \frac{ \hat p_1-\hat p_2 }{ \sqrt{ \hat p(1-\hat p) \left( \frac{1}{n_1}+\frac{1}{n_2} \right) } } \]

gdzie \(\hat p\) jest proporcją łączną obliczoną z obu prób:

\[ \hat p= \frac{ m_1+m_2 }{ n_1+n_2 } \]

Przy prawdziwości hipotezy zerowej statystyka \(Z\) ma w przybliżeniu rozkład normalny standaryzowany:

\[ Z\approx N(0,1) \]

Jeżeli testujemy ogólnie różnicę równą ustalonej wartości \(\delta_0\), statystyka ma postać:

\[ Z= \frac{ (\hat p_1-\hat p_2)-\delta_0 }{ SE_0 } \]

W typowym teście równości proporcji przyjmujemy jednak:

\[ \delta_0=0 \]

Dlaczego w teście stosujemy proporcję łączną?

To jeden z najważniejszych elementów testu dla dwóch proporcji. Jeżeli hipoteza zerowa mówi, że:

\[ H_0:p_1=p_2 \]

to pod hipotezą zerową obie próby mają wspólną proporcję sukcesów. Nie znamy jej, więc estymujemy ją, łącząc informacje z obu prób:

\[ \hat p= \frac{ m_1+m_2 }{ n_1+n_2 } \]

Proporcja łączna jest zatem oszacowaniem wspólnego parametru obowiązującego przy prawdziwości \(H_0\).

Dlatego w mianowniku statystyki testowej występuje:

\[ \sqrt{ \hat p(1-\hat p) \left( \frac{1}{n_1}+\frac{1}{n_2} \right) } \]

Nie używaj proporcji łącznej automatycznie w każdym wzorze

Proporcję łączną \(\hat p\) stosujemy w klasycznym teście równości dwóch proporcji, ponieważ wariancję różnicy wyznaczamy przy założeniu prawdziwości \(H_0:p_1=p_2\).

W przedziale ufności dla różnicy proporcji używamy natomiast osobno \(\hat p_1\) oraz \(\hat p_2\), ponieważ przedział ma opisywać nieznaną rzeczywistą różnicę na podstawie danych, a nie zakładać jej równość zero.

Infografika przedstawiająca dwie niezależne próby, proporcje z prób, proporcję łączną oraz wzór statystyki Z dla testu równości dwóch proporcji — W klasycznym teście równości proporcji proporcję łączną stosujemy pod hipotezą zerową, że oba wskaźniki struktury są równe.

Obszar krytyczny i wartość p

Po obliczeniu wartości \(z_{\text{obs}}\) podejmujemy decyzję przez porównanie jej z odpowiednią wartością krytyczną rozkładu normalnego albo na podstawie wartości p.

Test dwustronny

\[ H_1:p_1\neq p_2 \]

Odrzucamy \(H_0\), gdy:

\[ |z_{\text{obs}}|> u_{\alpha/2} \]

Wartość p wynosi:

\[ p= 2P(Z\geq |z_{\text{obs}}|) \]

Test prawostronny

\[ H_1:p_1>p_2 \]

Odrzucamy \(H_0\), gdy:

\[ z_{\text{obs}}> u_{\alpha} \]

Wartość p wynosi:

\[ p= P(Z\geq z_{\text{obs}}) \]

Test lewostronny

\[ H_1:p_1

Odrzucamy \(H_0\), gdy:

\[ z_{\text{obs}} -u_{\alpha} \]

Wartość p wynosi:

\[ p= P(Z\leq z_{\text{obs}}) \]

Wartości krytyczne można odczytać z tablicy rozkładu normalnego i kalkulatora.

Przedział ufności dla różnicy proporcji

Testowanie hipotezy o równości proporcji warto uzupełnić przedziałem ufności dla różnicy:

\[ p_1-p_2 \]

Klasyczny przybliżony dwustronny przedział ufności \(1-\alpha\) ma postać:

\[ \left( \hat p_1-\hat p_2 - u_{\alpha/2} \sqrt{ \frac{ \hat p_1(1-\hat p_1) }{ n_1 } + \frac{ \hat p_2(1-\hat p_2) }{ n_2 } }, \; \hat p_1-\hat p_2 + u_{\alpha/2} \sqrt{ \frac{ \hat p_1(1-\hat p_1) }{ n_1 } + \frac{ \hat p_2(1-\hat p_2) }{ n_2 } } \right) \]

W tym wzorze używamy osobnych proporcji z prób \(\hat p_1\) i \(\hat p_2\), a nie proporcji łącznej. Przedział ufności nie zakłada bowiem prawdziwości hipotezy o równości proporcji.

W teście dwustronnym na poziomie istotności \(\alpha\) klasyczny przedział ufności \(1-\alpha\) i test prowadzą do zgodnych wniosków:

jeżeli liczba \(0\) należy do przedziału ufności dla \(p_1-p_2\), nie ma podstaw do odrzucenia \(H_0\);
jeżeli liczba \(0\) nie należy do przedziału, odrzucamy hipotezę o równości proporcji.

Infografika przedstawiająca test dwustronny, prawostronny i lewostronny dla dwóch proporcji oraz przedział ufności dla różnicy wskaźników struktury — W teście dwustronnym liczba zero należąca do przedziału ufności dla różnicy proporcji oznacza brak podstaw do odrzucenia hipotezy o równości wskaźników.

Przykład: porównanie dwóch wskaźników struktury

Porównujemy skuteczność dwóch niezależnych metod przygotowania do egzaminu. W pierwszej grupie 84 spośród 120 osób zdały egzamin. W drugiej grupie zdało 63 spośród 120 osób.

Chcemy sprawdzić, czy wskaźniki zdawalności w populacjach są różne.

Krok 1. Wskaźniki z prób

\[ n_1=120 \]

\[ m_1=84 \]

\[ \hat p_1= \frac{84}{120} = 0{,}70 \]

\[ n_2=120 \]

\[ m_2=63 \]

\[ \hat p_2= \frac{63}{120} = 0{,}525 \]

Różnica wskaźników z prób wynosi:

\[ \hat p_1-\hat p_2= 0{,}70-0{,}525= 0{,}175 \]

Krok 2. Hipotezy

\[ H_0:p_1=p_2 \]

\[ H_1:p_1\neq p_2 \]

Krok 3. Proporcja łączna

\[ \hat p= \frac{ 84+63 }{ 120+120 } = \frac{147}{240} = 0{,}6125 \]

Krok 4. Warunki dużej próby

\[ 120\cdot0{,}6125=73{,}5 \]

\[ 120\cdot(1-0{,}6125)=46{,}5 \]

W obu próbach oczekiwane liczby sukcesów i porażek są duże, dlatego przybliżenie normalne jest uzasadnione.

Krok 5. Statystyka testowa

\[ z_{\text{obs}}= \frac{ 0{,}70-0{,}525 }{ \sqrt{ 0{,}6125(1-0{,}6125) \left( \frac{1}{120}+\frac{1}{120} \right) } } \]

\[ z_{\text{obs}} \approx 2{,}801 \]

Krok 6. Decyzja

Przyjmujemy poziom istotności:

\[ \alpha=0{,}05 \]

Dla testu dwustronnego wartość krytyczna wynosi:

\[ u_{0{,}025}=1{,}96 \]

Ponieważ:

\[ |2{,}801|>1{,}96 \]

odrzucamy hipotezę zerową o równości wskaźników struktury.

Krok 7. Wartość p

\[ p\approx0{,}005 \]

Wartość p jest mniejsza od 0,05, więc potwierdza decyzję o odrzuceniu \(H_0\).

Krok 8. Przedział ufności dla różnicy

\[ 0{,}175 \pm 1{,}96 \sqrt{ \frac{ 0{,}70(1-0{,}70) }{ 120 } + \frac{ 0{,}525(1-0{,}525) }{ 120 } } \]

\[ (0{,}053;\;0{,}297) \]

Liczba \(0\) nie należy do przedziału ufności, co jest zgodne z wynikiem testu.

Wniosek: dane dostarczają podstaw do stwierdzenia, że wskaźnik zdawalności w pierwszej populacji jest różny od wskaźnika zdawalności w drugiej populacji. Ponieważ różnica \(\hat p_1-\hat p_2\) jest dodatnia, wyniki wskazują na wyższy wskaźnik zdawalności w pierwszej grupie.

Małe próby i metody dokładne

Gdy liczebności prób są małe albo liczba sukcesów lub porażek jest niewielka, klasyczne przybliżenie normalne może być niedokładne. Dotyczy to zwłaszcza sytuacji, w których proporcje są bliskie 0 lub 1.

W takich przypadkach można stosować dokładne procedury oparte na rozkładzie hipergeometrycznym, z których najbardziej znanym przykładem jest dokładny test Fishera dla tablicy kontyngencji \(2\times2\).

Test Fishera jest szczególnie przydatny przy małych liczebnościach w kontroli jakości, badaniach medycznych, analizie rzadkich zdarzeń oraz wszędzie tam, gdzie klasyczny warunek dużej próby nie jest spełniony.

Małe próby: nie mieszaj procedur

Test z dla dwóch proporcji jest metodą przybliżoną opartą na rozkładzie normalnym. Dokładny test Fishera jest inną procedurą, opartą na rozkładzie hipergeometrycznym. Nie należy zastępować jednego testu drugim wyłącznie przez zmianę wzoru na błąd standardowy.

Kalkulatory i programy statystyczne

W klasycznych zadaniach wartości krytyczne można odczytywać z tablic rozkładu normalnego. W praktyce wygodniejsze jest korzystanie z kalkulatorów i programów statystycznych, które wyznaczają statystykę testową, wartość p oraz przedział ufności dla różnicy proporcji.

Do kontroli wartości krytycznych przyda się tablica rozkładu normalnego i kalkulator. Test dla dwóch proporcji i dokładny test Fishera są dostępne między innymi w Excelu, SPSS, Statistica, Gretl, R oraz innych pakietach statystycznych.

Najczęstsze błędy

Stosowanie testu dla prób niezależnych do danych sparowanych. Dla tych samych osób badanych dwa razy właściwszy jest zwykle test McNemara.
Używanie osobnych proporcji \(\hat p_1\) i \(\hat p_2\) w mianowniku klasycznego testu równości proporcji. W teście pod \(H_0\) stosujemy proporcję łączną \(\hat p\).
Używanie proporcji łącznej w przedziale ufności dla różnicy proporcji. W klasycznym przedziale stosujemy osobno \(\hat p_1\) oraz \(\hat p_2\).
Pomijanie warunków dużej próby. Należy sprawdzić oczekiwane liczby sukcesów i porażek w obu grupach.
Wybieranie kierunku testu po obejrzeniu danych.
Mylenie braku podstaw do odrzucenia równości proporcji z dowodem ich dokładnej równości.
Interpretowanie wartości p jako prawdopodobieństwa prawdziwości hipotezy zerowej.
Pomijanie znaczenia praktycznego różnicy. Różnica istotna statystycznie nie zawsze jest ważna ekonomicznie, technologicznie albo społecznie.

Podsumowanie

Testowanie różnicy dwóch wskaźników struktury pozwala sprawdzić, czy dwie niezależne populacje różnią się udziałem określonej cechy.

Test dotyczy dwóch niezależnych proporcji \(p_1\) i \(p_2\).
Najczęściej sprawdzamy hipotezę \(H_0:p_1=p_2\).
W klasycznym teście równości proporcji stosujemy proporcję łączną, ponieważ statystykę wyznaczamy pod hipotezą zerową.
W przedziale ufności dla różnicy proporcji stosujemy osobne wskaźniki z prób \(\hat p_1\) i \(\hat p_2\).
Test normalny wymaga dostatecznie dużych oczekiwanych liczebności sukcesów i porażek w obu próbach.
Dla małych prób można stosować dokładny test Fishera.
Przy danych zależnych należy rozważyć test McNemara, a nie test dwóch niezależnych proporcji.

Utworzono: 23.06.2026

Powiązane artykuły

Masz problem z tym tematem?

Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę, rachunkowość i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku.

Zapytaj o pomoc