Wszechnica Wszechwiedzy - Baner

Testowanie hipotez statystycznych — hipoteza zerowa, błędy, poziom istotności i moc testu

Testowanie hipotez statystycznych pozwala ocenić, czy dane z próby dostarczają wystarczających podstaw do zakwestionowania określonego założenia dotyczącego populacji. W artykule wyjaśniamy, czym są hipoteza zerowa i alternatywna, poziom istotności, wartość p, błędy pierwszego i drugiego rodzaju oraz moc testu. Omawiamy również ogólną procedurę wykonywania testu i podstawowy podział na testy parametryczne oraz nieparametryczne.

W statystyce matematycznej nie wystarczy czasem samo oszacowanie parametru. Możemy na przykład chcieć sprawdzić, czy średni czas obsługi klienta rzeczywiście wynosi 5 minut, czy udział produktów wadliwych nie przekracza ustalonego poziomu albo czy wyniki dwóch grup różnią się w sposób, którego nie można rozsądnie wyjaśnić przypadkowym doborem próby.

W takich sytuacjach stosuje się testowanie hipotez statystycznych. Nie jest to mechanizm dający absolutną pewność. Jest to uporządkowana procedura podejmowania decyzji przy kontrolowanym ryzyku błędu.

Czym jest test statystyczny?

Test statystyczny jest regułą postępowania, która na podstawie danych z próby pozwala zdecydować, czy istnieją dostateczne podstawy do odrzucenia określonej hipotezy dotyczącej populacji.

Kluczowe są tu dwa słowa: dostateczne podstawy. Test nie odpowiada zwykle na pytanie, czy hipoteza jest na pewno prawdziwa albo na pewno fałszywa. Ocenia jedynie, czy otrzymane dane byłyby na tyle mało prawdopodobne przy założeniu prawdziwości hipotezy, że należy ją odrzucić na wcześniej ustalonym poziomie ryzyka.

Testowanie hipotez można więc porównać do procedury kontrolnej. Punkt wyjścia stanowi określone założenie. Dopiero dane dostarczają argumentów za jego odrzuceniem albo za brakiem podstaw do jego odrzucenia.

Ważne rozróżnienie

Wynik testu może prowadzić do odrzucenia hipotezy zerowej albo do braku podstaw do jej odrzucenia. Poprawna terminologia nie mówi o „udowodnieniu” hipotezy zerowej ani o jej definitywnym przyjęciu.

Hipoteza zerowa i hipoteza alternatywna

Każdy klasyczny test statystyczny rozpoczyna się od sformułowania dwóch konkurencyjnych hipotez:

Hipoteza zerowa jest punktem odniesienia dla całej procedury. Najczęściej opisuje brak różnicy, brak efektu, zgodność z deklarowaną wartością albo brak zależności.

Hipoteza alternatywna opisuje sytuację, którą uznamy za bardziej zgodną z danymi, gdy hipoteza zerowa zostanie odrzucona.

Jeżeli \(\theta\) oznacza badany parametr populacji, a \(\theta_0\) jego wartość deklarowaną lub przyjętą jako punkt odniesienia, typowy test dwustronny ma postać:

\[ H_0:\theta=\theta_0 \] \[ H_1:\theta\neq\theta_0 \]

Przykładowo, producent może deklarować, że średnia zawartość produktu w opakowaniu wynosi 500 ml. Wtedy testowana hipoteza może dotyczyć średniej populacji \(\mu\):

\[ H_0:\mu=500 \] \[ H_1:\mu\neq500 \]

Hipoteza zerowa zawiera zwykle znak równości. Nie wynika to z przypadku: rozkład statystyki testowej wyznacza się właśnie przy założeniu konkretnej wartości parametru określonej przez \(H_0\).

Test jedno- i dwustronny

Hipoteza alternatywna może wskazywać różnicę w dowolnym kierunku albo tylko w jednym, z góry określonym kierunku.

Test dwustronny

Test dwustronny stosujemy wtedy, gdy interesuje nas każda różnica względem wartości referencyjnej:

\[ H_0:\theta=\theta_0 \] \[ H_1:\theta\neq\theta_0 \]

Przykład: sprawdzamy, czy średnia masa opakowań różni się od 1 kg — zarówno wtedy, gdy jest zbyt mała, jak i wtedy, gdy jest zbyt duża.

Test prawostronny

Test prawostronny stosujemy wtedy, gdy interesuje nas tylko wzrost parametru ponad ustalony poziom:

\[ H_0:\theta\leq\theta_0 \] \[ H_1:\theta>\theta_0 \]

W obliczeniach rozkład statystyki testowej wyznacza się zwykle dla granicznej wartości \(\theta=\theta_0\).

Test lewostronny

Test lewostronny stosujemy wtedy, gdy interesuje nas wyłącznie spadek parametru poniżej wartości referencyjnej:

\[ H_0:\theta\geq\theta_0 \] \[ H_1:\theta\theta_0 \]

Kierunek testu wybieramy przed analizą danych

Nie należy wybierać testu jednostronnego dopiero po zobaczeniu wyniku próby. Kierunek hipotezy alternatywnej powinien wynikać z problemu badawczego, teorii lub celu kontroli jakości, a nie z tego, w którą stronę przypadkowo odchyliła się średnia w zebranych danych.

Statystyka testowa i jej rozkład

Do przeprowadzenia testu buduje się statystykę testową, czyli funkcję danych z próby, której rozkład przy prawdziwości hipotezy zerowej jest znany dokładnie albo w przybliżeniu.

Ogólnie zapisujemy ją jako:

\[ T=T(X_1,X_2,\ldots,X_n) \]

Po podstawieniu danych z próby otrzymujemy konkretną wartość statystyki testowej:

\[ t_{\text{obs}} \]

Jeżeli \(H_0\) jest prawdziwa, statystyka może mieć na przykład rozkład normalny standaryzowany, t-Studenta, chi-kwadrat, F-Snedecora albo rozkład dwumianowy. Wybór odpowiedniego rozkładu zależy od badanego parametru, modelu populacji, liczebności próby i spełnienia założeń testu.

Idea jest zawsze podobna: sprawdzamy, czy zaobserwowana wartość statystyki leży w obszarze typowym dla prawdziwości \(H_0\), czy też jest na tyle skrajna, że stanowi argument przeciwko tej hipotezie.

Poziom istotności i obszar krytyczny

Poziom istotności, oznaczany przez \(\alpha\), określa maksymalne dopuszczalne ryzyko odrzucenia hipotezy zerowej, mimo że w rzeczywistości jest ona prawdziwa.

Najczęściej spotyka się wartości:

\[ \alpha=0{,}10,\qquad \alpha=0{,}05,\qquad \alpha=0{,}01 \]

Poziom \(\alpha=0{,}05\) oznacza, że procedura testowa została skonstruowana tak, aby przy prawdziwości \(H_0\) prawdopodobieństwo jej błędnego odrzucenia nie przekraczało 5%.

Na podstawie poziomu istotności wyznacza się obszar krytyczny, czyli zbiór wartości statystyki testowej prowadzących do odrzucenia \(H_0\).

W teście dwustronnym poziom istotności dzieli się na dwa ogony rozkładu:

\[ \frac{\alpha}{2} \]

po lewej i po prawej stronie. W teście jednostronnym cały poziom istotności znajduje się tylko po jednej stronie rozkładu.

Poziom istotności nie jest prawdopodobieństwem prawdziwości hipotezy

Stwierdzenie „\(\alpha=0{,}05\)” nie oznacza, że hipoteza zerowa ma 5% szans na bycie prawdziwą. Poziom istotności opisuje długookresowe zachowanie procedury testowej w sytuacji, gdy \(H_0\) jest prawdziwa.

Wartość p

Wartość p, często zapisywana jako p-value, jest prawdopodobieństwem otrzymania — przy założeniu prawdziwości \(H_0\) — wyniku co najmniej tak skrajnego jak wynik zaobserwowany w próbie.

Wartość p można też interpretować jako najmniejszy poziom istotności, przy którym dana obserwacja prowadziłaby do odrzucenia hipotezy zerowej w tym samym teście.

Reguła decyzji jest prosta:

\[ \text{jeżeli }p\leq\alpha,\text{ odrzucamy }H_0 \]
\[ \text{jeżeli }p>\alpha,\text{ nie ma podstaw do odrzucenia }H_0 \]

Mała wartość p oznacza, że dane są słabo zgodne z hipotezą zerową. Nie oznacza natomiast, że \(H_0\) jest „prawdopodobnie fałszywa” w dosłownym, bayesowskim sensie.

Błędy pierwszego i drugiego rodzaju oraz moc testu

Każdy test statystyczny prowadzi do decyzji podejmowanej w warunkach niepewności. Możliwe są cztery sytuacje:

Stan rzeczywistyDecyzja: nie odrzucamy \(H_0\)Decyzja: odrzucamy \(H_0\)
\(H_0\) jest prawdziwaDecyzja poprawnaBłąd pierwszego rodzaju
\(H_0\) jest fałszywaBłąd drugiego rodzajuDecyzja poprawna

Błąd pierwszego rodzaju

Błąd pierwszego rodzaju polega na odrzuceniu hipotezy zerowej, mimo że jest ona prawdziwa. Prawdopodobieństwo tego błędu kontrolujemy właśnie przez poziom istotności:

\[ P(\text{odrzucamy }H_0\mid H_0\text{ prawdziwa}) = \alpha \]

Błąd drugiego rodzaju

Błąd drugiego rodzaju polega na nieodrzuceniu hipotezy zerowej, mimo że jest ona fałszywa. Jego prawdopodobieństwo oznacza się zwykle przez \(\beta\):

\[ P(\text{nie odrzucamy }H_0\mid H_0\text{ fałszywa}) = \beta \]

Moc testu

Moc testu to prawdopodobieństwo odrzucenia hipotezy zerowej wtedy, gdy jest ona fałszywa:

\[ \text{moc testu} = 1-\beta \]

Im większa moc testu, tym większa zdolność procedury do wykrywania rzeczywiście istniejących różnic, zależności lub odchyleń od założonego modelu.

Dlaczego nie można bez końca zmniejszać poziomu istotności?

Zmniejszenie poziomu istotności, na przykład z 0,05 do 0,01, ogranicza ryzyko błędu pierwszego rodzaju. Jednocześnie przy tej samej liczebności próby i tej samej wielkości rzeczywistego efektu zwykle zwiększa ryzyko błędu drugiego rodzaju, czyli zmniejsza moc testu.

Nie istnieje więc rozwiązanie bez kosztu. Bardzo rygorystyczny poziom istotności może utrudnić wykrycie efektu, który rzeczywiście istnieje. Najskuteczniejszym sposobem zwiększania mocy jest zwykle zwiększenie liczebności dobrze zaprojektowanej próby.

Procedura wykonywania testu statystycznego

Większość klasycznych testów, niezależnie od badanego parametru, wykonuje się według podobnego schematu.

  1. Określenie problemu badawczego. Należy jasno wskazać populację, badaną cechę i pytanie, na które test ma odpowiedzieć.
  2. Sformułowanie hipotez \(H_0\) i \(H_1\). Hipotezy powinny wynikać z problemu badawczego, a nie być dobierane po obejrzeniu wyników.
  3. Wybór poziomu istotności \(\alpha\). Najczęściej jest to 0,05, lecz w badaniach o dużych konsekwencjach można przyjąć poziom bardziej rygorystyczny.
  4. Dobór testu i sprawdzenie jego założeń. Trzeba ustalić, czy badamy średnią, wariancję, proporcję, niezależność, zgodność rozkładu lub inną własność.
  5. Obliczenie statystyki testowej. Wartość oblicza się na podstawie danych z próby.
  6. Wyznaczenie wartości krytycznej albo wartości p. Obie metody prowadzą do tej samej decyzji, jeśli zastosowano ten sam poziom istotności i ten sam wariant testu.
  7. Podjęcie decyzji statystycznej. Odrzucamy \(H_0\) albo stwierdzamy brak podstaw do jej odrzucenia.
  8. Interpretacja merytoryczna. Wynik należy opisać językiem problemu: jakości produktu, zachowań klientów, skuteczności metody, zgodności danych z modelem lub zależności między cechami.

Test statystyczny a przedział ufności

Estymacja przedziałowa i testowanie hipotez są ze sobą ściśle powiązane. W wielu klasycznych modelach parametrycznych ten sam zbiór danych, te same założenia oraz ten sam poziom istotności prowadzą do równoważnych wniosków.

Jeżeli budujemy dwustronny przedział ufności na poziomie \(1-\alpha\), a następnie wykonujemy dwustronny test hipotezy:

\[ H_0:\theta=\theta_0 \] \[ H_1:\theta\neq\theta_0 \]

na poziomie istotności \(\alpha\), wtedy obowiązuje prosta reguła:

Przykładowo, gdy 95-procentowy przedział ufności dla średniej populacji ma postać \((48{,}2;\;51{,}7)\), hipoteza \(H_0:\mu=50\) nie zostanie odrzucona na poziomie istotności \(\alpha=0{,}05\), ponieważ wartość 50 znajduje się wewnątrz przedziału. Hipoteza \(H_0:\mu=53\) zostałaby natomiast odrzucona, ponieważ wartość 53 leży poza tym przedziałem.

Warunek równoważności

Ta zależność wymaga zastosowania tego samego modelu statystycznego, tych samych założeń i odpowiadających sobie poziomów: testu na poziomie \(\alpha\) oraz przedziału ufności na poziomie \(1-\alpha\). W przypadku testów jednostronnych należy porównywać wynik z odpowiednim przedziałem jednostronnym.

Przykład ogólny: od hipotezy do decyzji

Załóżmy, że producent deklaruje średnią zawartość napoju równą 500 ml. Kontrola jakości chce sprawdzić, czy średnia rzeczywiście jest zgodna z tą deklaracją.

Formułujemy hipotezy dwustronne:

\[ H_0:\mu=500 \] \[ H_1:\mu\neq500 \]

Przyjmujemy poziom istotności:

\[ \alpha=0{,}05 \]

Załóżmy, że po zastosowaniu odpowiedniego modelu i wzoru otrzymano wartość standaryzowanej statystyki testowej:

\[ z_{\text{obs}}=2{,}34 \]

Dla testu dwustronnego na poziomie istotności 0,05 wartości krytyczne rozkładu normalnego wynoszą w przybliżeniu:

\[ -1{,}96 \qquad\text{oraz}\qquad 1{,}96 \]

Ponieważ:

\[ |2{,}34|>1{,}96 \]

wartość statystyki znajduje się w obszarze krytycznym. Odrzucamy więc \(H_0\) na poziomie istotności 0,05.

Wartość p dla takiego wyniku wynosi w przybliżeniu:

\[ p\approx0{,}019 \]

Jest ona mniejsza od 0,05, co prowadzi do tej samej decyzji.

Wniosek należy zapisać ostrożnie: dane z próby dostarczają podstaw do odrzucenia hipotezy, że średnia zawartość napoju wynosi 500 ml. Nie oznacza to jeszcze, że każda pojedyncza butelka ma niewłaściwą zawartość ani że poznaliśmy dokładną rzeczywistą średnią populacji.

Pełne modele testowania hipotez dotyczących średniej zostaną omówione w osobnych materiałach.

Testy parametryczne i nieparametryczne

Jednym z podstawowych podziałów testów statystycznych jest podział na testy parametryczne i nieparametryczne.

Testy parametryczne

Testy parametryczne opierają się na założeniu, że populacja ma rozkład należący do określonej rodziny rozkładów, opisanej przez skończoną liczbę parametrów. Hipoteza dotyczy zwykle wartości jednego lub kilku takich parametrów.

Przykładowo możemy badać:

Do tej grupy należą między innymi klasyczne testy oparte na rozkładzie normalnym, t-Studenta, chi-kwadrat lub F-Snedecora.

Testy nieparametryczne

Testy nieparametryczne nie wymagają zwykle pełnego założenia o konkretnym rozkładzie populacji z określonymi parametrami. Często opierają się na rangach, znakach, liczebnościach lub strukturze tabeli kontyngencji.

Nie oznacza to, że testy nieparametryczne służą wyłącznie do badania rodzaju rozkładu. Mogą dotyczyć między innymi:

Testy nieparametryczne bywają szczególnie użyteczne wtedy, gdy dane nie spełniają założeń wymaganych przez test parametryczny, skala pomiaru jest porządkowa albo obserwacje mają nietypowy rozkład.

Istotność statystyczna a znaczenie praktyczne

Wynik istotny statystycznie nie musi być automatycznie ważny z punktu widzenia praktyki. Przy bardzo dużej próbie nawet niewielka różnica względem hipotezy zerowej może okazać się istotna statystycznie.

Przykładowo, średni czas realizacji zamówienia może różnić się od deklarowanego o kilka sekund. Przy ogromnej liczbie obserwacji test może wykazać istotność statystyczną tej różnicy, choć dla klienta, przedsiębiorstwa lub procesu produkcyjnego może ona nie mieć żadnego znaczenia.

Dlatego poza wynikiem testu warto analizować także:

Założenia i dobra praktyka

Poprawne zastosowanie testu statystycznego wymaga czegoś więcej niż podstawienia liczb do wzoru. Przed obliczeniami warto sprawdzić, czy spełnione są założenia konkretnej procedury.

Co dalej?

Teoria testowania hipotez jest wspólnym fundamentem wielu bardziej szczegółowych procedur. Kolejne zagadnienia można uporządkować według rodzaju badanego parametru lub rodzaju problemu.

Każdy z tych testów wymaga osobnego omówienia założeń, statystyki testowej, obszaru krytycznego, wartości p oraz interpretacji wyniku.

Podsumowanie

Testowanie hipotez statystycznych pozwala ocenić, czy wyniki uzyskane w próbie są dostatecznie niezgodne z hipotezą dotyczącą populacji, aby ją odrzucić na ustalonym poziomie istotności.

Powiązane artykuły

Masz problem z tym tematem?

Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę, rachunkowość i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku. 

Zapytaj o pomoc