Weryfikacja modelu ekonometrycznego

Sebastian Dziarmaga-Działyński

Wprowadzenie

Oszacowanie parametrów modelu ekonometrycznego metodą najmniejszych kwadratów nie kończy pracy nad modelem. Otrzymanie równania regresji jest dopiero jednym z etapów analizy. Kolejnym krokiem jest weryfikacja modelu ekonometrycznego, czyli sprawdzenie, czy model jest statystycznie poprawny, czy jego parametry są istotne, czy reszty zachowują się zgodnie z założeniami oraz czy model można bezpiecznie wykorzystać do interpretacji, prognozowania lub symulacji.

W praktyce model może wyglądać atrakcyjnie na pierwszy rzut oka: mieć wysoki współczynnik determinacji, sensowne znaki parametrów i dobrze dopasowaną linię regresji. Mimo to może naruszać ważne założenia klasycznego modelu liniowego, na przykład mieć autokorelację reszt, heteroskedastyczność, błędną postać funkcyjną albo nieistotne statystycznie parametry. Dlatego sama estymacja modelu nie wystarcza.

W tym artykule omawiamy najważniejsze elementy weryfikacji modelu ekonometrycznego: testy istotności parametrów, testy łącznej istotności, testy Walda, testy normalności reszt, testy autokorelacji, testy heteroskedastyczności oraz wybrane testy poprawności specyfikacji modelu. Szczególną uwagę zwracamy na praktyczną interpretację hipotez zerowych i alternatywnych.

Spis treści

Czym jest weryfikacja modelu ekonometrycznego?
Dwie grupy testów: istotność i diagnostyka
Korzystne i niekorzystne hipotezy w testach
Dwie metody podejmowania decyzji: wartość krytyczna i p-value
Test istotności pojedynczego parametru — test t-Studenta
Test łącznej istotności parametrów — test F
Test F a test Walda
Uogólniony test Walda
Współliniowość zmiennych objaśniających
VIF w diagnostyce modelu
Badanie normalności reszt
Test Jarque’a-Bery
Test Shapiro-Wilka
Autokorelacja reszt
Test Durbina-Watsona
Test Breuscha-Godfreya
Test h Durbina
Heteroskedastyczność reszt
Test Breuscha-Pagana
Test White’a
Test Goldfelda-Quandta
Heteroskedastyczność a źródła problemu
Test serii jako test losowości reszt
Test RESET Ramseya
Jak czytać wyniki testów w praktyce?
Podsumowanie

Czym jest weryfikacja modelu ekonometrycznego?

Weryfikacja modelu ekonometrycznego polega na sprawdzeniu, czy model oszacowany na podstawie danych empirycznych spełnia określone kryteria statystyczne i merytoryczne. Nie chodzi wyłącznie o to, czy model dobrze dopasowuje się do danych, ale także o to, czy uzyskane wyniki można uznać za wiarygodne.

W artykule dotyczącym metody najmniejszych kwadratów omawialiśmy sposób estymacji parametrów modelu. Metoda MNK pozwala obliczyć oceny parametrów, czyli wartości $\hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k$. Weryfikacja modelu odpowiada natomiast na pytania: czy te parametry są istotne, czy model jako całość ma sens, czy reszty zachowują się prawidłowo i czy nie naruszono ważnych założeń.

Typowa weryfikacja modelu obejmuje między innymi:

ocenę istotności pojedynczych parametrów,
ocenę łącznej istotności grupy parametrów,
badanie dopasowania modelu do danych,
analizę reszt modelu,
testowanie normalności rozkładu reszt,
testowanie autokorelacji reszt,
testowanie heteroskedastyczności,
sprawdzanie poprawności specyfikacji modelu.

Nie każdy model musi przejść wszystkie możliwe testy. Zakres diagnostyki zależy od rodzaju danych, celu badania, liczby obserwacji oraz typu modelu. Inaczej weryfikuje się model przekrojowy, inaczej model oparty na szeregu czasowym, a jeszcze inaczej model panelowy.

Dwie grupy testów: istotność i diagnostyka

Testy stosowane przy weryfikacji modelu ekonometrycznego można podzielić na dwie duże grupy.

Pierwsza grupa to testy istotności parametrów. Ich zadaniem jest sprawdzenie, czy dana zmienna objaśniająca rzeczywiście wnosi istotną informację do modelu. Do tej grupy należą przede wszystkim test t-Studenta, test F oraz testy liniowych ograniczeń, często opisywane jako testy Walda.

Druga grupa to testy diagnostyczne, które sprawdzają własności reszt i założenia modelu. Należą do nich między innymi testy normalności, testy autokorelacji, testy heteroskedastyczności oraz testy poprawności specyfikacji.

To rozróżnienie jest bardzo ważne, ponieważ w tych dwóch grupach testów inaczej interpretujemy hipotezy. W testach istotności parametrów odrzucenie hipotezy zerowej jest zwykle korzystne dla modelu. W testach diagnostycznych jest najczęściej odwrotnie: odrzucenie hipotezy zerowej oznacza wykrycie problemu.

Korzystne i niekorzystne hipotezy w testach

Przy interpretacji testów w ekonometrii bardzo pomocna jest prosta zasada pamięciowa.

W testach istotności parametrów hipoteza zerowa jest zwykle niekorzystna dla modelu, ponieważ mówi, że parametr jest równy zero, a więc dana zmienna nie ma istotnego wpływu na zmienną objaśnianą. Odrzucenie hipotezy zerowej jest wtedy korzystne, bo oznacza, że parametr można uznać za istotny statystycznie.

Przykładowo w teście istotności parametru mamy najczęściej:

$$H_0: \beta_j = 0$$

$$H_1: \beta_j \neq 0$$

Jeżeli odrzucamy $H_0$, to stwierdzamy, że parametr jest istotny statystycznie. Jest to zwykle korzystne dla modelu.

W testach diagnostycznych hipoteza zerowa jest najczęściej korzystna dla modelu. Mówi na przykład, że nie ma autokorelacji, nie ma heteroskedastyczności, rozkład reszt jest normalny albo model jest poprawnie wyspecyfikowany. Odrzucenie hipotezy zerowej oznacza wtedy wykrycie problemu.

Przykładowo w teście heteroskedastyczności hipotezy mogą mieć postać:

$$H_0: \text{występuje homoskedastyczność}$$

$$H_1: \text{występuje heteroskedastyczność}$$

W tym przypadku brak podstaw do odrzucenia $H_0$ jest korzystny dla modelu, natomiast odrzucenie $H_0$ oznacza problem z wariancją składnika losowego.

Dwie metody podejmowania decyzji: wartość krytyczna i p-value

Wynik testu statystycznego można interpretować na dwa równoważne sposoby.

Pierwszy sposób polega na porównaniu wartości statystyki testowej z wartością krytyczną odczytaną z odpowiedniego rozkładu. Jest to klasyczne podejście często stosowane przy obliczeniach wykonywanych „na piechotę”, w podręcznikach albo w arkuszu kalkulacyjnym. Przykładowo obliczamy wartość statystyki $t$, $F$ albo $DW$, a następnie porównujemy ją z wartością krytyczną dla przyjętego poziomu istotności.

Drugi sposób polega na wykorzystaniu wartości p-value, którą zwracają typowe pakiety statystyczne i ekonometryczne. W wielu przypadkach p-value można obliczyć również w Excelu, na przykład dla testu t albo testu F. Reguła decyzyjna jest następująca:

$$p\text{-value} < \alpha \quad \Rightarrow \quad \text{odrzucamy } H_0$$

oraz:

$$p\text{-value} \geq \alpha \quad \Rightarrow \quad \text{brak podstaw do odrzucenia } H_0$$

Oba podejścia prowadzą do tej samej decyzji, o ile stosujemy ten sam poziom istotności i właściwy rozkład statystyki testowej. Różnica polega głównie na sposobie prezentacji wyniku: wartości krytyczne pokazują granicę obszaru odrzucenia, a p-value pokazuje, jak silne są dane przeciwko hipotezie zerowej.

Najczęściej przyjmuje się poziom istotności $\alpha = 0{,}05$, choć w niektórych zastosowaniach stosuje się również poziomy 0,01 lub 0,10.

Test istotności pojedynczego parametru — test t-Studenta

Jednym z podstawowych testów weryfikacji modelu ekonometrycznego jest test istotności pojedynczego parametru, oparty na statystyce t-Studenta. Służy on do sprawdzenia, czy wybrany parametr modelu można uznać za istotnie różny od zera.

Dla parametru $\beta_j$ formułujemy najczęściej hipotezy:

$$H_0: \beta_j = 0$$

$$H_1: \beta_j \neq 0$$

Statystyka testowa ma postać:

$$t = \frac{\hat{\beta}_j - \beta_{j0}}{SE(\hat{\beta}_j)}$$

W najczęściej spotykanym przypadku testujemy równość parametru zero, czyli $\beta_{j0}=0$. Wtedy:

$$t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$$

gdzie $SE(\hat{\beta}_j)$ oznacza błąd standardowy oszacowania parametru. Im większa wartość bezwzględna statystyki $t$, tym silniejsze podstawy do odrzucenia hipotezy zerowej.

W praktyce najczęściej korzysta się z wartości p-value. Jeżeli p-value jest mniejsze od przyjętego poziomu istotności, na przykład $\alpha = 0{,}05$, odrzucamy hipotezę zerową i uznajemy parametr za istotny statystycznie.

W tym teście odrzucenie hipotezy zerowej jest zwykle korzystne dla modelu. Oznacza bowiem, że dana zmienna objaśniająca ma statystycznie istotny związek ze zmienną objaśnianą, przy założeniu pozostałych elementów modelu.

Test łącznej istotności parametrów — test F

Test t-Studenta bada istotność jednego parametru. Często chcemy jednak sprawdzić, czy model jako całość jest istotny, czyli czy zmienne objaśniające jako grupa wnoszą istotną informację do modelu. Do tego służy test F, nazywany często testem łącznej istotności modelu.

W klasycznym teście łącznej istotności modelu sprawdzamy, czy wszystkie parametry stojące przy zmiennych objaśniających, z wyjątkiem wyrazu wolnego, są jednocześnie równe zero:

$$H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0$$

$$H_1: \text{co najmniej jeden z parametrów } \beta_1, \ldots, \beta_k \text{ jest różny od zera}$$

Wyraz wolny $\beta_0$ nie jest w tym teście objęty hipotezą zerową. Test dotyczy więc tego, czy zmienne objaśniające jako grupa wyjaśniają zmienność zmiennej objaśnianej.

Hipoteza zerowa jest tutaj niekorzystna dla modelu, ponieważ oznacza, że żadna ze zmiennych objaśniających nie ma istotnego wpływu na zmienną objaśnianą. Odrzucenie hipotezy zerowej jest korzystne, ponieważ oznacza, że model jako całość jest istotny statystycznie.

Jedna z postaci statystyki F, przy testowaniu istotności całego modelu, może być zapisana jako:

$$F = \frac{R^2/k}{(1-R^2)/(n-k-1)}$$

gdzie $R^2$ oznacza współczynnik determinacji, $k$ liczbę zmiennych objaśniających, a $n$ liczbę obserwacji. W bardziej ogólnym ujęciu test F można zapisać przez porównanie modelu pełnego i modelu z ograniczeniami.

Jeżeli p-value dla testu F jest mniejsze od przyjętego poziomu istotności, odrzucamy hipotezę zerową i uznajemy, że model jako całość jest istotny statystycznie.

W szczególnym przypadku modelu z jedną zmienną objaśniającą i wyrazem wolnym test t-Studenta dla parametru kierunkowego oraz test F łącznej istotności modelu prowadzą do tych samych wniosków. Zachodzi wtedy zależność:

$$F = t^2$$

Oznacza to, że jeżeli parametr przy jedynej zmiennej objaśniającej jest istotny w teście t, to model będzie również istotny w teście F. Analogicznie brak istotności w teście t będzie zgodny z wynikiem testu F.

Test F a test Walda

Warto doprecyzować relację między testem F a testem Walda, ponieważ w różnych podręcznikach, programach i tradycjach wykładu nazwy te bywają używane nieco inaczej.

W klasycznym modelu liniowym test F łącznej istotności parametrów można interpretować jako szczególny przypadek testu Walda dla liniowych ograniczeń na parametry. Innymi słowy, gdy testujemy hipotezę:

$$H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0$$

to w istocie testujemy zestaw liniowych ograniczeń nałożonych na wektor parametrów. W klasycznej regresji liniowej taki test jest zwykle prezentowany jako test F.

Z formalnego punktu widzenia test Walda jest procedurą bardziej ogólną, natomiast test F w klasycznym modelu liniowym jest jedną z jego szczególnych postaci, zapisaną przy użyciu statystyki mającej rozkład F przy spełnieniu odpowiednich założeń.

Dlatego w praktyce można spotkać różne określenia: test F, test Walda, test liniowych ograniczeń albo test łącznej istotności. Nie zawsze oznaczają one dokładnie ten sam poziom ogólności, ale w typowym zastosowaniu regresji liniowej test F łącznej istotności zmiennych objaśniających jest szczególnym przypadkiem testu Walda.

Uogólniony test Walda

Uogólniony test Walda pozwala testować nie tylko hipotezę o łącznej nieistotności wszystkich zmiennych objaśniających, ale również hipotezy dotyczące dowolnie wybranego podzbioru parametrów albo innych liniowych kombinacji parametrów.

Ogólna postać hipotezy zerowej w teście Walda może być zapisana jako:

$$H_0: R\boldsymbol{\beta} = \mathbf{r}$$

gdzie $R$ jest macierzą ograniczeń, $\boldsymbol{\beta}$ wektorem parametrów, a $\mathbf{r}$ wektorem wartości, do których porównujemy odpowiednie kombinacje parametrów.

Dzięki takiemu zapisowi można testować na przykład:

czy pojedynczy parametr jest równy zero,
czy kilka wybranych parametrów jest jednocześnie równych zero,
czy dwa parametry są sobie równe,
czy suma kilku parametrów przyjmuje określoną wartość.

Przykładowo, jeżeli model ma pięć zmiennych objaśniających, możemy chcieć sprawdzić, czy trzy wybrane zmienne są łącznie nieistotne. Wtedy formułujemy hipotezę:

$$H_0: \beta_2 = \beta_3 = \beta_5 = 0$$

$$H_1: \text{co najmniej jeden z tych parametrów jest różny od zera}$$

W takim przypadku sprawdzamy, czy wybrane trzy zmienne są łącznie nieistotne, nawet jeśli w modelu występują także inne zmienne objaśniające. Jest to bardzo przydatne, gdy zmienne tworzą pewien blok merytoryczny, na przykład grupę zmiennych sezonowych, regionalnych albo finansowych.

Podobnie jak w teście F łącznej istotności modelu, hipoteza zerowa jest tutaj zwykle niekorzystna dla badanego zestawu zmiennych. Jeżeli ją odrzucamy, oznacza to, że wybrany podzbiór parametrów jest łącznie istotny statystycznie.

Współliniowość zmiennych objaśniających

Oprócz istotności parametrów i własności reszt warto sprawdzić także, czy w modelu nie występuje problem współliniowości zmiennych objaśniających. Współliniowość oznacza, że jedna lub kilka zmiennych objaśniających jest silnie powiązana z innymi zmiennymi objaśniającymi.

Jeżeli zależność między zmiennymi objaśniającymi jest dokładna, mówimy o dokładnej współliniowości. W takim przypadku klasyczny model MNK nie może zostać oszacowany w standardowy sposób, ponieważ macierz $\mathbf{X}'\mathbf{X}$ nie jest odwracalna. W praktyce częściej spotykamy jednak silną, ale niedokładną współliniowość. Model da się wtedy oszacować, ale wyniki mogą być niestabilne i trudne do interpretacji.

Silna współliniowość może powodować kilka problemów. Przede wszystkim rosną błędy standardowe oszacowania parametrów, przez co pojedyncze zmienne mogą okazać się statystycznie nieistotne, mimo że model jako całość ma wysokie dopasowanie. Parametry mogą też zmieniać znaki po dodaniu lub usunięciu innych zmiennych, a ich interpretacja staje się mniej wiarygodna.

Typowym objawem współliniowości jest sytuacja, w której test F wskazuje, że model jako całość jest istotny, ale testy t-Studenta dla poszczególnych parametrów nie wykazują istotności wielu zmiennych. Może to oznaczać, że zmienne objaśniające wspólnie wyjaśniają zmienną $Y$, ale trudno oddzielić indywidualny wpływ każdej z nich.

Współliniowość nie jest naruszeniem założeń dotyczących samego składnika losowego, tak jak autokorelacja czy heteroskedastyczność. Jest jednak poważnym problemem diagnostycznym, ponieważ wpływa na precyzję estymacji i stabilność interpretacji parametrów.

Dlatego problem współliniowości warto analizować już na etapie doboru zmiennych do modelu ekonometrycznego, a następnie ponownie sprawdzić po oszacowaniu modelu.

VIF w diagnostyce modelu

Jedną z najczęściej stosowanych miar współliniowości jest VIF, czyli variance inflation factor, po polsku współczynnik inflacji wariancji. Pokazuje on, jak bardzo wariancja estymatora danego parametru została zwiększona z powodu powiązania danej zmiennej z pozostałymi zmiennymi objaśniającymi.

Dla zmiennej $X_j$ współczynnik VIF oblicza się według wzoru:

$$VIF_j = \frac{1}{1 - R_j^2}$$

gdzie $R_j^2$ oznacza współczynnik determinacji z regresji pomocniczej, w której zmienna $X_j$ jest objaśniana przez wszystkie pozostałe zmienne objaśniające występujące w modelu.

Jeżeli zmienna $X_j$ jest słabo powiązana z pozostałymi zmiennymi, wartość $R_j^2$ jest niska, a $VIF_j$ jest bliski 1. Jeżeli natomiast zmienna $X_j$ jest bardzo dobrze wyjaśniana przez pozostałe zmienne, wartość $R_j^2$ zbliża się do 1, a VIF gwałtownie rośnie.

Orientacyjnie przyjmuje się często, że:

$VIF \approx 1$ — brak istotnego problemu współliniowości,
$VIF > 5$ — możliwy problem współliniowości, wymagający uwagi,
$VIF > 10$ — silna współliniowość, która może poważnie utrudniać interpretację modelu.

Nie są to jednak granice absolutne. W niektórych zastosowaniach nawet VIF większy od 5 może być problemem, a w innych modelach wyższa wartość może być akceptowalna, jeżeli zmienna jest merytorycznie konieczna. Dlatego VIF należy traktować jako sygnał diagnostyczny, a nie automatyczną regułę usuwania zmiennych.

Jeżeli współliniowość jest poważna, można rozważyć usunięcie jednej z silnie powiązanych zmiennych, połączenie kilku zmiennych w jeden wskaźnik, zmianę specyfikacji modelu albo pozostawienie zmiennej mimo wysokiego VIF, jeżeli jest niezbędna z punktu widzenia teorii i celu badania.

Badanie normalności reszt

Jednym z klasycznych elementów diagnostyki modelu jest badanie normalności rozkładu reszt. W modelu liniowym często zakłada się, że składnik losowy ma rozkład normalny:

$$\varepsilon_i \sim N(0,\sigma^2)$$

Warto jednak podkreślić, że normalność składnika losowego nie jest konieczna do samej estymacji parametrów metodą najmniejszych kwadratów ani do twierdzenia Gaussa-Markowa. Twierdzenie Gaussa-Markowa wymaga przede wszystkim liniowości, egzogeniczności, braku dokładnej współliniowości, homoskedastyczności i braku autokorelacji.

Normalność jest natomiast szczególnie ważna dla klasycznego wnioskowania statystycznego w małych próbach. Jeżeli reszty mocno odbiegają od normalności, to testy t i F mogą być mniej wiarygodne, zwłaszcza przy niewielkiej liczbie obserwacji.

W dużych próbach problem braku normalności bywa mniej dotkliwy, ponieważ wiele procedur opiera się na własnościach asymptotycznych. Nie oznacza to jednak, że można całkowicie ignorować rozkład reszt. Silna asymetria, bardzo grube ogony albo obserwacje odstające mogą wskazywać na błędną specyfikację modelu, nietypowe obserwacje albo potrzebę przekształcenia zmiennych.

Test Jarque’a-Bery

Jednym z najczęściej stosowanych testów normalności reszt w ekonometrii jest test Jarque’a-Bery. W polskiej wymowie i zapisie potocznym można spotkać różne formy tej nazwy, ale poprawnie chodzi o test Jarque’a-Bery.

Test ten opiera się na skośności i kurtozie rozkładu. W rozkładzie normalnym skośność powinna wynosić 0, a kurtoza 3. Jeżeli rozkład reszt jest silnie asymetryczny albo ma zbyt ciężkie ogony, statystyka testowa przyjmuje większe wartości.

Hipotezy testu są następujące:

$$H_0: \text{reszty mają rozkład normalny}$$

$$H_1: \text{reszty nie mają rozkładu normalnego}$$

W tym przypadku hipoteza zerowa jest korzystna dla modelu. Jeżeli p-value jest małe, odrzucamy hipotezę normalności, co może wskazywać na problem z rozkładem reszt.

Test Jarque’a-Bery jest bardzo popularny w programach ekonometrycznych, takich jak Gretl, EViews czy inne pakiety statystyczne. Warto jednak pamiętać, że w małych próbach jego wyniki mogą być mniej stabilne, dlatego czasem stosuje się również inne testy normalności.

Test Shapiro-Wilka

Test Shapiro-Wilka jest kolejnym popularnym testem normalności. Bardzo często stosuje się go w statystyce, zwłaszcza przy mniejszych próbach. W wielu zastosowaniach jest uznawany za test o dobrej mocy dla niewielkich liczebności próby.

Hipotezy testu są analogiczne:

$$H_0: \text{badana zmienna ma rozkład normalny}$$

$$H_1: \text{badana zmienna nie ma rozkładu normalnego}$$

W kontekście modelu ekonometrycznego badaną zmienną są zwykle reszty modelu. Jeżeli odrzucamy hipotezę zerową, uznajemy, że rozkład reszt istotnie odbiega od normalnego.

Test Shapiro-Wilka jest szczególnie przydatny wtedy, gdy liczba obserwacji jest niewielka. Warto jednak pamiętać, że przy bardzo dużych próbach testy normalności mogą wykrywać nawet drobne odchylenia od normalności, które nie zawsze mają duże znaczenie praktyczne.

Szczegółowe omówienie testów normalności, w tym testu Shapiro-Wilka, warto potraktować jako osobny temat z pogranicza statystyki i ekonometrii. W przyszłości można poświęcić mu oddzielny artykuł w dziale statystyki.

Autokorelacja reszt

Autokorelacja reszt oznacza zależność między kolejnymi resztami modelu. Problem ten pojawia się szczególnie często w szeregach czasowych, gdzie obserwacje mają naturalną kolejność chronologiczną.

Jeżeli reszta z jednego okresu jest powiązana z resztą z okresu następnego, oznacza to, że model nie uchwycił całej struktury zależności w danych. Reszty nie są wtedy czysto losowe, lecz zawierają pewien uporządkowany wzorzec.

Autokorelacja dodatnia występuje wtedy, gdy dodatnie reszty mają tendencję do występowania po dodatnich, a ujemne po ujemnych. Reszty długo utrzymują ten sam znak. Autokorelacja ujemna oznacza z kolei, że reszty zbyt często zmieniają znak, tworząc naprzemienny układ dodatni-ujemny-dodatni-ujemny.

Autokorelacja narusza założenia klasycznego modelu liniowego. Może powodować, że błędy standardowe parametrów są błędnie oszacowane, a testy istotności stają się niewiarygodne. Same oceny parametrów MNK mogą pozostać nieobciążone przy spełnieniu innych założeń, ale przestają być efektywne, czyli nie mają najmniejszej wariancji w klasie estymatorów liniowych nieobciążonych.

Test Durbina-Watsona

Najbardziej znanym testem autokorelacji pierwszego rzędu jest test Durbina-Watsona. Służy on do wykrywania zależności między resztą z danego okresu a resztą z okresu poprzedniego.

Statystyka testu ma postać:

$$DW = \frac{\sum_{t=2}^{n}(e_t - e_{t-1})^2}{\sum_{t=1}^{n}e_t^2}$$

Wartość statystyki $DW$ mieści się w przybliżeniu w przedziale od 0 do 4. Interpretacja orientacyjna jest następująca:

$DW \approx 2$ — brak autokorelacji pierwszego rzędu,
$DW < 2$ — podejrzenie autokorelacji dodatniej,
$DW > 2$ — podejrzenie autokorelacji ujemnej.

Formalna interpretacja testu opiera się na dolnej i górnej wartości krytycznej, oznaczanych zwykle jako $d_L$ i $d_U$. Dla testu dwustronnego można wyróżnić kilka obszarów decyzyjnych:

jeżeli $DW < d_L$, odrzucamy hipotezę braku autokorelacji na rzecz autokorelacji dodatniej,
jeżeli $d_L < DW < d_U$, wynik jest niejednoznaczny,
jeżeli $d_U < DW < 4-d_U$, brak podstaw do odrzucenia hipotezy o braku autokorelacji,
jeżeli $4-d_U < DW < 4-d_L$, wynik jest niejednoznaczny,
jeżeli $DW > 4-d_L$, odrzucamy hipotezę braku autokorelacji na rzecz autokorelacji ujemnej.

Często stosuje się również podejście jednostronne. Jeżeli z wykresu reszt albo z oszacowanego współczynnika autokorelacji wynika, że podejrzewamy autokorelację dodatnią, testujemy głównie tę alternatywę. Jeżeli podejrzewamy autokorelację ujemną, odpowiednio zmienia się kierunek testowania.

Test Durbina-Watsona ma jednak ograniczenia. Przede wszystkim dotyczy autokorelacji pierwszego rzędu i nie powinien być stosowany w standardowej postaci, gdy wśród zmiennych objaśniających występuje opóźniona zmienna objaśniana, na przykład $Y_{t-1}$. W takich sytuacjach stosuje się inne testy, na przykład test h Durbina albo test Breuscha-Godfreya.

Test Breuscha-Godfreya

Test Breuscha-Godfreya jest bardziej ogólnym testem autokorelacji niż test Durbina-Watsona. W praktyce jest często stosowany w programach ekonometrycznych, między innymi w Gretlu. Pozwala badać autokorelację wyższego rzędu, czyli zależność reszt nie tylko od jednej poprzedniej reszty, ale również od kilku wcześniejszych.

Hipotezy testu można zapisać następująco:

$$H_0: \text{brak autokorelacji reszt do rzędu } p$$

$$H_1: \text{występuje autokorelacja reszt do rzędu } p$$

Hipoteza zerowa jest korzystna dla modelu. Odrzucenie hipotezy zerowej oznacza, że reszty wykazują autokorelację.

Idea testu polega na oszacowaniu pomocniczej regresji, w której reszty z modelu wyjściowego są objaśniane przez pierwotne zmienne objaśniające oraz opóźnione reszty. Jeżeli opóźnione reszty są łącznie istotne, oznacza to występowanie autokorelacji.

Test Breuscha-Godfreya jest bardziej elastyczny niż test Durbina-Watsona i może być stosowany w wielu sytuacjach, w których test Durbina-Watsona nie jest odpowiedni. Dlatego w praktycznej diagnostyce modeli szeregów czasowych jest bardzo ważnym narzędziem.

Test h Durbina

Test h Durbina stosuje się w modelach, w których jedną ze zmiennych objaśniających jest opóźniona zmienna objaśniana, na przykład:

$$Y_t = \beta_0 + \beta_1Y_{t-1} + \beta_2X_t + \varepsilon_t$$

W takich modelach klasyczny test Durbina-Watsona nie jest właściwy, ponieważ obecność $Y_{t-1}$ po stronie zmiennych objaśniających zaburza jego standardową interpretację.

Hipotezy są podobne jak w innych testach autokorelacji:

$$H_0: \text{brak autokorelacji składnika losowego pierwszego rzędu}$$

$$H_1: \text{występuje autokorelacja składnika losowego pierwszego rzędu}$$

W praktyce współcześnie często zamiast testu h Durbina stosuje się bardziej ogólne procedury, takie jak test Breuscha-Godfreya. Warto jednak znać test h Durbina, ponieważ pojawia się w klasycznych podręcznikach ekonometrii i bywa omawiany przy modelach dynamicznych.

Heteroskedastyczność reszt

Heteroskedastyczność oznacza brak stałej wariancji składnika losowego. W klasycznym modelu liniowym zakłada się homoskedastyczność, czyli:

$$Var(\varepsilon_i \mid X) = \sigma^2$$

Jeżeli wariancja składnika losowego zmienia się w zależności od wartości zmiennych objaśniających, czasu, wielkości jednostki albo innego czynnika, występuje heteroskedastyczność.

Na wykresie heteroskedastyczność często widać jako zmieniający się rozrzut reszt. Dla jednych obserwacji reszty są małe i skupione blisko zera, a dla innych zaczynają się coraz bardziej oddalać od zera. Typowy obraz przypomina lejek albo wachlarz.

Heteroskedastyczność jest szczególnie częsta w danych przekrojowych. Przykładowo, przy modelowaniu wydatków gospodarstw domowych wariancja błędów może być większa dla gospodarstw o wysokich dochodach niż dla gospodarstw o niskich dochodach. W szeregach czasowych zmienność może z kolei rosnąć wraz z czasem albo zmieniać się w okresach kryzysów.

Problem heteroskedastyczności polega przede wszystkim na tym, że standardowe błędy parametrów mogą być błędnie oszacowane. W efekcie testy t i F mogą prowadzić do mylnych wniosków o istotności parametrów.

Test Breuscha-Pagana

Test Breuscha-Pagana jest jednym z klasycznych testów heteroskedastyczności. Sprawdza, czy wariancja składnika losowego zależy od zmiennych objaśniających.

Hipotezy testu są następujące:

$$H_0: \text{występuje homoskedastyczność}$$

$$H_1: \text{występuje heteroskedastyczność zależna od zmiennych objaśniających}$$

Hipoteza zerowa jest korzystna dla modelu. Jeżeli p-value jest małe, odrzucamy hipotezę homoskedastyczności i uznajemy, że występuje heteroskedastyczność.

Intuicyjnie test Breuscha-Pagana polega na sprawdzeniu, czy kwadraty reszt można wyjaśnić za pomocą zmiennych objaśniających. Jeżeli tak, oznacza to, że wariancja błędów nie jest stała, lecz zależy od poziomu zmiennych w modelu.

Test White’a

Test White’a jest bardziej ogólnym testem heteroskedastyczności. Nie wymaga tak precyzyjnego określenia postaci zależności wariancji od zmiennych objaśniających. W regresji pomocniczej mogą pojawiać się zmienne objaśniające, ich kwadraty oraz iloczyny.

Hipotezy są następujące:

$$H_0: \text{występuje homoskedastyczność}$$

$$H_1: \text{występuje heteroskedastyczność}$$

Test White’a jest bardziej elastyczny niż test Breuscha-Pagana, ponieważ może wykrywać różne formy heteroskedastyczności. Z drugiej strony, przy małej liczbie obserwacji może być problematyczny, ponieważ regresja pomocnicza może zawierać wiele dodatkowych zmiennych.

W praktyce test White’a jest często stosowany jako ogólny test diagnostyczny. Jeżeli wskazuje na heteroskedastyczność, warto rozważyć zastosowanie odpornych błędów standardowych, transformację zmiennych albo zmianę specyfikacji modelu.

Test Goldfelda-Quandta

Test Goldfelda-Quandta jest klasycznym testem heteroskedastyczności, który sprawdza, czy wariancja składnika losowego różni się między dwiema grupami obserwacji. Jest szczególnie przydatny wtedy, gdy podejrzewamy, że wariancja błędów rośnie wraz z pewną zmienną.

Idea testu polega na uporządkowaniu obserwacji według zmiennej, która może być źródłem heteroskedastyczności. Następnie dzieli się dane na dwie grupy, często pomijając część środkowych obserwacji, i porównuje sumy kwadratów reszt w obu grupach.

Hipotezy można zapisać następująco:

$$H_0: \text{wariancje składnika losowego w obu grupach są takie same}$$

$$H_1: \text{wariancje składnika losowego w obu grupach różnią się}$$

Test Goldfelda-Quandta jest użyteczny, gdy mamy konkretne podejrzenie, że rozrzut reszt zmienia się wraz z określoną zmienną, na przykład dochodem, wielkością przedsiębiorstwa albo skalą działalności.

Heteroskedastyczność a źródła problemu

Heteroskedastyczność może mieć różne źródła, dlatego nie każdy test jest jednakowo czuły na ten sam typ problemu.

W danych przekrojowych heteroskedastyczność często wynika z różnic skali między jednostkami. Duże przedsiębiorstwa mogą mieć większą zmienność zysków niż małe przedsiębiorstwa. Gospodarstwa domowe o wysokich dochodach mogą mieć bardziej zróżnicowane wydatki niż gospodarstwa o niskich dochodach. W takich sytuacjach wariancja błędów może zależeć od poziomu jednej lub kilku zmiennych objaśniających.

W szeregach czasowych heteroskedastyczność może wynikać z upływu czasu, zmian strukturalnych, kryzysów, inflacji albo narastającej zmienności badanego zjawiska. W finansach często obserwuje się okresy spokojne i okresy silnych wahań, co prowadzi do zmienności wariancji w czasie.

Test Breuscha-Pagana koncentruje się przede wszystkim na zależności wariancji od zmiennych objaśniających. Test White’a jest bardziej ogólny i może wykrywać szerszą klasę zależności. Test Goldfelda-Quandta sprawdza różnice wariancji między grupami uporządkowanymi według wybranej zmiennej.

Dlatego przy wyborze testu warto zastanowić się, jakie jest możliwe źródło heteroskedastyczności. Inaczej będziemy badać model wynagrodzeń dla osób o bardzo różnych dochodach, a inaczej model szeregu czasowego, w którym zmienność rośnie z roku na rok.

Test serii jako test losowości reszt

W diagnostyce reszt można spotkać również test serii, nazywany także testem runs. Służy on do badania losowości układu znaków reszt. Nie analizuje dokładnych wartości reszt, lecz to, czy dodatnie i ujemne reszty pojawiają się w sposób losowy.

Serią nazywamy ciąg kolejnych reszt o tym samym znaku. Przykładowo, jeżeli przez kilka obserwacji z rzędu reszty są dodatnie, mamy serię dodatnią. Jeżeli później pojawia się kilka reszt ujemnych, mamy serię ujemną.

Hipotezy testu serii można przedstawić następująco:

$$H_0: \text{znaki reszt układają się losowo}$$

$$H_1: \text{znaki reszt nie układają się losowo}$$

Zbyt mała liczba serii może wskazywać na autokorelację dodatnią, ponieważ reszty długo utrzymują ten sam znak. Zbyt duża liczba serii może wskazywać na autokorelację ujemną, ponieważ reszty zbyt często zmieniają znak.

Test serii jest prosty i intuicyjny, dlatego dobrze nadaje się do wstępnej oceny losowości reszt. Nie zastępuje jednak bardziej wyspecjalizowanych testów autokorelacji, takich jak test Durbina-Watsona czy test Breuscha-Godfreya.

Test RESET Ramseya

Oprócz testów dotyczących reszt warto wspomnieć o testach poprawności specyfikacji modelu. Jednym z najpopularniejszych jest test RESET Ramseya.

Test ten sprawdza, czy w modelu nie pominięto istotnych nieliniowości albo czy model nie ma błędnej postaci funkcyjnej. W praktyce do modelu pomocniczego dodaje się potęgi wartości teoretycznych, na przykład $\hat{Y}^2$, $\hat{Y}^3$, i sprawdza ich łączną istotność.

Hipotezy można zapisać następująco:

$$H_0: \text{model jest poprawnie wyspecyfikowany}$$

$$H_1: \text{model jest błędnie wyspecyfikowany}$$

Tak jak w większości testów diagnostycznych, hipoteza zerowa jest korzystna dla modelu. Jeżeli ją odrzucamy, może to oznaczać, że model wymaga zmiany postaci, dodania pominiętych zmiennych albo uwzględnienia zależności nieliniowych.

Test RESET nie mówi dokładnie, co jest źle w modelu. Informuje raczej, że istnieją przesłanki błędnej specyfikacji. Dlatego jego wynik należy traktować jako sygnał do dalszej analizy, a nie jako gotową odpowiedź.

Jak czytać wyniki testów w praktyce?

W praktyce programy ekonometryczne podają najczęściej statystykę testową oraz wartość p-value. Najprostsza reguła decyzyjna jest następująca:

Jeżeli:

$$p\text{-value} < \alpha$$

to odrzucamy hipotezę zerową na poziomie istotności $\alpha$.

Jeżeli:

$$p\text{-value} \geq \alpha$$

to nie mamy podstaw do odrzucenia hipotezy zerowej.

Trzeba jednak uważać na interpretację. Sformułowanie „nie odrzucamy hipotezy zerowej” nie oznacza, że hipoteza zerowa jest na pewno prawdziwa. Oznacza jedynie, że na podstawie dostępnych danych nie mamy dostatecznie silnych podstaw, aby ją odrzucić.

Warto także pamiętać, że testy statystyczne nie zastępują oceny merytorycznej. Model może przejść wiele testów diagnostycznych, a mimo to być słaby merytorycznie. Może też nie przejść jednego testu, ale nadal być użyteczny po zastosowaniu odpowiednich korekt, na przykład odpornych błędów standardowych albo zmiany specyfikacji.

W praktycznej analizie warto więc patrzeć nie tylko na pojedyncze p-value, ale także na sens ekonomiczny modelu, znaki parametrów, wykresy reszt, stabilność wyników oraz cel, do którego model ma być wykorzystany.

Podsumowanie

Weryfikacja modelu ekonometrycznego jest niezbędnym etapem analizy. Samo oszacowanie modelu metodą najmniejszych kwadratów nie wystarcza, ponieważ trzeba jeszcze sprawdzić, czy parametry są istotne, czy model jako całość ma sens oraz czy reszty spełniają podstawowe założenia.

W testach istotności parametrów hipoteza zerowa jest zwykle niekorzystna dla modelu, ponieważ mówi o braku wpływu danej zmiennej. Odrzucenie hipotezy zerowej jest wtedy korzystne. W testach diagnostycznych sytuacja jest najczęściej odwrotna: hipoteza zerowa oznacza brak problemu, a jej odrzucenie wskazuje na naruszenie założeń.

Test F łącznej istotności modelu można traktować jako szczególny przypadek testu Walda dla liniowych ograniczeń na parametry. Uogólniony test Walda pozwala natomiast testować dowolnie wybrane podzbiory parametrów albo inne liniowe ograniczenia. W modelu z jedną zmienną objaśniającą i wyrazem wolnym test t dla parametru kierunkowego oraz test F prowadzą do tych samych wniosków, ponieważ zachodzi zależność $F=t^2$.

Do najważniejszych narzędzi weryfikacji należą test t-Studenta, test F, test Walda, test Jarque’a-Bery, test Shapiro-Wilka, test Durbina-Watsona, test Breuscha-Godfreya, test Breuscha-Pagana, test White’a, test Goldfelda-Quandta, test serii, test RESET Ramseya oraz diagnostyka współliniowości z wykorzystaniem współczynnika VIF.

Wyników testów nie należy interpretować mechanicznie. Trzeba uwzględnić rodzaj danych, liczebność próby, cel modelu, sens ekonomiczny zmiennych oraz ewentualne konsekwencje naruszenia założeń. Dobry model ekonometryczny powinien być nie tylko poprawny formalnie, ale również sensowny merytorycznie i użyteczny praktycznie.

Sebastian Dziarmaga-Działyński

Utworzono: 16.05.2026

Powiązane artykuły

Masz problem z tym tematem?

Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię i analizę danych — spokojnie, konkretnie i krok po kroku.

Zapytaj o pomoc