Wszechnica Wszechwiedzy - Baner

Generator danych do modelu ekonometrycznego online

Wprowadzenie

Podczas nauki ekonometrii często pojawia się bardzo praktyczny problem: skąd wziąć niewielki, czytelny zestaw danych, na którym można przećwiczyć estymację modelu liniowego? Dane rzeczywiste bywają zbyt skomplikowane, zawierają braki, obserwacje nietypowe albo zależności, których początkujący użytkownik nie potrafi jeszcze poprawnie zinterpretować. Z kolei wpisanie kilku liczb „z głowy” zwykle nie daje dobrego efektu, ponieważ między zmiennymi może nie występować żadna sensowna zależność.

Dlatego w celach dydaktycznych wygodnie jest korzystać z danych symulacyjnych, czyli danych wygenerowanych według określonego modelu. Użytkownik sam określa liczbę obserwacji, liczbę zmiennych objaśniających, wartości parametrów oraz siłę losowych zakłóceń. Następnie generator tworzy tabelę danych, którą można wykorzystać do ćwiczeń w Excelu, Gretlu, R, SPSS-ie albo innym programie statystycznym.

Wygenerowany zbiór danych ma charakter umowny. Nie opisuje konkretnej firmy, kraju ani rynku, ale pozwala zobaczyć, jak działa liniowy model ekonometryczny. Dzięki temu można samodzielnie przećwiczyć estymację parametrów, interpretację wyników oraz wpływ składnika losowego na dokładność otrzymanego modelu.

Po co generować dane do ćwiczeń?

Jeżeli do arkusza kalkulacyjnego wpiszemy przypadkowe wartości zmiennych objaśniającychzmiennej objaśnianej, możemy otrzymać model, który będzie miał bardzo słabe własności statystyczne. Współczynnik determinacji może być niski, znaki ocen parametrów mogą być przypadkowe, a zależność między zmiennymi może nie mieć żadnej sensownej interpretacji.

W przypadku danych wygenerowanych według zadanego modelu sytuacja jest inna. Wiemy, że zmienna objaśniana powstała zgodnie z równaniem:

\[
y_i = \beta_0 + \beta_1x_{1i} + \beta_2x_{2i} + \ldots + \beta_kx_{ki} + \varepsilon_i
\]

gdzie \(y_i\) oznacza wartość zmiennej objaśnianej, \(x_{1i}, x_{2i}, \ldots, x_{ki}\) są wartościami zmiennych objaśniających, \(\beta_0, \beta_1, \ldots, \beta_k\) są parametrami modelu, natomiast \(\varepsilon_i\) oznacza składnik losowy.

W praktyce oznacza to, że dane nie są zupełnie przypadkowe. Mają wbudowaną zależność liniową, która zostaje jedynie zakłócona przez losowy składnik. Dzięki temu można sprawdzić, czy metoda najmniejszych kwadratów pozwala odzyskać parametry zbliżone do tych, które zostały użyte podczas generowania danych.

Jak działa generator danych?

Generator dostępny poniżej tworzy przykładowy zbiór danych do ćwiczeniowego modelu ekonometrycznego. Użytkownik wybiera liczbę obserwacji, liczbę zmiennych objaśniających, typ każdej zmiennej oraz wartości parametrów modelu. Następnie skrypt generuje wartości zmiennych \(x_1, x_2, \ldots, x_k\), oblicza wartość zmiennej \(y\) i dodaje składnik losowy o zadanym odchyleniu standardowym.

Wynikiem działania generatora jest tabela danych, którą można przepisać, skopiować albo pobrać w pliku CSV. Taki plik można następnie otworzyć w Excelu, LibreOffice Calc, Gretlu albo zaimportować do programu R.

Jakie zmienne można wygenerować?

W generatorze można wybrać kilka prostych typów zmiennych objaśniających.

Zmienna czasowa

Zmienna czasowa przyjmuje wartości \(1, 2, 3, \ldots, n\), gdzie \(n\) oznacza liczbę obserwacji. Jest przydatna szczególnie wtedy, gdy chcemy poćwiczyć model z trendem liniowym.

Zmienna zero-jedynkowa

Zmienna zero-jedynkowa przyjmuje wartości 0 albo 1. Może oznaczać na przykład przynależność do grupy, wystąpienie pewnego zdarzenia, okres przed i po zmianie albo inną cechę jakościową zakodowaną liczbowo.

Zmienna sezonowa

Zmienna sezonowa powtarza kolejne numery sezonów, na przykład \(1, 2, 3, 4, 1, 2, 3, 4,\ldots\) dla danych kwartalnych. W rzeczywistych modelach sezonowość często wprowadza się za pomocą zmiennych zero-jedynkowych, ale prosta zmienna sezonowa może być użyteczna na etapie ćwiczeń i eksperymentowania z danymi.

Zmienna losowa o rozkładzie jednostajnym

W tym przypadku użytkownik podaje wartość minimalną i maksymalną, a generator losuje wartości z podanego przedziału. Taki typ zmiennej jest wygodny, gdy chcemy otrzymać wartości rozłożone mniej więcej równomiernie w określonym zakresie.

Zmienna losowa o rozkładzie normalnym

W tym przypadku użytkownik podaje średnią oraz odchylenie standardowe. Generator tworzy wartości skupione wokół średniej, z losowymi odchyleniami zgodnymi z rozkładem normalnym.

Znaczenie składnika losowego

Odchylenie standardowe składnika losowego decyduje o tym, jak silnie wartości zmiennej \(y\) są zakłócone. Jeżeli ustawimy małą wartość odchylenia standardowego, dane będą bardzo dobrze dopasowane do modelu liniowego. Jeżeli ustawimy większą wartość, rozrzut punktów będzie większy, a oszacowane parametry mogą bardziej różnić się od parametrów użytych do wygenerowania danych.

To bardzo dobry sposób, aby zobaczyć, dlaczego w praktyce wyniki estymacji nie muszą być identyczne z rzeczywistymi parametrami zależności. Model ekonometryczny zawsze pracuje na danych, które zawierają pewien element losowy, błędy pomiaru albo wpływ czynników nieuwzględnionych w równaniu.

Generator danych do modelu ekonometrycznego

W poniższym formularzu wybierz liczbę obserwacji i zmiennych objaśniających. Następnie określ typ każdej zmiennej, wartości parametrów modelu oraz odchylenie standardowe składnika losowego. Po kliknięciu przycisku generator utworzy tabelę danych gotową do skopiowania lub pobrania w formacie CSV.

Ustawienia ogólne

Parametry przy zmiennych

Typy zmiennych objaśniających

Zmienna x1

Zmienna x2

Zmienna x3

Zmienna x4

Jak wykorzystać wygenerowane dane?

Po wygenerowaniu danych można je skopiować albo pobrać jako plik CSV. Następnie można oszacować model liniowy w wybranym programie. W Excelu można użyć narzędzia regresji dostępnego w dodatku „Analiza danych” albo funkcji arkuszowych. W Gretlu wystarczy zaimportować plik CSV i wybrać model MNK. W R można użyć funkcji lm().

Po oszacowaniu modelu warto porównać otrzymane oceny parametrów z wartościami wpisanymi wcześniej w generatorze. Im mniejsze odchylenie standardowe składnika losowego oraz im większa liczba obserwacji, tym zwykle łatwiej otrzymać wyniki zbliżone do parametrów użytych podczas generowania danych.

Podsumowanie

Generator danych do modelu ekonometrycznego pozwala szybko przygotować prosty, ćwiczeniowy zestaw obserwacji. Dzięki temu można skupić się na nauce estymacji, interpretacji parametrów i analizie wyników, zamiast tracić czas na ręczne wymyślanie liczb. Dane mają charakter symulacyjny, ale właśnie dlatego dobrze nadają się do nauki podstaw ekonometrii.

Powiązane artykuły

Masz problem z tym tematem?

Wszechwiedza.pl pomaga zrozumieć matematykę, statystykę, ekonometrię, badania operacyjne, analizę danych, mechanikę i wiele innych przedmiotów — spokojnie, konkretnie i krok po kroku. 

Zapytaj o pomoc