Definicje
Statystyka jest nauką traktującą o ilościowych modelach badania zjawisk (procesów) masowych (Sobczak95).
Statystyka matematyczna zajmuje się metodami wnioskowania o całej zbiorowości na podstawie zbadania pewnej jej części zwanej próbką lub próbą (Greń68).
Wnioskowanie statystyczne będące przedmiotem statystyki matematycznej może występować w dwu wariantach zastosowań:
a) jako estymacja, czyli szacowanie parametrów rozkładu badanej cechy w populacji generalnej,
b) jako weryfikacja (testowanie) hipotez statystycznych dotyczących rozkładu badanej cechy w populacji (zbiorowości generalnej).
Zarówno w estymacji jak i przy weryfikacji hipotez statystycznych zakłada się, iż populacja generalna z której pobieramy próbę losową, jest nieskończona. Przypadek skończonej liczby elementów rozpatruje się w części statystyki zwanej metodą reprezentacyjną.
Zbiorowością statystyczną (zwaną również populacją) nazywa się zbiór dowolnych elementów(nieidentycznych z punktu widzenia badanej cechy) objętych badaniem statystycznym.
Jednostki wchodzące w skład zbiorowości statystycznych charakteryzują się pewnymi właściwościami – zwanych cechami, które mogą być stałe i zmienne.
Cechy stałe określają jednostki (przez nie zbiorowość) pod względem rzeczowym(co?), czasowym(kiedy), oraz przestrzennym (gdzie). Cechy stałe są wspólne wszystkim jednostkom zbiorowości. Nie podlegają one badaniu a jedynie decydują o zaliczeniu jednostek do określonej zbiorowości.
Cechy zmienne to właściwości, którymi różnią się poszczególne jednostki statystyczne. Dzielimy je na jakościowe (niemierzalne) i ilościowe (mierzalne).
Cech jakościowych nie można zmierzyć, lecz tylko określić(np. pochodzenie społeczne, płeć, rasa, kolor włosów, uroda). Cechy ilościowe dadzą się wyrazić przy pomocy liczb o różnych mianach, np. wzrost (w cm), wiek (w latach), zyski (w zł), produkcja (w szt., tonach, mb itp.). Cechy ilościowe dzielimy na ciągłe i skokowe.
Cechy ciągłe stanowią wyniki pomiarów wartości cech w przedziale jej kształtowania się w populacji np. wzrost, waga ciała, dochód miesięczny na członka gospodarstwa domowego, czy jednostkowe spożycie dóbr w przedziale czasu.
Cechy skokowe charakteryzują się występowaniem całkowitoliczbowych reprezentacji np.: liczba dzieci w rodzinie, liczba studentów w grupie, ilość osób na mieszkanie, liczba prosiąt w miocie.
Podstawowe pojęcia ze statystyki matematycznej
Próba, próbka – część, tj. podzbiór populacji podlegający bezpośrednio badaniu ze względu na ustaloną cechę, w celu wyciągnięcia wniosków o kształtowaniu się wartości tej cechy w populacji.
Liczebność próby – liczba jednostek, elementów populacji generalnej wybranych do próby. Liczebność próby oznacza się zwykle przez n. Gdy n30, mówimy o małej próbie.
Próba losowa – próba, której dobór z całej populacji dokonany jest w drodze losowania, tzn. w taki sposób, że jedynie przypadek decyduje o tym który element został wylosowany a który nie.
Próba reprezentacyjna – próba, której struktura pod względem badanej cechy nie różni się istotnie od struktury populacji generalnej. Próba reprezentacyjna jest jak gdyby „miniaturą” populacji generalnej, daje więc podstawę do wysuwania prawidłowych o niej wniosków. Uzyskiwaniu prób reprezentacyjnych sprzyja dobór właściwego schematu losowania próby.
Schemat losowania próby – praktyczny sposób losowania elementów populacji generalnej do próby, uwzględniający możliwości techniczne, koszt i efektywność uzyskiwanych wyników. Metoda reprezentacyjna zajmuje się szczegółowo różnymi schematami losowania próby.
Losowanie niezależne – schemat losowania próby ze zwracaniem każdego wylosowanego elementu w trakcie losowania, tak że jeden element może być wylosowany więcej niż jeden raz.
Losowanie zależne – schemat losowania próby bez zwracania każdego wylosowanego elementu populacji generalnej, tak że jeden element populacji może zostać wylosowany do próby tylko jeden raz.
Losowanie nieograniczone – losowanie elementów do próby od razu z całej populacji, co nie występuje w losowaniu warstwowym.
Losowanie warstwowe – losowanie próby oddzielnie z każdej części tzw. Warstwy populacji generalnej, na które została ona podzielona przed losowaniem.
Losowanie indywidualne – losowanie oddzielne poszczególnych elementów populacji generalnej do próby w odróżnieniu np. od losowania zespołowego, w którym losuje się do próby pewne naturalne zespoły populacji generalnej np. gospodarstwa domowe.
Wyniki próby – zaobserwowane wartości badanej cechy u tych elementów populacji generalnej które zostały wybrane do próby. Wyniki próby losowej o liczebności n stanowią wartości n- wymiarowej zmiennej losowej. Wyniki dużej próby grupuje się zwykle w klasy, tworząc szereg rozdzielczy.
Przestrzeń próby – zbiór wszystkich możliwych wyników próby o liczebności n.
Rozkład populacji – rozkład wartości badanej cechy w całej zbiorowości.
Parametry populacji – parametry rozkładu badanej cechy w populacji. Charakteryzują one ten rozkład. Do najczęściej używanych parametrów należą tzw. momenty. Parametry dzielimy zwykle na następujące grupy:
a) miary skupienia (np. średnia arytmetyczna, mediana),
b) miary rozrzutu (np. wariancja i odchylenie standardowe współczynnik zmienności),
c) miary asymetrii – skośności – współczynnik asymetrii,
d) miary korelacji (przy badaniu populacji ze względu na wiele cech współczynniki regresji, korelacji i determinacji).
Statystyka z próby – zmienna losowa będąca dowolną funkcją wyników próby losowej, np. średnia arytmetyczna wyników próby x, statystyka pozycyjna rzędu 0,5, czyli mediana
Rozkład statystyki – teoretyczny rozkład prawdopodobieństwa zmiennej losowej będącej statystyką. Rozkład ten zależy zwykle od rozkładu populacji i schematu losowania n- elementowej próby.
Asymptotyczny rozkład statystyki – graniczny rozkład prawdopodobieństwa zmiennej losowej będącej statystyką, wyznaczony przy założeniu, że liczebność losowej próby n.
Rozkład dwupunktowy (rozkład zerojedynkowy) – teoretyczny rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określanej wzorem
P(X=k) = pq dla k = 0 lub k = 1 (0p, q = 1 – p
Rozkładu tego używa się w statystyce przy badaniu cech jakościowych.
Rozkład dwumianowy – rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem
P(X=k)=dla k=0, 1, 2,..., n (0p1, q = 1 – p)
Rozkład Poissona – rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem
P(X=k) = dla k = 0, 1, 2,... ().
Rozkład normalny – najważniejszy w statystyce rozkład zmiennej losowej ciągłej X o funkcji gęstości prawdopodobieństwa określonej wzorem
f(x) = dla - (
Często rozkład normalny oznacza się symbolem N(m,), gdzie m jest wartością oczekiwaną (średnią ), a odchyleniem standardowym w tym rozkładzie, tj. m=E(X), = D(X).
Rozkład normalny standaryzowany – rozkład normalny N(0,1), tzn. funkcji gęstości określonej wzorem
.
Wykresem tej funkcji gęstości jest tzw. krzywa Gaussa. Zmienna losowa U mająca rozkład N(0,1) nosi nazwę standaryzowanej lub unormowanej zmiennej normalnej.
Standaryzacja rozkładu normalnego - zamiana rozkładu normalnego N(m,) na rozkład normalny standaryzowany N(0,1). Odbywa się ona poprzez odjęcie średniej m i podzielenie przez odchylenie standardowe , tzn. jeżeli X ma rozkład N(m,),
to U=(X-m)/ ma rozkład N(0,1).
Rozkład normalny n – wymiarowy – rozkład prawdopodobieństwa n – wymiarowego wektora losowego x o funkcji gęstości określonej wzorem
f(x)=(2 )exp{-,
Gdzie jest wektorem wartości oczekiwanych, a jest macierzą wariancji i kowariancji. Wyznacznik II nosi nazwę wariancji uogólnionej. Często rozkład ten jest oznaczany symbolem N(,).
Z pośród innych rozkładów statystycznych najważniejsze znaczenie posiadają:
- rozkład ,
- rozkład t Studenta,
- rozkład F Snedecora.
Estymator – dowolna statystyka Z służąca do oszacowania nieznanej wartości parametru populacji generalnej.
Rozkład estymatora – rozkład prawdopodobieństwa statystyki będącej estymatorem parametru .
Parametry rozkładu estymatora – najważniejsze to wartość oczekiwana E(Z) oraz wariancja D(Z) w rozkładzie statystyki Z będącej estymatorem jakiegoś parametru w populacji
Błąd przeciętny szacunku – pierwiastek z wariancji, tzn. odchylenie standardowe D(Z) w rozkładzie estymatora Z za pomocą którego szacuje się parametr w populacji generalnej.
Estymacja punktowa – metoda szacunku nieznanego parametru populacji, polegająca na tym, że jako wartość parametru przyjmuje się wartość estymatora Z tego parametru, otrzymaną z danej n – elementowej próby losowej.
Estymator nieobciążony – estymator Z spełniający równość E(Z)=0, oznaczającą, że estymator Z szacuje parametr bez błędu systematycznego.
Estymator efektywny – estymator Z o możliwie małej wariancji D(Z). Stosowanie estymatora efektywnego oznacza popełnienie małego błędu przeciętnego szacunku D(Z).
Metoda największej wiarygodności – metoda znajdowania estymatora parametru , polegająca na tym, że za estymator przyjmuje się taką wartość parametru , dla której wiarygodność (prawdopodobieństwo lub gęstość prawdopodobieństwa) danej próby losowej jest największa. Estymatory uzyskane metodą największej wiarygodności mają wiele pożądanych cech.
Estymacja przedziałowa – estymacja parametru polegająca na budowaniu tzw. przedziału ufności dla tego parametru.
Przedział ufności – losowy przedział wyznaczony za pomocą rozkładu estymatora, a mający tę własność, że z dużym, z góry danym prawdopodobieństwem, pokrywa wartość szacowanego parametru . Zapisujemy go zwykle w postaci P(a)= 1 - , gdzie a i b noszą nazwę dolnej i górnej granicy(końca) przedziału ufności, a prawdopodobieństwo 1-jest dane z góry.
Współczynnik ufności – prawdopodobieństwo 1- a występujące po prawej stronie wzoru na przedział ufności, a oznaczające prawdopodobieństwo, z jakim parametr q jest pokryty tym przedziałem. Współczynnik ufności w praktyce wybiera się jako dowolnie duże prawdopodobieństwo. Najczęściej przyjmowanymi wartościami za 1- a są liczby: 0,90; 0,95; 0,99. Im bliższy 1 jest współczynnik ufności, tym szerszy (więc o mniejszej użyteczności) otrzymuje się przedział ufności. Dlatego też bez specjalnej potrzeby nie należy przyjmować zbyt wysokich wartości współczynnika ufności.
Hipoteza statystyczna – jakiekolwiek przypuszczenie dotyczące rozkładu populacji generalnej.
Hipoteza parametryczna – hipoteza statystyczna precyzująca wartość parametru w rozkładzie populacji generalnej znanego typu.
Hipoteza nieparametryczna – hipoteza statystyczna precyzująca typ rozkładu populacji generalnej.
Hipoteza zerowa – podstawowa hipoteza statystyczna sprawdzana danym testem. Oznacza się ją zwykle symbolem H0.
Hipoteza alternatywna – hipoteza statystyczna konkurencyjna w stosunku do hipotezy zerowej w tym sensie, że jeżeli odrzuca się hipotezę zerową, to przyjmuje się hipotezę alternatywną. Oznacza się ją H1.
Błąd pierwszego rodzaju – możliwy do popełnienia przy weryfikacji hipotezy statystycznej błąd polegający na odrzuceniu hipotezy prawdziwej.
Błąd drugiego rodzaju - możliwy do popełnienia przy sprawdzaniu hipotezy statystycznej błąd polegający na przyjęciu hipotezy fałszywej.
Poziom istotności – prawdopodobieństwo popełnienia błędu pierwszego rodzaju w postępowaniu testującym hipotezę. Poziom istotności oznacza się zwykle symbolem a i obiera się z góry, zwykle jako małe prawdopodobieństwo. Do najczęściej przyjmowanych poziomów istotności należą prawdopodobieństwa 0,1; 0,05; 0,001. Odrzucenie sprawdzanej hipotezy na poziomie istotności np. a = 0,05 oznacza, że ryzyko popełnienia błędu pierwszego rodzaju przy tej decyzji wynosi tylko 5% (inaczej mówiąc, co najwyżej 5 razy na 100 takich decyzji popełniać będziemy błąd).
Test statystyczny – reguła postępowania, która na podstawie wyników próby ma doprowadzić do decyzji przyjęcia lub odrzucenia postawionej hipotezy statystycznej. Przy pomocy testu weryfikujemy zatem hipotezę statystyczną.
Moc testu - prawdopodobieństwo podjęcia decyzji prawidłowej przy weryfikacji hipotezy statystycznej danym testem, a polegającej na odrzuceniu hipotezy fałszywej.
Test istotności – najczęściej używany w praktyce statystycznej typ testu, pozwalający na odrzucenie hipotezy z małym ryzykiem popełnienia błędu (mierzonym poziomem istotności a). Ze względu na to, że w teście istotności uwzględnia się jedynie błąd pierwszego rodzaju, a nie rozpatruje się szansy popełnienia błędu drugiego rodzaju, to w wyniku tego testu możliwa jest decyzja odrzucenia hipotezy zerowej lub nie ma podstaw do jej odrzucenia (co nie oznacza jej przyjęcia).
zarzadzanieutp