Statistika

Editovat
Note

Diskrétní a spojité náhodné veličiny (NV), základní rozložení. Číselné charakteristiky NV. Centrální limitní věta. Bodové odhady, intervaly spolehlivosti, testování statistických hypotéz, hladina významnosti. Základní parametrické a neparametrické testy, ANOVA, testy nezávislosti NV. Lineární regrese, celkový F-test, dílčí t-testy.

MV013

Příklad 1. Opakování
Tip
Viz bakalářské otázky Kombinatorika a pravděpodobnost a Statistika.
Statistika

Zabývá se sbíráním, organizací, analýzou, interpretací a prezentací dat. [1]

  • Popisná / decriptive: shrnuje data, která máme,

  • Inferenční / inferential: předpokládá, že data která máme jsou jen součástí celku; pracuje s modely celé populace a hypotézami o ní.

Základní prostor

Konečná množina možných jevů. Např pro možné hody šestistěnkou.

Možný výsledek (elementární náhodný jev)

Prvek základního prostoru .

Náhodný jev (event)

Podmnožina , která nás zajímá. Např. "Na šestistěnce padne sudé číslo."

Náhodné veličiny

Náhodná veličina (NV) / random variable

Něco, co se dá u každého možného výsledku změřit. Zobrazení z prostoru elementárních jevů do měřitelného prostoru (třeba ).

Diskrétní

Diskrétní NV je náhodná veličina, která nabývá konečně nebo spočetně mnoha hodnot. je konečná nebo spočetná, např. .

Příklad: hodnota na šestistěnce.

Jinými slovy, NV je diskrétní, pokud se prvky zobrazí do jako izolované body .

Rozdělení pravděpodobnosti

Funkce , která každé hodnotě popsané veličinou přiřazuje pravděpodobnost jejího výskytu.

  • Každá má nenulovou pravděpodobnost:

  • Součet pravděpodobností všech možných hodnot je :

Spojité

Spojitá NV je náhodná veličina, která nabývá až nespočetně nekonečně mnoha hodnot. Tedy je nespočetná, např. .

Příklad: doba čekání na šalinu, analogový signál, výška člověka (pokud máme fakt dobrej metr).

Jinými slovy, NV je spojitá, pokud se prvky zobrazí do jako interval .

Hustota pravděpodobnosti / probability density function (PDF)

Funkce , která každé hodnotě popsané veličinou přiřazuje pravděpodobnost jejího výskytu.

  • Každý bod tohoto intervalu má nulovou pravděpodobnost:

  • Nicméně integrál pravděpodobnostní funkce je :

  • Pravděpodobnost, že NV nabývá hodnoty z intervalu je pak:

Základní rozložení

Distribuční funkce / cumulative distribution function (CDF)

Funkce udává pravděpodobnost, že NV nabývá hodnoty menší než .

Charakterizuje rozdělení, kterému náhodná veličina podléhá.

Pro spojité NV je to plocha pod křivkou pravděpodobnostní funkce. A taky se dá použít k vyjádření pravdepodobnosti:

Tabulka 1. Diskrétní rozložení
Název Definice Popis Příklad

Bernoulliho / alternativní

Náhodný pokus, kde jsou jen dva možné výsledky.

Hod mincí.

Binomické

Sekvence pokusů. Popisuje pravděpodobnost, že bude úspěšných.

Hod mincí krát.

Poissonovo

Pokud se něco děje průměrně -krát za jednotku času, jaká je pravděpodobnost, že se to stane -krát za stejnou jednotku času? Výskyt jednoho jevu nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou.

Kolik lidí přijde do obchodu za hodinu. (Za předpokladu, že je pandemie a dovnitř může jen jeden člověk.)

Geometrické

Když tě zajímá, jaká je šance, že se něco pokazí krát, než to konečně uspěje.

Kolikrát musíš hodit mincí, než padne poprvé hlava.

(Diskrétní) rovnoměrné / uniformní

Když jsou všechny jevy z dané množiny stejně pravděpodobné.

Hod d20.

Tabulka 2. Spojité rozložení
Název Definice Popis Příklad

(Spojité) rovnoměrné / uniformní

Všechny jevy v daném intervalu (může být otevřený nebo uzavřený) jsou stejně pravděpodobné.

Bod na kružnici.

Exponenciální

Čas mezi jevy v Poissonově procesu.

Jak dlouho budeš čekat na šalinu.

Normální / Gaussovo

Používá se jako default, když nevíš, jakou má proměnná distribuci, kvůli centrální limitní větě. ( je mean, je rozptyl).

Výška lidí.

Standardní normální

Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že:

  • 68 % je v intervalu ,

  • 95 % je v intervalu ,

  • 99,7 % je v intervalu .

Výška lidí (ale přeškálovaná).

Cauchy

Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované.

Poměr výšky k šířce obličeje.

Gamma

Když máš sekvenci jevů, kde čekací doba na každý má exponenciální rozdělení s rate , pak čekací doba na -tý jev má Gamma rozdělení s .

Jak dlouho budeš čekat na -tou šalinu.

(Chi-square)

Používá se při testování hypotéz. Nechť jsou nezávislé náhodné proměnné se standardním normálním rozdělením a , pak rozdělení s stupni volnosti.

Testování, jestli je mince férová.

Studentovo

Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply.

Odhadování průměru výšky lidí.

Číselné charakteristiky

Stejně jako náhodné veličiny popisují jevy, číselné charakteristiky popisují chování náhodných veličin…​ pomocí čísel.

Míry polohy

Střední hodnota / mean / expected value

Průměr hodnot veličiny vážený jejich pravděpodobností. Značí se nebo .

Note
Taky někdy označovaný jako obecný moment prvního řádu / první obecný moment. [17]
-kvantil

Dělí statický soubor na stejně velké části.

Medián

Prostřední prvek uspořádaného statistického souboru. Kvantil .

Percentil

Výběrový kvantil (-tý kvantil, kde ) .

Modus

Hodnota s největší četností.

Míry variability

Jak moc se od sebe prvky liší (nezávisle na konstantním posunutí)?
Rozpyl / variance

Vyjadřuje, jak moc se NV odchyluje od své střední hodnoty. Značí se , nebo .

Note
Taky někdy označovaný jako centrální moment druhého řádu / druhý centrální moment. [17]
Směrodatná odchylka / standard deviation

Míra variability NV. Značí se nebo . Je definovaná jako .

ovariance veličin a

Měří určitou podobnost mezi a .

Ze vzorce výše plyne

Korelace

Míra podobnosti náhodných veličin a . Pokud , pak . Pokud jsou a nezávislé, pak .

Míry tvaru

Koeficient šikmosti / skewness

Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.

Koeficient špičatosti / kurtosis

Jak vysoký je peak? Jak moc je to rozpláclé.

Centrální limitní věta (CLV) / Central limit theorem (CLT)

S rostoucím počtem sample výsledků se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.

Popisuje chování výběrového průměru pro velké soubory vzorků a umožňuje tak sestrojení intervalových odhadů.

Moivreova-Laplacova věta

Mějme NV . Pokud je součtem vzájemně nezávislých NV s Bernoulliho rozdělením s parametrem , má binomické rozdělení s parametry a , pak s :

Lévyho-Lindenbergova věta
Tip
Zobecnění Moivreovy-Laplacovy věty.

Mějme NV . Pokud je součtem vzájemně nezávislých NV se shodným rozdělením libovolného typu, s konečnou střední hodnotou a konečným rozptylem , pak pro normovanou NV asymptoticky s platí:

Příklad 2. Výpočet s CLV

Nechť je náhodná proměnná popisují jak padá 6, když hodíme kostkou 100krát. Tedy:

Podle CLV má asymptoticky .

Pak například pravděpodobnost, že šestka padne méně než 16krát je:

S continuity correction (opravou v důsledku změny z diskrétní na spojitou NV) je to:

Odhady

Odhad parametru / parameter estimation

Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.

Cílem odhadu je určit parametry rozdělení NV na základě informace z výběrového souboru (realizaci NV, datasetu). Chceme hodnotu a přesnost odhadu.

Metoda odhadu / estimator

Popisuje, jak odhad získat.

Nestranný odhad / unbiased estimator

Metoda odhadu parametru taková, že střední hodnota odhadu je rovna . Nestrannost je celkem rozumné omezení, protože nechceme, aby byl odhad odchýlený.

Nejlepší nestranný odhad / best unbiased estimator

Nestranný odhad, který má nejmenší rozptyl ze všech nestranných odhadů.

Konzistentní odhad / consistent estimator

Metoda odhadu parametru taková, že s počtem vzorků konverguje k pro . [6]

(Výběrová) statistika / (sample) statistic

Náhodná veličina dána funkcí, která bere výběrový soubor a vrací číslo. Máme například:

  • Výběrový průměr / sample mean,

  • Výběrový rozptyl / sample variance,

  • Výběrovou směrodatnou odchylku / sample standard deviation,

  • Výběrovou (empirickou) distribuční funkci / sample distribution function.

Náhodná veličina , která vznikne aplikací funkce na náhodný výběr o velikosti se nazývá statistika.

Tip
Estimator je funkce počítající statistiku použitá k odhadu parametru. [7]
Bodový odhad / point estimate / pointwise estimate

Odhad parametru daný jednou hodnotou, která hodnotu parametru aproximuje.

Intervalový odhad / interval estimate

Odhad parametru daný pomocí intervalu hodnot, který hodnotu parametru s velkou pravděpodobností obsahuje. Délka intervalu vypovídá o přesnosti odhadu.

Interval spolehlivosti / confidence interval

Interval spolehlivosti parametru s hladinou spolehlivosti , kde je dvojice statistik taková, že:

kde je dolní mez intervalu a je horní mez intervalu.

Hladina významnosti a spolehlivosti / significance and confidence level
  • Hladina významnosti je pravděpodobnost, že parametr nespadá do intervalového odhadu.

  • Hladina spolehlivosti je pravděpodobnost, že parametr spadá do intervalového odhadu.

Levostranný, pravostranný a oboustranný interval / left-tailed, right-tailed and two-tailed interval
  • Levostranný (dolní): .

  • Pravostranný (horní): .

  • Oboustranný: .

Příklad 3. Tvorba intervalového odhadu

Máme vzorek velikosti s výběrovým průměrem a výběrovým rozptylem . Odhadněte střední hodnotu s hladinou spolehlivosti 0.95, pokud víte, že , kde rozptyl je neznámý.

  1. Zvolíme vhodnou výběrovou statistiku jejíž rozdělení závislé na známe. V tomhle případě Studentův t-test:

    Tedy víme, že

  2. Určíme kvantily a z :

  3. Vyčíslíme interval z poslední rovnice.

Věrohodnost / likelihood

Říká, jak dobře náš model (rozdělení pravděpodobnosti náhodné veličiny dané parametry) sedí na naměřená data.

Note
Pravděpodobnost je funkce jevů. Likelihood je funkce parametrů modelu.
Note
Likelihood nemusí nutně vracet čísla z intervalu .
Maximum likelihood estimation (MLE)

Metoda odhadu parametru založená na maximalizaci likelihoodu, že model sedí na naměřená data. [8]

Method of moments (MOM)

Metoda odhadu parametru založená na rovnosti teoretického a výběrového momentu. [9]

Testování statistických hypotéz

Hypotéza

Nějaký předpoklad o datech, který chceme ověřit. Často je formulovaná pomocí parametrů modelu. Např. "střední hodnota je 5."

Testování hypotézy

Cílem testování hypotéz je ověřit, že data nepopírají nějakou hypotézu.

  • Null hypothesis : "výchozí nastavení"; často tvrdí, že nějaká vlastnost neexistuje.

  • Alternative hypothesis : "to co, chceme dokázat"; opak .

Alternativní hypotézu potvrzujeme tak, že vyvracíme nulovou hypotézu. Pokud se nám nepodaří vyvrátit , pak o nevíme nic. [10]

Na testování použijeme statistiku , kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označíme , a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy (region of rejection, critical region)) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy).

Na základě realizace náhodného výběru vypočítáme hodnotu testovací statistiky .

  • Pokud hodnota testovací statistiky nabude hodnoty z kritické oblasti, t.j. , pak nulovou hypotézu zamítáme.

  • Pokud hodnota testovací statistiky nabude hodnoty z oblasti nezamítnutí, t.j. , pak nulovou hypotézu nezamítáme.

— MV013
Příklad 4. Metafora se soudem

Platí presumpce nevinny. Předpokládáme, že člověk zločin nespáchal, dokud tuhle hypotézu nevyvrátíme.

  • : "Obžalovaný neukradl papamobil."

  • : "Obžalovaný ukradl papamobil."

Chyby v testování hypotéz
  • Typ I: zamítnutí , i když je pravdivá — false positive.

  • Typ II: nezamítnutí , i když je nepravdivá — false negative.

    Note

    Positive = zamítnutí , tedy potvrzení .

    Negative = nezamítnutí , tedy o nevíme nic.

-hodnota (hladina významnosti)

Nejmenší hladina významnosti , při které ještě zamítáme . [11]

Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme , ačkoli platí.

Tip
Pokud -value vyjde menší než požadovaná hladina významnosti , pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme , protože neplatí, a tedy akceptujeme .

Parametrické testy

Parametrické testy jsou založené na parametrech pravděpodobnostních rozdělení.

Studentův T-test

Umožňuje ověřit zda normální rozdělení má danou střední hodnotu. Taky umožňuje ověřit zda dvě normální rozdělení mají stejnou střední hodnotu, za předpokladu, že mají stejný (byť neznámý) rozptyl. [15]

Analysis of variance (ANOVA)

Testuje rozdíly mezi středními hodnotami dvou a více skupin. Používá se k ověření, zda rozptyly dvou nebo více množin dat jsou stejné až na konstantní posun a škálování. [13]

Neparametrické testy

Neparametrické testy nejsou založené (jen) na parametrech pravděpodobnostních rozdělení. Používají se, když neznáme rozdělení dat, nebo je těžké splnit předpoklady parametrických testů.

Sign test

Testuje, zda se dvě náhodné veličiny při pozorování liší konzistentně. Jinými slovy, zda stření hodnota jejich rozdílu má nulový medián.

One-sample Wilcoxon signed-rank test

Testuje, zda vzorky patří do symetrického rozdělení s daným mediánem.

Pearsonův chi-squared () test

Umožňuje ověřit, že dvě kategorické NV jsou nezávislé. [16]

Testy (ne)závislosti náhodných veličin

Příklad 5. Opakování
Statistická / stochastická nezávislost

Náhodné jevy a jsou stochasticky nezávislé, pokud .

Výskyt nemá vliv na výskyt .

  • "Při při prvním hodu padne 6" a "při druhém hodu padne 6" jsou nezávislé jevy.

  • Naproti tomu jev, že padne 6 při prvním hodu kostkou a jev, že součet čísel zaznamenaných v prvním a druhém pokusu je 8, jsou závislé jevy. [14]

Nezávislost diskrétních NV

Pokud , a jsou diskrétní náhodné veličiny, pak definujeme a jako podmíněně nezávislé vzhledem k , pokud:

pro všechny , a takové, že .

Nezávislost spojitých NV

Pokud , a jsou spojité náhodné veličiny a mají společnou hustotu pravděpodobnosti , pak definujeme a jako podmíněně nezávislé vzhledem k , pokud:

pro všechna , a takové, že .

To neformálně řečeno znamená, že jakmile máme k dispozici informaci obsaženou v Z, není už další informace A užitečná pro přesnější poznání B ani znalost B nepřidá nic pro pochopení A, i kdyby A a B byly vzájemně závislé.

— Wikipedia: Statistická nezávislost
Regrese

Analýza vztahu mezi dvěma závislými NV.

Lineární regrese

Regrese s předpokladem, že vztah dvě NV jsou závislé lineárně. Rovnici regresní přímky zapisujeme jako:

Kde:

  • je NV závislá na ,

  • je konstanta,

  • je směrnice (slope),

  • je -tá pozorovaná hodnota chyby — náhodná složka / šum.

Platí:

  • ,

  • ,

  • pro ,

  •  — náhodná složka má normální rozdělení,

  • regresní parametry a mohou mít libovolnou hodnotu.

Celkový F-test

Pracuje s nulovou hypotézou ve tvaru:

Tedy testujeme, zda hodnota analyzované NV závisí na lineární kombinaci vysvětlujících NV. Pokud je zamítnuta, pak alespoň jedna závislost existuje. Pokud je nezamítnuta, pak je množina vysvětlujících NV úplně blbě.

Testová statistika má F-rozdělení.

Dílčí t-testy

Umožňují otestovat, že dává smysl použít -tou vysvětlující NV. Testujeme nulovou hypotézu:

Pokud nelze zamítnout, pak -tá vysvětlující NV nemá vliv na analyzovanou NV a můžeme ji vynechat.

Testová statistika má Studentovo t-rozdělení.