Charakterizuje rozdělení, kterému náhodná veličina X podléhá.
Pro spojité NV je to plocha pod křivkou pravděpodobnostní funkce. A taky se dá použít k vyjádření pravdepodobnosti:
P(a≤X≤b)=F(b)−F(a)
Tabulka 1. Diskrétní rozložení
Název
Definice
Popis
Příklad
Bernoulliho / alternativní
P(x)={1−ppx=1x=1
Náhodný pokus, kde jsou jen dva možné výsledky.
Hod mincí.
Binomické
P(x,n,p)=(xn)px(1−p)n−k
Sekvence n pokusů. Popisuje pravděpodobnost, že x bude úspěšných.
Hod mincí n krát.
Poissonovo
P(k,λ)=k!λke−λ
Pokud se něco děje průměrně λ-krát za jednotku času, jaká je pravděpodobnost, že se to stane k-krát za stejnou jednotku času? Výskyt jednoho jevu nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou.
Kolik lidí přijde do obchodu za hodinu. (Za předpokladu, že je pandemie a dovnitř může jen jeden člověk.)
Geometrické
P(k,p)={p(1−p)k0k=0,1,...jinak
Když tě zajímá, jaká je šance, že se něco pokazí k krát, než to konečně uspěje.
Kolikrát musíš hodit mincí, než padne poprvé hlava.
(Diskrétní) rovnoměrné / uniformní
P(x)={∣A∣10x∈Ajinak
Když jsou všechny jevy x z dané množiny A stejně pravděpodobné.
Hod d20.
Tabulka 2. Spojité rozložení
Název
Definice
Popis
Příklad
(Spojité) rovnoměrné / uniformní
f(x)={b−a10a≤x≤bx<a∨x>b
Všechny jevy v daném intervalu (a,b) (může být otevřený nebo uzavřený) jsou stejně pravděpodobné.
Bod na kružnici.
Exponenciální
f(x,λ)={λe−λx0x≥0x<0
Čas mezi jevy v Poissonově procesu.
Jak dlouho budeš čekat na šalinu.
Normální / Gaussovo
fN(x,μ,σ2)=σ2π1e−2σ2(x−μ)2
Používá se jako default, když nevíš, jakou má proměnná distribuci, kvůli centrální limitní větě. (μ je mean, σ2 je rozptyl).
Výška lidí.
Standardní normální
f(x)=fN(x,0,1)=2π1e−2x2
Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že:
68 % je v intervalu (−1,1),
95 % je v intervalu (−2,2),
99,7 % je v intervalu (−3,3).
Výška lidí (ale přeškálovaná).
Cauchy
f(x)=πσ[1+(σx−μ)2]1
Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované.
Poměr výšky k šířce obličeje.
Gamma
f(x,α,β)={Γ(α)βαxα−1e−βx0x>0jinak
Když máš sekvenci jevů, kde čekací doba na každý má exponenciální rozdělení s rate β, pak čekací doba na n-tý jev má Gamma rozdělení s α=n.
Jak dlouho budeš čekat na n-tou šalinu.
χ2 (Chi-square)
f(x,n)=⎩⎨⎧22nΓ(2k)x2n−1e−2x0x>0jinak
Používá se při testování hypotéz. Nechť Z1,Z2,...,Zn jsou nezávislé náhodné proměnné se standardním normálním rozdělením a X=∑i=1nZi2, pak X má χ2 rozdělení s n stupni volnosti.
Testování, jestli je mince férová.
Studentovo t
f(x,n)=nπΓ(2n)Γ(2n+1)(1+nx2)−2n+1
Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply.
Odhadování průměru výšky lidí.
Číselné charakteristiky
Stejně jako náhodné veličiny popisují jevy, číselné charakteristiky popisují chování náhodných veličin… pomocí čísel.
Míry polohy
Střední hodnota / mean / expected value
Průměr hodnot veličiny vážený jejich pravděpodobností. Značí se X nebo E(X).
Note
Taky někdy označovaný jako obecný moment prvního řádu / první obecný moment. [17]
Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.
Koeficient špičatosti / kurtosis
Jak vysoký je peak? Jak moc je to rozpláclé.
Centrální limitní věta (CLV) / Central limit theorem (CLT)
S rostoucím počtem sample výsledků Xi se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.
Popisuje chování výběrového průměru pro velké soubory vzorků a umožňuje tak sestrojení intervalových odhadů.
Moivreova-Laplacova věta
Mějme NV X. Pokud je X součtem n vzájemně nezávislých NV X1,X2,...,Xn s Bernoulliho rozdělením s parametrem π, má X binomické rozdělení s parametry n a π, pak s n→∞:
nπ(1−π)X−nπ≈N(0,1)
Lévyho-Lindenbergova věta
Tip
Zobecnění Moivreovy-Laplacovy věty.
Mějme NV X. Pokud je X součtem n vzájemně nezávislých NV X1,X2,...,Xn se shodným rozdělením libovolného typu, s konečnou střední hodnotou E(Xi)=μ a konečným rozptylem D(Xi)=σ2, pak pro normovanou NV U asymptoticky s n→∞ platí:
S continuity correction (opravou v důsledku změny z diskrétní na spojitou NV) je to:
P(X<16)=P(X≤15.5)≐F(15.5)=0.377
Odhady
Odhad parametru / parameter estimation
Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.
Cílem odhadu je určit parametry rozdělení NV X na základě informace z výběrového souboru (realizaci NV, datasetu). Chceme hodnotu a přesnost odhadu.
Metoda odhadu / estimator
Popisuje, jak odhad získat.
Nestranný odhad / unbiased estimator
Metoda odhadu parametru θ taková, že střední hodnota odhadu je rovna θ. Nestrannost je celkem rozumné omezení, protože nechceme, aby byl odhad odchýlený.
Nejlepší nestranný odhad / best unbiased estimator
Nestranný odhad, který má nejmenší rozptyl ze všech nestranných odhadů.
Konzistentní odhad / consistent estimator
Metoda odhadu parametru θ taková, že s počtem vzorků n konverguje k θ pro n→∞. [6]
(Výběrová) statistika / (sample) statistic
Náhodná veličina dána funkcí, která bere výběrový soubor a vrací číslo. Máme například:
Výběrový průměr / sample mean,
Výběrový rozptyl / sample variance,
Výběrovou směrodatnou odchylku / sample standard deviation,
Výběrovou (empirickou) distribuční funkci / sample distribution function.
Náhodná veličina Tn, která vznikne aplikací funkce T na náhodný výběr o velikosti nX=(X1,X2,…,Xn) se nazývá statistika.
Tn=T(X1,X2,…,Xn)
Tip
Estimator je funkce počítající statistiku použitá k odhadu parametru. [7]
Bodový odhad / point estimate / pointwise estimate
Odhad parametru daný jednou hodnotou, která hodnotu parametru aproximuje.
Intervalový odhad / interval estimate
Odhad parametru daný pomocí intervalu hodnot, který hodnotu parametru s velkou pravděpodobností obsahuje. Délka intervalu vypovídá o přesnosti odhadu.
Interval spolehlivosti / confidence interval
Interval spolehlivosti parametru θ s hladinou spolehlivosti 1−α, kde α∈[0,1] je dvojice statistik [θL,θU] taková, že:
P(θL<θ<θU)=1−α
kde θL je dolní mez intervalu a θU je horní mez intervalu.
Hladina významnosti a spolehlivosti / significance and confidence level
Hladina významnosti α je pravděpodobnost, že parametr nespadá do intervalového odhadu.
Hladina spolehlivosti 1−α je pravděpodobnost, že parametr spadá do intervalového odhadu.
Levostranný, pravostranný a oboustranný interval / left-tailed, right-tailed and two-tailed interval
Levostranný (dolní): P(θ≤θL)=1−α.
Pravostranný (horní): P(θ≥θU)=1−α.
Oboustranný: P(θ≤θL)=P(θ≥θU)=2α.
Příklad 3. Tvorba intervalového odhadu
Máme vzorek velikosti n s výběrovým průměrem X a výběrovým rozptylem S2. Odhadněte střední hodnotu μ s hladinou spolehlivosti 0.95, pokud víte, že X≈N(μ,σ2), kde rozptyl σ2 je neznámý.
Zvolíme vhodnou výběrovou statistiku T(X) jejíž rozdělení závislé na μ známe. V tomhle případě Studentův t-test:
T(X)=S/nX−μ∼tn−1
Tedy víme, že T(X)∼t(n−1)
Určíme kvantily t2α=t0.025 a t1−2α=t0.975 z T(X):
Říká, jak dobře náš model (rozdělení pravděpodobnosti náhodné veličiny dané parametry) sedí na naměřená data.
Note
Pravděpodobnost je funkce jevů. Likelihood je funkce parametrů modelu.
Note
Likelihood nemusí nutně vracet čísla z intervalu [0,1].
Maximum likelihood estimation (MLE)
Metoda odhadu parametru založená na maximalizaci likelihoodu, že model sedí na naměřená data. [8]
Method of moments (MOM)
Metoda odhadu parametru založená na rovnosti teoretického a výběrového momentu. [9]
Testování statistických hypotéz
Hypotéza
Nějaký předpoklad o datech, který chceme ověřit. Často je formulovaná pomocí parametrů modelu. Např. "střední hodnota je 5."
Testování hypotézy
Cílem testování hypotéz je ověřit, že data nepopírají nějakou hypotézu.
Null hypothesis H0: "výchozí nastavení"; často tvrdí, že nějaká vlastnost neexistuje.
Alternative hypothesis H1: "to co, chceme dokázat"; opak H0.
Alternativní hypotézu potvrzujeme tak, že vyvracíme nulovou hypotézu. Pokud se nám nepodaří vyvrátit H0, pak o H1 nevíme nic. [10]
Na testování použijeme statistiku Tn=T(X), kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označíme Wα, a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy (region of rejection, critical region)) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy).
Na základě realizace náhodného výběru x=(x1,...,xn)′ vypočítáme hodnotu testovací statistiky tn=T(x).
Pokud hodnota testovací statistiky tn nabude hodnoty z kritické oblasti, t.j. tn=T(x)∈Wα, pak nulovou hypotézu zamítáme.
Pokud hodnota testovací statistiky tn nabude hodnoty z oblasti nezamítnutí, t.j. tn=T(x)∈Wα, pak nulovou hypotézu nezamítáme.
— MV013
Příklad 4. Metafora se soudem
Platí presumpce nevinny. Předpokládáme, že člověk zločin nespáchal, dokud tuhle hypotézu nevyvrátíme.
H0: "Obžalovaný neukradl papamobil."
H1: "Obžalovaný ukradl papamobil."
Chyby v testování hypotéz
Typ I: zamítnutí H0, i když je pravdivá — false positive.
Typ II: nezamítnutí H0, i když je nepravdivá — false negative.
Note
Positive = zamítnutí H0, tedy potvrzení H1.
Negative = nezamítnutí H0, tedy o H1 nevíme nic.
p-hodnota (hladina významnosti)
Nejmenší hladina významnosti α, při které ještě zamítáme H0. [11]
Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme H0, ačkoli platí.
p=P(type I error)=P(we reject H0∣H0)
Tip
Pokud p-value vyjde menší než požadovaná hladina významnosti α, pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme H0, protože H0 neplatí, a tedy akceptujeme H1.
Parametrické testy
Parametrické testy jsou založené na parametrech pravděpodobnostních rozdělení.
Studentův T-test
Umožňuje ověřit zda normální rozdělení má danou střední hodnotu. Taky umožňuje ověřit zda dvě normální rozdělení mají stejnou střední hodnotu, za předpokladu, že mají stejný (byť neznámý) rozptyl. [15]
Analysis of variance (ANOVA)
Testuje rozdíly mezi středními hodnotami dvou a více skupin. Používá se k ověření, zda rozptyly dvou nebo více množin dat jsou stejné až na konstantní posun a škálování. [13]
Neparametrické testy
Neparametrické testy nejsou založené (jen) na parametrech pravděpodobnostních rozdělení. Používají se, když neznáme rozdělení dat, nebo je těžké splnit předpoklady parametrických testů.
Sign test
Testuje, zda se dvě náhodné veličiny při pozorování liší konzistentně. Jinými slovy, zda stření hodnota jejich rozdílu má nulový medián.
One-sample Wilcoxon signed-rank test
Testuje, zda vzorky patří do symetrického rozdělení s daným mediánem.
Pearsonův chi-squared (χ2) test
Umožňuje ověřit, že dvě kategorické NV jsou nezávislé. [16]
Testy (ne)závislosti náhodných veličin
Příklad 5. Opakování
Statistická / stochastická nezávislost
Náhodné jevy A a B jsou stochasticky nezávislé, pokud P(A∩B)=P(A)⋅P(B).
Výskyt A nemá vliv na výskyt B.
"Při při prvním hodu padne 6" a "při druhém hodu padne 6" jsou nezávislé jevy.
Naproti tomu jev, že padne 6 při prvním hodu kostkou a jev, že součet čísel zaznamenaných v prvním a druhém pokusu je 8, jsou závislé jevy. [14]
Nezávislost diskrétních NV
Pokud X, Y a Z jsou diskrétní náhodné veličiny, pak definujeme X a Y jako podmíněně nezávislé vzhledem k Z, pokud:
P(X≤x,Y≤y∣Z=z)=P(X≤x∣Z=z)⋅P(Y≤y∣Z=z)
pro všechny x, y a z takové, že P(Z=z)>0.
Nezávislost spojitých NV
Pokud X, Y a Z jsou spojité náhodné veličiny a mají společnou hustotu pravděpodobnosti fXYZ(x,y,z), pak definujeme X a Y jako podmíněně nezávislé vzhledem k Z, pokud:
fX,Y∣Z(x,y∣z)=fX∣Z(x∣z)⋅fY∣Z(y∣z)
pro všechna x, y a z takové, že fZ(z)>0.
To neformálně řečeno znamená, že jakmile máme k dispozici informaci obsaženou v Z, není už další informace A užitečná pro přesnější poznání B ani znalost B nepřidá nic pro pochopení A, i kdyby A a B byly vzájemně závislé.
— Wikipedia: Statistická nezávislost
Regrese
Analýza vztahu mezi dvěma závislými NV.
Lineární regrese
Regrese s předpokladem, že vztah dvě NV jsou závislé lineárně. Rovnici regresní přímky zapisujeme jako:
Yi=β0+β1⋅Xi+εi
Kde:
Y je NV závislá na X,
β0 je konstanta,
β1 je směrnice (slope),
εi je i-tá pozorovaná hodnota chyby — náhodná složka / šum.
Platí:
E(εi)=0,
D(εi)=σ2,
cov(εi,εj)=0 pro i=j,
εi∼N(0,σ2) — náhodná složka má normální rozdělení,
regresní parametry β0 a β1 mohou mít libovolnou hodnotu.
Celkový F-test
Pracuje s nulovou hypotézou ve tvaru:
H0:β1=β2=…=βk=0
Tedy testujeme, zda hodnota analyzované NV závisí na lineární kombinaci vysvětlujících NV. Pokud je H0 zamítnuta, pak alespoň jedna závislost existuje. Pokud je H0 nezamítnuta, pak je množina vysvětlujících NV úplně blbě.
Testová statistika má F-rozdělení.
Dílčí t-testy
Umožňují otestovat, že dává smysl použít i-tou vysvětlující NV. Testujeme nulovou hypotézu:
H0:βi=0
Pokud nelze zamítnout, pak i-tá vysvětlující NV nemá vliv na analyzovanou NV a můžeme ji vynechat.