Inferential statistics
Když chceš z data něco odvodit, musíš je modelovat. Jak ale zvolit parametry modelu? Máš dva hlavní přístupy:
-
Parameter estimation — spočítej odhad té hodnoty, nebo interval, do kterého patří,
-
Hypothesis testing — něco si vymysli a pak otestuj, jestli to na tvoje data sedí.
Parameter estimation
- Parameter estimation
-
Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.
- Point estimate
-
Počítáš jeden konkrétní nejlepší odhad — jedno číslo. Jak? Třeba pomocí Maximum likelihood estimate nebo Method of moments.
- Likelihood
-
Číslo, které udává, jak dobře náš model (zvolení rozdělení se zvolenými parametry ) sedí na dané samply. Nemá jednotku a není to pravděpodobnost. Je to funkce parametrů modelu, ne jevů. Pro fixní dataset samplů :
NoteTenhle součin se obvykle logaritmuje, protože sčítat je snazší a stejně to nemá jednotku. - Maximum likelihood estimate (MLE)
-
Takové , že .
- Method of moments
-
Alternativa k maximum likelihood. Víš jak chceš, aby ? Tak si vyrobil tolik takových rovnic, kolik máš parametrů modelu v a vyřeš soustavu rovnic:
NotePokud ti některé rovnice vyjdou lineárně závislé, přihoď další! - Confidence interval
-
Když ti jedno číslo nestačí a chceš interval, do kterého odhad spadá s nějakou mírou jistoty.
- Confidence level
-
Confidence interval má confidence level , pro který byl spočítán. Pokud , pak 95% intervalů, které pro můžeš spočítat, obsahují opravdovou hledanou hodnotu.
- One-sided confidence interval
-
-
, kde , nebo
-
, kde .
Notea jsou náhodné proměnné, které vyjadřují Lower bound a Upper bound.
-
- Two-sided confidence interval
-
,
kde
a — tedy musí to platit pro všechny možné hodnoty parametru .
Model selection
- Q-Q plot
-
Pokud veličina je rozdělená normálně, pak je v Q-Q plotu 45° čára. Q because it’s quantil.
- P-P plot
-
Jako Q-Q plot, ale probability.
- Histogram
-
Z něj taky poznáš, co je to za distribuci.
- Kernel density estimator
-
Histogram, but smooth.
- Empirical distribution function
-
Vezmeš samply a uděláš z nich distribution function.
- Shapiro-Wilk test
-
Test na to, jestli je náhodná veličina rozdělená normálně.
- Kolmogorov-Smirnov (K-S) test
-
Jsou tyhle dvě proměnné rozdělené stejně?
- Lilliefors test
-
Upgrade K-S testu, který si dopočítá a .
- Cramer-von Mises test
-
Test, co porovnává CDF s empirickou DF nebo dvě empirické DF.
- Anderson-Darling test
-
Jak dobře data sedí na danou distribuci?
- Pearson’s goodness of fit test
-
Dá se použít na testování goodness of fit, homogeneity a nezávislosti kategorické náhodné proměnné.
- Score-based principle
-
Model s vyšším likelihood je lepší než model s nižším likelihood.
- Akaike’s information criterion (AIC)
-
Když modely s mrakem parametrů nejsou až tak cool, tak uprav likelihood takto:
Hypothesis testing
Hypotézy vyjadřují očekávání o nějakém parametru populace. Significance test nám říká, jestli hypotéza dává smysl pro sample data, která máme.
- Null hypothesis
-
Parametr má specifickou hodnotu. Bude vyvrácena, pokud data dostatečně dokazují, že tomu tak není.
- Alternative hypothesis
-
Parametr spadá do nějakého intervalu hodnot. a se vždy vzájemně vylučují.
- Metafora se soudem
-
Podobně jako u soudu tu platí presumpce nevinný. Předpokládáme, že je pravda, dokud nedokážeme opak. Nicméně, pokud se nám nepodaří vyvrátit , tak nevíme jestli nebo platí.
- Type I error
-
Když zavrhneš , ačkoli je pravdivá.
- Type II errror
-
Když nezavrhneš , ačkoli je pravdivá.
- -value
-
Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme , ačkoli platí.
Pokud -value vyjde menší než significance level , pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme , protože neplatí, a tedy akceptujeme .
-
Exact test
-
Asymptotic test
-
Welch’s -test
-
two-sample -test
-
-test
-
paired -test
-
ANOVA
-
Levene’s test
-
Bartlett’s test
-
Tukey’s HSD
-
Pearson’s test of independence
-
Nonparametric tests
-
Sign test
-
One-sample Wilcoxon test
-
Two-sample Wilcoxon test
-
Two-sample Kolmogorov-Smirnov test
-
Spearman’s correlation coefficient
-
Kendall’s tau
-
Linear regression models
-
Least squares estimate
-
Coefficient of determination
-
Stepwise regression