Inferential statistics

Když chceš z data něco odvodit, musíš je modelovat. Jak ale zvolit parametry modelu? Máš dva hlavní přístupy:

  • Parameter estimation — spočítej odhad té hodnoty, nebo interval, do kterého patří,

  • Hypothesis testing — něco si vymysli a pak otestuj, jestli to na tvoje data sedí.

Parameter estimation

Parameter estimation

Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.

Point estimate

Počítáš jeden konkrétní nejlepší odhad — jedno číslo. Jak? Třeba pomocí Maximum likelihood estimate nebo Method of moments.

Likelihood

Číslo, které udává, jak dobře náš model (zvolení rozdělení se zvolenými parametry ) sedí na dané samply. Nemá jednotku a není to pravděpodobnost. Je to funkce parametrů modelu, ne jevů. Pro fixní dataset samplů :

Note
Tenhle součin se obvykle logaritmuje, protože sčítat je snazší a stejně to nemá jednotku.
Maximum likelihood estimate (MLE)

Takové , že .

Method of moments

Alternativa k maximum likelihood. Víš jak chceš, aby ? Tak si vyrobil tolik takových rovnic, kolik máš parametrů modelu v a vyřeš soustavu rovnic:

Note
Pokud ti některé rovnice vyjdou lineárně závislé, přihoď další!
Confidence interval

Když ti jedno číslo nestačí a chceš interval, do kterého odhad spadá s nějakou mírou jistoty.

Confidence level

Confidence interval má confidence level , pro který byl spočítán. Pokud , pak 95% intervalů, které pro můžeš spočítat, obsahují opravdovou hledanou hodnotu.

One-sided confidence interval
  • , kde , nebo

  • , kde .

    Note
    a jsou náhodné proměnné, které vyjadřují Lower bound a Upper bound.
Two-sided confidence interval

,

kde

a  — tedy musí to platit pro všechny možné hodnoty parametru .

Model selection

Q-Q plot

Pokud veličina je rozdělená normálně, pak je v Q-Q plotu 45° čára. Q because it’s quantil.

P-P plot

Jako Q-Q plot, ale probability.

Histogram

Z něj taky poznáš, co je to za distribuci.

Kernel density estimator

Histogram, but smooth.

Empirical distribution function

Vezmeš samply a uděláš z nich distribution function.

Shapiro-Wilk test

Test na to, jestli je náhodná veličina rozdělená normálně.

Kolmogorov-Smirnov (K-S) test

Jsou tyhle dvě proměnné rozdělené stejně?

Lilliefors test

Upgrade K-S testu, který si dopočítá a .

Cramer-von Mises test

Test, co porovnává CDF s empirickou DF nebo dvě empirické DF.

Anderson-Darling test

Jak dobře data sedí na danou distribuci?

Pearson’s goodness of fit test

Dá se použít na testování goodness of fit, homogeneity a nezávislosti kategorické náhodné proměnné.

Score-based principle

Model s vyšším likelihood je lepší než model s nižším likelihood.

Akaike’s information criterion (AIC)

Když modely s mrakem parametrů nejsou až tak cool, tak uprav likelihood takto:

Hypothesis testing

Hypotézy vyjadřují očekávání o nějakém parametru populace. Significance test nám říká, jestli hypotéza dává smysl pro sample data, která máme.

Null hypothesis

Parametr má specifickou hodnotu. Bude vyvrácena, pokud data dostatečně dokazují, že tomu tak není.

Alternative hypothesis

Parametr spadá do nějakého intervalu hodnot. a se vždy vzájemně vylučují.

Metafora se soudem

Podobně jako u soudu tu platí presumpce nevinný. Předpokládáme, že je pravda, dokud nedokážeme opak. Nicméně, pokud se nám nepodaří vyvrátit , tak nevíme jestli nebo platí.

Type I error

Když zavrhneš , ačkoli je pravdivá.

Type II errror

Když nezavrhneš , ačkoli je pravdivá.

-value

Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme , ačkoli platí.

Pokud -value vyjde menší než significance level , pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme , protože neplatí, a tedy akceptujeme .

  • Exact test

  • Asymptotic test

  • Welch’s -test

  • two-sample -test

  • -test

  • paired -test

  • ANOVA

  • Levene’s test

  • Bartlett’s test

  • Tukey’s HSD

  • Pearson’s test of independence

  • Nonparametric tests

    • Sign test

    • One-sample Wilcoxon test

    • Two-sample Wilcoxon test

    • Two-sample Kolmogorov-Smirnov test

    • Spearman’s correlation coefficient

    • Kendall’s tau

Linear regression models

  • Least squares estimate

  • Coefficient of determination

  • Stepwise regression