Statistika

Table of Contents

Odkazy
Descriptive statistics
Inferential statistics

Odkazy

Obecné

Slidy MV013

Descriptive statistics

Když máš nějaký data set a stručně popsat, co v něm je a jaký to má tvar (třeba co se tam vyskytuje nejčastěji).

Exploratory data analysis: Fancy název pro sadu postupů, jak přemýšlet o a vizualizovat data.

Measures of location

Mean
Median
Mode
Trimmed mean
Winsorized mean
Quantile
Quartile

Measures of variability

Variance
Standard deviations
Range
Interquartile range (IQR)
Median absolute deviation (MAD)

Measures of shape

Skewness: Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.
Kurtosis: Jak vysoký je peak? Jak moc je to rozpláclé.

Plots

Box plot
Histogram
Kernel density estimator
Table of relative (cumulative) frequencies
Plot of relative frequencies (bar chart)

Multiple dimensions

Correlation matrix
Scatter plot
Scatter plot matrix
Covariance and correlation
Correlogram
Anscombe’s quartet
Flury faces
Principal component analysis
Spearman’s correlation coefficient, Kendall’s tau

Theory of probability

Probability space
Conditional probability
Random variables and vectors
- Discrete
- Continuous
Cumulative distribution function (CDF)
Probability mass function (PMF)
Quantile function
Variance
Skewness
Kurtosis
Covariance
Correlation coefficient
Law of large numbers
Central limit theorem
- Lindeberg-Lévy
- Moivre-Laplace
Continuity correction

Expected value (mean) $E (X), μ$: Zobecnění váženého průměru, kde váhy jsou pravděpodobnosti jednotlivých možných výsledků.
Sample mean $\overline{X}$: Aritmetický průměr proměnné $X$ spočítaný z nějaké množiny vzorků.
Probability density function $f (x)$ (PDF): Pokud ji zintegruješ, zjistíš jaká je pravděpodobnost, že náhodná spojitá proměnná nabude hodnoty z daného intervalu.
Law of Large Numbers: S rostoucím počtem sample výsledků $X_{i}$ se jejich aritmetický průměr $\overline{X}$ blíží k expected value $μ$ .
Central limit theorem: S rostoucím počtem sample výsledků $X_{i}$ se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.

Probability distributions

Discrete univariate

Bernoulli: Používá se při náhodném pokusu, kde jsou jen dva možné výsledky (třeba hod mincí). Pokusy musí být nezávislé. Výsledek "1" má pravděpodobnost $p$ .

$P (x) = {1 - p p x \neq = 1 x = 1$
Binomial: Používá se u sekvence Bernoulliho pokusů. Zajímá nás pravděpodobnost toho, že $x$ pokusů z $n$ bude úspěšných.

$P (x, n, p) = (x n) p^{x} (1 - p)^{n - k}$
Poisson: Když víš, jak často se něco děje — průměrně $λ$ -krát za jednotku času — a zajímá tě, jaká ja pravděpodobnost, že se to stane $k$ -krát za stejnou jednotku času. Výskyt jednoho jevu však nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou.

$P (k, λ) = \frac{λ ^{k} e ^{- λ}}{k !}$
Geometric: Když tě zajímá, jaká je šance, že se něco pokazí $k$ krát, než to konečně uspěje u Bernoulliho pokusu.

$P (k, p) = {p (1 - p)^{k} 0 k = 0, 1, 2, ... jinak$
Discrete uniform: Když jsou všechny jevy $x$ z dané množiny $A$ stejně pravděpodobné (fair d20).

$P (x) = {\frac{1}{∣ A ∣} 0 x \in A jinak$

Continuous univariate

Continuous uniform

Všechny jevy v daném intervalu $(a, b)$ (může být otevřený nebo uzavřený) jsou stejně pravděpodobné.

$f (x) = {\frac{1}{b - a} 0 a \leq x \leq b x < a \lor x > b$

Exponential

Čas mezi jevy v Poissonově procesu.

$f (x, λ) = {λ e^{- λ x} 0 x \geq 0 x < 0$

Normal

Používá se jako default, když nevíš, jakou má proměnná distribuci. ( $μ$ je mean, $σ^{2}$ je rozptyl).

$f_{N} (x, μ, σ^{2}) = \frac{1}{σ 2 π} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$

Standard normal

Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že:

68 % je v intervalu $(- 1, 1)$ ,
95 % je v intervalu $(- 2, 2)$ ,
99,7 % je v intervalu $(- 3, 3)$ .

$f (x) = f_{N} (x, 0, 1) = \frac{1}{2 π} e^{- \frac{x ^{2}}{2}}$

Cauchy

Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované.

$f (x) = \frac{1}{πσ [ 1 + ( \frac{x - μ}{σ} ) ^{2} ]}$

Warning

The Hannibal Lecter of probability distributions.

$χ^{2}$ (Chi-square)

Používá se při testování hypotéz. Nechť $Z_{1}, Z_{2}, ..., Z_{n}$ jsou nezávislé náhodné proměnné se standardním normálním rozdělením a $X = \sum_{i = 1}^{n} Z_{i}^{2}$ , pak $X$ má $χ^{2}$ rozdělení s $n$ stupni volnosti.

$f (x, n) = ⎩ ⎨ ⎧ \frac{x ^{\frac{n}{2} - 1} e ^{- \frac{x}{2}}}{2 ^{\frac{n}{2}} Γ ( \frac{k}{2} )} 0 x > 0 jinak$

Student’s $t$

Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply. Měj samply $X_{1}, X_{2}, ..., X_{k}$ , jejich mean $\overline{E} = \frac{1}{k} \sum_{i = 1}^{k} X_{i}$ a jejich rozpyl $S^{2} = \frac{1}{k - 1} \sum_{i = 1}^{k} (X - \overline{X})^{2}$ . Pak $\frac{X - μ}{S / k}$ je náhodná proměnná s $t$ rozdělením o $n = k - 1$ stupních volnosti.

$f (x, n) = \frac{Γ ( \frac{n + 1}{2} )}{nπ Γ ( \frac{n}{2} )} (1 + \frac{x ^{2}}{n})^{- \frac{n + 1}{2}}$

Fisher-Snedecor $F$

Používá se při testování hypotéz souvisejících s rozptylem. Pokud $U$ a $V$ jsou proměnné s $χ^{2}$ rozdělením s $d_{1}$ , resp. $d_{2}$ stupni volnosti, pak $X = \frac{U / d _{1}}{V / d _{2}}$ má $F$ rozdělení.

Discrete multivariate

Multinomial

Continous multivariate

Bivariate continous uniform
Multivariate normal
Bivariate normal

Inferential statistics

Když chceš z data něco odvodit, musíš je modelovat. Jak ale zvolit parametry modelu? Máš dva hlavní přístupy:

Parameter estimation — spočítej odhad té hodnoty, nebo interval, do kterého patří,
Hypothesis testing — něco si vymysli a pak otestuj, jestli to na tvoje data sedí.

Parameter estimation

Parameter estimation

Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.

Point estimate

Počítáš jeden konkrétní nejlepší odhad — jedno číslo. Jak? Třeba pomocí Maximum likelihood estimate nebo Method of moments.

Likelihood

Číslo, které udává, jak dobře náš model (zvolení rozdělení se zvolenými parametry $f (x, θ)$ ) sedí na dané samply. Nemá jednotku a není to pravděpodobnost. Je to funkce parametrů modelu, ne jevů. Pro fixní dataset samplů $x_{1}, x_{2}, ..., x_{n}$ :

$L (θ) = \prod_{i = 1}^{n} f (x_{i}, θ)$

Note	Tenhle součin se obvykle logaritmuje, protože sčítat je snazší a stejně to nemá jednotku.

Maximum likelihood estimate (MLE)

Takové $\hat{θ}$ , že $\hat{θ} = arg max_{θ \in Θ} L (θ)$ .

Method of moments

Alternativa k maximum likelihood. Víš jak chceš, aby $μ (θ) = \overline{X}$ ? Tak si vyrobil tolik takových rovnic, kolik máš parametrů modelu v $θ$ a vyřeš soustavu rovnic:

μ_{1} (θ) μ_{2} (θ) μ_{p} (θ) = \frac{1}{n} i = 1 \sum n X_{i}^{1} = \frac{1}{n} i = 1 \sum n X_{i}^{2} ... = \frac{1}{n} i = 1 \sum n X_{i}^{p}

Note	Pokud ti některé rovnice vyjdou lineárně závislé, přihoď další!

Confidence interval

Když ti jedno číslo nestačí a chceš interval, do kterého odhad spadá s nějakou mírou jistoty.

Confidence level $α$

Confidence interval má confidence level $α$ , pro který byl spočítán. Pokud $α = 0.05$ , pak 95% intervalů, které pro $α$ můžeš spočítat, obsahují opravdovou hledanou hodnotu.

One-sided confidence interval

$[L (X_{1}, ..., X_{n}), \infty)$ , kde $P (L (X_{1}, ..., X_{n}) \leq θ) = 1 - α$ , nebo
$(- \infty, U (X_{1}, ..., X_{n})]$ , kde $P (θ \leq U (X_{1}, ..., X_{n})) = 1 - α$ .

Note
$L$ a $U$ jsou náhodné proměnné, které vyjadřují Lower bound a Upper bound.

Two-sided confidence interval

$[L (X_{1}, ..., X_{n}), U (X_{1}, ..., X_{n})]$ ,

kde $P (L (X_{1}, ..., X_{n}) \leq θ \leq U (X_{1}, ..., X_{n})) = 1 - α$

a $θ \in Θ$ — tedy musí to platit pro všechny možné hodnoty parametru $θ$ .

Model selection

Q-Q plot: Pokud veličina je rozdělená normálně, pak je v Q-Q plotu 45° čára. Q because it’s quantil.
P-P plot: Jako Q-Q plot, ale probability.
Histogram: Z něj taky poznáš, co je to za distribuci.
Kernel density estimator: Histogram, but smooth.
Empirical distribution function: Vezmeš samply a uděláš z nich distribution function.
Shapiro-Wilk test: Test na to, jestli je náhodná veličina rozdělená normálně.
Kolmogorov-Smirnov (K-S) test: Jsou tyhle dvě proměnné rozdělené stejně?
Lilliefors test: Upgrade K-S testu, který si dopočítá $μ$ a $σ$ .
Cramer-von Mises test: Test, co porovnává CDF s empirickou DF nebo dvě empirické DF.
Anderson-Darling test: Jak dobře data sedí na danou distribuci?
Pearson’s $χ^{2}$ goodness of fit test: Dá se použít na testování goodness of fit, homogeneity a nezávislosti kategorické náhodné proměnné.
Score-based principle: Model s vyšším likelihood je lepší než model s nižším likelihood.
Akaike’s information criterion (AIC): Když modely s mrakem parametrů nejsou až tak cool, tak uprav likelihood takto:

$AIC = - 2 l (\hat{θ}) + 2 p$

Hypothesis testing

Hypotézy vyjadřují očekávání o nějakém parametru populace. Significance test nám říká, jestli hypotéza dává smysl pro sample data, která máme.

Null hypothesis $H_{0}$: Parametr má specifickou hodnotu. Bude vyvrácena, pokud data dostatečně dokazují, že tomu tak není.
Alternative hypothesis $H_{1}$: Parametr spadá do nějakého intervalu hodnot. $H_{0}$ a $H_{1}$ se vždy vzájemně vylučují.
Metafora se soudem: Podobně jako u soudu tu platí presumpce nevinný. Předpokládáme, že $H_{0}$ je pravda, dokud nedokážeme opak. Nicméně, pokud se nám nepodaří vyvrátit $H_{0}$ , tak nevíme jestli $H_{0}$ nebo $H_{1}$ platí.
Type I error: Když zavrhneš $H_{0}$ , ačkoli je pravdivá.
Type II errror: Když nezavrhneš $H_{0}$ , ačkoli $H_{1}$ je pravdivá.
$p$ -value: Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme $H_{0}$ , ačkoli platí.

$p = P (type I error) = P (we reject H_{0} ∣ H_{0})$

Pokud $p$ -value vyjde menší než significance level $α$ , pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme $H_{0}$ , protože $H_{0}$ neplatí, a tedy akceptujeme $H_{1}$ .

Exact test
Asymptotic test
Welch’s $t$ -test
two-sample $t$ -test
$F$ -test
paired $t$ -test
ANOVA
Levene’s test
Bartlett’s test
Tukey’s HSD
Pearson’s $χ^{2}$ test of independence
Nonparametric tests
- Sign test
- One-sample Wilcoxon test
- Two-sample Wilcoxon test
- Two-sample Kolmogorov-Smirnov test
- Spearman’s correlation coefficient
- Kendall’s tau

Linear regression models

Least squares estimate
Coefficient of determination
Stepwise regression