Statistika

Descriptive statistics

Když máš nějaký data set a stručně popsat, co v něm je a jaký to má tvar (třeba co se tam vyskytuje nejčastěji).

Exploratory data analysis

Fancy název pro sadu postupů, jak přemýšlet o a vizualizovat data.

Measures of location

  • Mean

  • Median

  • Mode

  • Trimmed mean

  • Winsorized mean

  • Quantile

  • Quartile

Measures of variability

  • Variance

  • Standard deviations

  • Range

  • Interquartile range (IQR)

  • Median absolute deviation (MAD)

Measures of shape

Skewness

Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.

Kurtosis

Jak vysoký je peak? Jak moc je to rozpláclé.

Plots

  • Box plot

  • Histogram

  • Kernel density estimator

  • Table of relative (cumulative) frequencies

  • Plot of relative frequencies (bar chart)

Multiple dimensions

  • Correlation matrix

  • Scatter plot

  • Scatter plot matrix

  • Covariance and correlation

  • Correlogram

  • Anscombe’s quartet

  • Flury faces

  • Principal component analysis

  • Spearman’s correlation coefficient, Kendall’s tau

Theory of probability

  • Probability space

  • Conditional probability

  • Random variables and vectors

    • Discrete

    • Continuous

  • Cumulative distribution function (CDF)

  • Probability mass function (PMF)

  • Quantile function

  • Variance

  • Skewness

  • Kurtosis

  • Covariance

  • Correlation coefficient

  • Law of large numbers

  • Central limit theorem

    • Lindeberg-Lévy

    • Moivre-Laplace

  • Continuity correction

Expected value (mean)

Zobecnění váženého průměru, kde váhy jsou pravděpodobnosti jednotlivých možných výsledků.

Sample mean

Aritmetický průměr proměnné spočítaný z nějaké množiny vzorků.

Probability density function (PDF)

Pokud ji zintegruješ, zjistíš jaká je pravděpodobnost, že náhodná spojitá proměnná nabude hodnoty z daného intervalu.

Law of Large Numbers

S rostoucím počtem sample výsledků se jejich aritmetický průměr blíží k expected value .

Central limit theorem

S rostoucím počtem sample výsledků se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.

Probability distributions

Discrete univariate

Bernoulli

Používá se při náhodném pokusu, kde jsou jen dva možné výsledky (třeba hod mincí). Pokusy musí být nezávislé. Výsledek "1" má pravděpodobnost .

Binomial

Používá se u sekvence Bernoulliho pokusů. Zajímá nás pravděpodobnost toho, že pokusů z bude úspěšných.

Poisson

Když víš, jak často se něco děje — průměrně -krát za jednotku času — a zajímá tě, jaká ja pravděpodobnost, že se to stane -krát za stejnou jednotku času. Výskyt jednoho jevu však nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou.

Geometric

Když tě zajímá, jaká je šance, že se něco pokazí krát, než to konečně uspěje u Bernoulliho pokusu.

Discrete uniform

Když jsou všechny jevy z dané množiny stejně pravděpodobné (fair d20).

Continuous univariate

Continuous uniform

Všechny jevy v daném intervalu (může být otevřený nebo uzavřený) jsou stejně pravděpodobné.

Exponential

Čas mezi jevy v Poissonově procesu.

Normal

Používá se jako default, když nevíš, jakou má proměnná distribuci. ( je mean, je rozptyl).

Standard normal

Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že:

  • 68 % je v intervalu ,

  • 95 % je v intervalu ,

  • 99,7 % je v intervalu .

Cauchy

Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované.

Warning
The Hannibal Lecter of probability distributions.
(Chi-square)

Používá se při testování hypotéz. Nechť jsou nezávislé náhodné proměnné se standardním normálním rozdělením a , pak rozdělení s stupni volnosti.

Student’s

Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply. Měj samply , jejich mean a jejich rozpyl . Pak je náhodná proměnná s rozdělením o stupních volnosti.

Fisher-Snedecor

Používá se při testování hypotéz souvisejících s rozptylem. Pokud a jsou proměnné s rozdělením s , resp. stupni volnosti, pak rozdělení.

Discrete multivariate
  • Multinomial

Continous multivariate
  • Bivariate continous uniform

  • Multivariate normal

  • Bivariate normal

Inferential statistics

Když chceš z data něco odvodit, musíš je modelovat. Jak ale zvolit parametry modelu? Máš dva hlavní přístupy:

  • Parameter estimation — spočítej odhad té hodnoty, nebo interval, do kterého patří,

  • Hypothesis testing — něco si vymysli a pak otestuj, jestli to na tvoje data sedí.

Parameter estimation

Parameter estimation

Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.

Point estimate

Počítáš jeden konkrétní nejlepší odhad — jedno číslo. Jak? Třeba pomocí Maximum likelihood estimate nebo Method of moments.

Likelihood

Číslo, které udává, jak dobře náš model (zvolení rozdělení se zvolenými parametry ) sedí na dané samply. Nemá jednotku a není to pravděpodobnost. Je to funkce parametrů modelu, ne jevů. Pro fixní dataset samplů :

Note
Tenhle součin se obvykle logaritmuje, protože sčítat je snazší a stejně to nemá jednotku.
Maximum likelihood estimate (MLE)

Takové , že .

Method of moments

Alternativa k maximum likelihood. Víš jak chceš, aby ? Tak si vyrobil tolik takových rovnic, kolik máš parametrů modelu v a vyřeš soustavu rovnic:

Note
Pokud ti některé rovnice vyjdou lineárně závislé, přihoď další!
Confidence interval

Když ti jedno číslo nestačí a chceš interval, do kterého odhad spadá s nějakou mírou jistoty.

Confidence level

Confidence interval má confidence level , pro který byl spočítán. Pokud , pak 95% intervalů, které pro můžeš spočítat, obsahují opravdovou hledanou hodnotu.

One-sided confidence interval
  • , kde , nebo

  • , kde .

    Note
    a jsou náhodné proměnné, které vyjadřují Lower bound a Upper bound.
Two-sided confidence interval

,

kde

a  — tedy musí to platit pro všechny možné hodnoty parametru .

Model selection

Q-Q plot

Pokud veličina je rozdělená normálně, pak je v Q-Q plotu 45° čára. Q because it’s quantil.

P-P plot

Jako Q-Q plot, ale probability.

Histogram

Z něj taky poznáš, co je to za distribuci.

Kernel density estimator

Histogram, but smooth.

Empirical distribution function

Vezmeš samply a uděláš z nich distribution function.

Shapiro-Wilk test

Test na to, jestli je náhodná veličina rozdělená normálně.

Kolmogorov-Smirnov (K-S) test

Jsou tyhle dvě proměnné rozdělené stejně?

Lilliefors test

Upgrade K-S testu, který si dopočítá a .

Cramer-von Mises test

Test, co porovnává CDF s empirickou DF nebo dvě empirické DF.

Anderson-Darling test

Jak dobře data sedí na danou distribuci?

Pearson’s goodness of fit test

Dá se použít na testování goodness of fit, homogeneity a nezávislosti kategorické náhodné proměnné.

Score-based principle

Model s vyšším likelihood je lepší než model s nižším likelihood.

Akaike’s information criterion (AIC)

Když modely s mrakem parametrů nejsou až tak cool, tak uprav likelihood takto:

Hypothesis testing

Hypotézy vyjadřují očekávání o nějakém parametru populace. Significance test nám říká, jestli hypotéza dává smysl pro sample data, která máme.

Null hypothesis

Parametr má specifickou hodnotu. Bude vyvrácena, pokud data dostatečně dokazují, že tomu tak není.

Alternative hypothesis

Parametr spadá do nějakého intervalu hodnot. a se vždy vzájemně vylučují.

Metafora se soudem

Podobně jako u soudu tu platí presumpce nevinný. Předpokládáme, že je pravda, dokud nedokážeme opak. Nicméně, pokud se nám nepodaří vyvrátit , tak nevíme jestli nebo platí.

Type I error

Když zavrhneš , ačkoli je pravdivá.

Type II errror

Když nezavrhneš , ačkoli je pravdivá.

-value

Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme , ačkoli platí.

Pokud -value vyjde menší než significance level , pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme , protože neplatí, a tedy akceptujeme .

  • Exact test

  • Asymptotic test

  • Welch’s -test

  • two-sample -test

  • -test

  • paired -test

  • ANOVA

  • Levene’s test

  • Bartlett’s test

  • Tukey’s HSD

  • Pearson’s test of independence

  • Nonparametric tests

    • Sign test

    • One-sample Wilcoxon test

    • Two-sample Wilcoxon test

    • Two-sample Kolmogorov-Smirnov test

    • Spearman’s correlation coefficient

    • Kendall’s tau

Linear regression models

  • Least squares estimate

  • Coefficient of determination

  • Stepwise regression