Descriptive statistics

Když máš nějaký data set a stručně popsat, co v něm je a jaký to má tvar (třeba co se tam vyskytuje nejčastěji).

Exploratory data analysis

Fancy název pro sadu postupů, jak přemýšlet o a vizualizovat data.

Measures of location

  • Mean

  • Median

  • Mode

  • Trimmed mean

  • Winsorized mean

  • Quantile

  • Quartile

Measures of variability

  • Variance

  • Standard deviations

  • Range

  • Interquartile range (IQR)

  • Median absolute deviation (MAD)

Measures of shape

Skewness

Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.

Kurtosis

Jak vysoký je peak? Jak moc je to rozpláclé.

Plots

  • Box plot

  • Histogram

  • Kernel density estimator

  • Table of relative (cumulative) frequencies

  • Plot of relative frequencies (bar chart)

Multiple dimensions

  • Correlation matrix

  • Scatter plot

  • Scatter plot matrix

  • Covariance and correlation

  • Correlogram

  • Anscombe’s quartet

  • Flury faces

  • Principal component analysis

  • Spearman’s correlation coefficient, Kendall’s tau

Theory of probability

  • Probability space

  • Conditional probability

  • Random variables and vectors

    • Discrete

    • Continuous

  • Cumulative distribution function (CDF)

  • Probability mass function (PMF)

  • Quantile function

  • Variance

  • Skewness

  • Kurtosis

  • Covariance

  • Correlation coefficient

  • Law of large numbers

  • Central limit theorem

    • Lindeberg-Lévy

    • Moivre-Laplace

  • Continuity correction

Expected value (mean)

Zobecnění váženého průměru, kde váhy jsou pravděpodobnosti jednotlivých možných výsledků.

Sample mean

Aritmetický průměr proměnné spočítaný z nějaké množiny vzorků.

Probability density function (PDF)

Pokud ji zintegruješ, zjistíš jaká je pravděpodobnost, že náhodná spojitá proměnná nabude hodnoty z daného intervalu.

Law of Large Numbers

S rostoucím počtem sample výsledků se jejich aritmetický průměr blíží k expected value .

Central limit theorem

S rostoucím počtem sample výsledků se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.

Probability distributions

Discrete univariate

Bernoulli

Používá se při náhodném pokusu, kde jsou jen dva možné výsledky (třeba hod mincí). Pokusy musí být nezávislé. Výsledek "1" má pravděpodobnost .

Binomial

Používá se u sekvence Bernoulliho pokusů. Zajímá nás pravděpodobnost toho, že pokusů z bude úspěšných.

Poisson

Když víš, jak často se něco děje — průměrně -krát za jednotku času — a zajímá tě, jaká ja pravděpodobnost, že se to stane -krát za stejnou jednotku času. Výskyt jednoho jevu však nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou.

Geometric

Když tě zajímá, jaká je šance, že se něco pokazí krát, než to konečně uspěje u Bernoulliho pokusu.

Discrete uniform

Když jsou všechny jevy z dané množiny stejně pravděpodobné (fair d20).

Continuous univariate

Continuous uniform

Všechny jevy v daném intervalu (může být otevřený nebo uzavřený) jsou stejně pravděpodobné.

Exponential

Čas mezi jevy v Poissonově procesu.

Normal

Používá se jako default, když nevíš, jakou má proměnná distribuci. ( je mean, je rozptyl).

Standard normal

Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že:

  • 68 % je v intervalu ,

  • 95 % je v intervalu ,

  • 99,7 % je v intervalu .

Cauchy

Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované.

Warning
The Hannibal Lecter of probability distributions.
(Chi-square)

Používá se při testování hypotéz. Nechť jsou nezávislé náhodné proměnné se standardním normálním rozdělením a , pak rozdělení s stupni volnosti.

Student’s

Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply. Měj samply , jejich mean a jejich rozpyl . Pak je náhodná proměnná s rozdělením o stupních volnosti.

Fisher-Snedecor

Používá se při testování hypotéz souvisejících s rozptylem. Pokud a jsou proměnné s rozdělením s , resp. stupni volnosti, pak rozdělení.

Discrete multivariate
  • Multinomial

Continous multivariate
  • Bivariate continous uniform

  • Multivariate normal

  • Bivariate normal