-
Probability space
-
Conditional probability
-
Random variables and vectors
-
Discrete
-
Continuous
-
-
Cumulative distribution function (CDF)
-
Probability mass function (PMF)
-
Quantile function
-
Variance
-
Skewness
-
Kurtosis
-
Covariance
-
Correlation coefficient
-
Law of large numbers
-
Central limit theorem
-
Lindeberg-Lévy
-
Moivre-Laplace
-
-
Continuity correction
Statistika
Odkazy
Descriptive statistics
Když máš nějaký data set a stručně popsat, co v něm je a jaký to má tvar (třeba co se tam vyskytuje nejčastěji).
- Exploratory data analysis
-
Fancy název pro sadu postupů, jak přemýšlet o a vizualizovat data.
Measures of location
-
Mean
-
Median
-
Mode
-
Trimmed mean
-
Winsorized mean
-
Quantile
-
Quartile
Measures of variability
-
Variance
-
Standard deviations
-
Range
-
Interquartile range (IQR)
-
Median absolute deviation (MAD)
Measures of shape
- Skewness
-
Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.
- Kurtosis
-
Jak vysoký je peak? Jak moc je to rozpláclé.
Plots
-
Box plot
-
Histogram
-
Kernel density estimator
-
Table of relative (cumulative) frequencies
-
Plot of relative frequencies (bar chart)
Multiple dimensions
-
Correlation matrix
-
Scatter plot
-
Scatter plot matrix
-
Covariance and correlation
-
Correlogram
-
Anscombe’s quartet
-
Flury faces
-
Principal component analysis
-
Spearman’s correlation coefficient, Kendall’s tau
Theory of probability
- Expected value (mean)
-
Zobecnění váženého průměru, kde váhy jsou pravděpodobnosti jednotlivých možných výsledků.
- Sample mean
-
Aritmetický průměr proměnné spočítaný z nějaké množiny vzorků.
- Probability density function (PDF)
-
Pokud ji zintegruješ, zjistíš jaká je pravděpodobnost, že náhodná spojitá proměnná nabude hodnoty z daného intervalu.
- Law of Large Numbers
-
S rostoucím počtem sample výsledků se jejich aritmetický průměr blíží k expected value .
- Central limit theorem
-
S rostoucím počtem sample výsledků se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.
Probability distributions
Discrete univariate
- Bernoulli
-
Používá se při náhodném pokusu, kde jsou jen dva možné výsledky (třeba hod mincí). Pokusy musí být nezávislé. Výsledek
"1"
má pravděpodobnost . - Binomial
-
Používá se u sekvence Bernoulliho pokusů. Zajímá nás pravděpodobnost toho, že pokusů z bude úspěšných.
- Poisson
-
Když víš, jak často se něco děje — průměrně -krát za jednotku času — a zajímá tě, jaká ja pravděpodobnost, že se to stane -krát za stejnou jednotku času. Výskyt jednoho jevu však nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou.
- Geometric
-
Když tě zajímá, jaká je šance, že se něco pokazí krát, než to konečně uspěje u Bernoulliho pokusu.
- Discrete uniform
-
Když jsou všechny jevy z dané množiny stejně pravděpodobné (fair d20).
Continuous univariate
- Continuous uniform
-
Všechny jevy v daném intervalu (může být otevřený nebo uzavřený) jsou stejně pravděpodobné.
- Exponential
-
Čas mezi jevy v Poissonově procesu.
- Normal
-
Používá se jako default, když nevíš, jakou má proměnná distribuci. ( je mean, je rozptyl).
- Standard normal
-
Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že:
-
68 % je v intervalu ,
-
95 % je v intervalu ,
-
99,7 % je v intervalu .
-
- Cauchy
-
Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované.
WarningThe Hannibal Lecter of probability distributions. - (Chi-square)
-
Používá se při testování hypotéz. Nechť jsou nezávislé náhodné proměnné se standardním normálním rozdělením a , pak má rozdělení s stupni volnosti.
- Student’s
-
Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply. Měj samply , jejich mean a jejich rozpyl . Pak je náhodná proměnná s rozdělením o stupních volnosti.
- Fisher-Snedecor
-
Používá se při testování hypotéz souvisejících s rozptylem. Pokud a jsou proměnné s rozdělením s , resp. stupni volnosti, pak má rozdělení.
-
Multinomial
-
Bivariate continous uniform
-
Multivariate normal
-
Bivariate normal
Inferential statistics
Když chceš z data něco odvodit, musíš je modelovat. Jak ale zvolit parametry modelu? Máš dva hlavní přístupy:
-
Parameter estimation — spočítej odhad té hodnoty, nebo interval, do kterého patří,
-
Hypothesis testing — něco si vymysli a pak otestuj, jestli to na tvoje data sedí.
Parameter estimation
- Parameter estimation
-
Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.
- Point estimate
-
Počítáš jeden konkrétní nejlepší odhad — jedno číslo. Jak? Třeba pomocí Maximum likelihood estimate nebo Method of moments.
- Likelihood
-
Číslo, které udává, jak dobře náš model (zvolení rozdělení se zvolenými parametry ) sedí na dané samply. Nemá jednotku a není to pravděpodobnost. Je to funkce parametrů modelu, ne jevů. Pro fixní dataset samplů :
NoteTenhle součin se obvykle logaritmuje, protože sčítat je snazší a stejně to nemá jednotku. - Maximum likelihood estimate (MLE)
-
Takové , že .
- Method of moments
-
Alternativa k maximum likelihood. Víš jak chceš, aby ? Tak si vyrobil tolik takových rovnic, kolik máš parametrů modelu v a vyřeš soustavu rovnic:
NotePokud ti některé rovnice vyjdou lineárně závislé, přihoď další! - Confidence interval
-
Když ti jedno číslo nestačí a chceš interval, do kterého odhad spadá s nějakou mírou jistoty.
- Confidence level
-
Confidence interval má confidence level , pro který byl spočítán. Pokud , pak 95% intervalů, které pro můžeš spočítat, obsahují opravdovou hledanou hodnotu.
- One-sided confidence interval
-
-
, kde , nebo
-
, kde .
Notea jsou náhodné proměnné, které vyjadřují Lower bound a Upper bound.
-
- Two-sided confidence interval
-
,
kde
a — tedy musí to platit pro všechny možné hodnoty parametru .
Model selection
- Q-Q plot
-
Pokud veličina je rozdělená normálně, pak je v Q-Q plotu 45° čára. Q because it’s quantil.
- P-P plot
-
Jako Q-Q plot, ale probability.
- Histogram
-
Z něj taky poznáš, co je to za distribuci.
- Kernel density estimator
-
Histogram, but smooth.
- Empirical distribution function
-
Vezmeš samply a uděláš z nich distribution function.
- Shapiro-Wilk test
-
Test na to, jestli je náhodná veličina rozdělená normálně.
- Kolmogorov-Smirnov (K-S) test
-
Jsou tyhle dvě proměnné rozdělené stejně?
- Lilliefors test
-
Upgrade K-S testu, který si dopočítá a .
- Cramer-von Mises test
-
Test, co porovnává CDF s empirickou DF nebo dvě empirické DF.
- Anderson-Darling test
-
Jak dobře data sedí na danou distribuci?
- Pearson’s goodness of fit test
-
Dá se použít na testování goodness of fit, homogeneity a nezávislosti kategorické náhodné proměnné.
- Score-based principle
-
Model s vyšším likelihood je lepší než model s nižším likelihood.
- Akaike’s information criterion (AIC)
-
Když modely s mrakem parametrů nejsou až tak cool, tak uprav likelihood takto:
Hypothesis testing
Hypotézy vyjadřují očekávání o nějakém parametru populace. Significance test nám říká, jestli hypotéza dává smysl pro sample data, která máme.
- Null hypothesis
-
Parametr má specifickou hodnotu. Bude vyvrácena, pokud data dostatečně dokazují, že tomu tak není.
- Alternative hypothesis
-
Parametr spadá do nějakého intervalu hodnot. a se vždy vzájemně vylučují.
- Metafora se soudem
-
Podobně jako u soudu tu platí presumpce nevinný. Předpokládáme, že je pravda, dokud nedokážeme opak. Nicméně, pokud se nám nepodaří vyvrátit , tak nevíme jestli nebo platí.
- Type I error
-
Když zavrhneš , ačkoli je pravdivá.
- Type II errror
-
Když nezavrhneš , ačkoli je pravdivá.
- -value
-
Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme , ačkoli platí.
Pokud -value vyjde menší než significance level , pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme , protože neplatí, a tedy akceptujeme .
-
Exact test
-
Asymptotic test
-
Welch’s -test
-
two-sample -test
-
-test
-
paired -test
-
ANOVA
-
Levene’s test
-
Bartlett’s test
-
Tukey’s HSD
-
Pearson’s test of independence
-
Nonparametric tests
-
Sign test
-
One-sample Wilcoxon test
-
Two-sample Wilcoxon test
-
Two-sample Kolmogorov-Smirnov test
-
Spearman’s correlation coefficient
-
Kendall’s tau
-
Linear regression models
-
Least squares estimate
-
Coefficient of determination
-
Stepwise regression