Tips & Tricks
Julia
Začít s
using Statistics, Distributions, Random, LinearAlgebra, Clustering, StatsBase, Plots, StatsPlots, HypothesisTests
Potřebné balíčky:
Distributions, Clustering, StatsBase, Plots, StatsPlots,HypothesisTests
Statistika
- vektor prúměrů
mean(X; dims = 1)
- kovarianční matice
cov(X)
- výběrová korelační matice
cor(X)
- vlastní čísla a vlastní vektory výběrové kovarianční matice
vals, vecs = eigen(X)
- procenta variability
cumsum(vals) / sum(vals) * 100
- hodí se na PCA
- procenta variability
- matice vzdáleností
dist(X)
přičemž potřebujeme první definovat
dist(X; itr = eachrow) = [norm(vec1 - vec2) for vec1 in itr(X), vec2 in itr(X)]
- shlukování
hcl = hclust(dist(X); linkage = :single)
(více zde)- dobré potom ještě použít
cuttree(hcl; k = <chtěný počet clusterů>)
- dobré potom ještě použít
- výběrová distribuční funkce (vektorová data
X
- pouze jednorozměrná)
plot((minimum(X) - 5):0.01:(maximum(X) + 5), y -> ecdf(X)(y))
Pravděpodobnost
- kvantil na hladině $\alpha$
quantile(<distribution>, α)
např.
quantile(Normal(0,1), 0.95)
- hodnota distribuční funkce v bodě
cdf(<distribution>, <where>
) např.
cdf(Normal(0,1), 1.6)
Testování hypotéz
- test střední hodnoty normální rozdělní - z-test
OneSampleZTest(<výběrový průměr>, <směrodatná odchylka onoho normálního rozdělení>, <počet pozorování>, <testovaná hodnota>)
např.
OneSampleZTest(mean(X), 0.15, 9, 10)
pro příklad 4/2- v případě, že testujeme střední hodnotu normálního rozdělení se směrodatnou odchylkou určenou z dat, můžeme použít
OneSampleZTest(X, <testovaná střední hodnota>)
např.OneSampleZTest(X, 10)
- p-hodnotu můžeme získat také pomocí
pvalue(<test>)
např.pvalue(OneSampleZTest(mean(X), 0.15, 9, 10))
, přičemž ještě můžeme specifikovat "jednostrannost" tohoto testu
pvalue(OneSampleZTest(mean(X), 0.15, 9, 10); tail=:left)
- obdobně pro interval spolehlivosti pomocí
confint
- v případě, že testujeme střední hodnotu normálního rozdělení se směrodatnou odchylkou určenou z dat, můžeme použít
- testy jsou dostupné zde