Skip to main content

Tips & Tricks

Julia

Začít s

using Statistics, Distributions, Random, LinearAlgebra, Clustering, StatsBase, Plots, StatsPlots, HypothesisTests

Potřebné balíčky:

```
] add Distributions, Clustering, StatsBase, Plots, StatsPlots, HypothesisTests

Statistika

###
    Statistika -
  • vektor prúměrů `mean(X; dims = 1)` -
  • kovarianční matice `cov(X)` -
  • výběrová korelační matice `cor(X)` -
  • vlastní čísla a vlastní vektory výběrové kovarianční matice \
    `vals, vecs = eigen(X)` -
    • procenta variability `cumsum(vals) / sum(vals) * 100`100 -
    • hodí se na PCA
    • -
  • matice vzdáleností `dist(X)` přičemž potřebujeme první definovat \
    `dist(X; itr = eachrow) = [norm(vec1 - vec2) for vec1 in itr(X), vec2 in itr(X)]` -
  • shlukování `hcl = hclust(dist(X); linkage = :single)` (více [zde](https://juliastats.org/Clustering.jl/stable/hclust.html)zde) -
    • dobré potom ještě použít `cuttree(hcl; k = <chtěný počet clusterů>)` -
  • výběrová distribuční funkce (vektorová data `X`X - pouze jednorozměrná) \
    `plot((minimum(X) - 5):0.01:(maximum(X) + 5), y -> ecdf(X)(y))` ###

Pravděpodobnost

-
  • kvantil na hladině $\alpha$ `quantile(<distribution>, α)` např. \
    `quantile(Normal(0,1), 0.95)` -
  • hodnota distribuční funkce v bodě `cdf(<distribution>, <where>`) např. \
    `cdf(Normal(0,1), 1.6)` ###

Testování hypotéz

-
  • test střední hodnoty normální rozdělní - **z-test**test `OneSampleZTest(<výběrový průměr>, <směrodatná odchylka onoho normálního rozdělení>, <počet pozorování>, <testovaná hodnota>)` např. \
    `OneSampleZTest(mean(X), 0.15, 9, 10)` pro příklad 4/2 -
    • v případě, že testujeme střední hodnotu normálního rozdělení se směrodatnou odchylkou určenou z dat, můžeme použít `OneSampleZTest(X, <testovaná střední hodnota>)` např. `OneSampleZTest(X, 10)` -
    • p-hodnotu můžeme získat také pomocí `pvalue(<test>)` např. `pvalue(OneSampleZTest(mean(X), 0.15, 9, 10))`, přičemž ještě můžeme specifikovat "jednostrannost" tohoto testu \
      `pvalue(OneSampleZTest(mean(X), 0.15, 9, 10); tail=:left)` -
    • obdobně pro interval spolehlivosti pomocí `confint`confint -
  • testy jsou dostupné [zde](https://juliastats.org/HypothesisTests.jl/stable/parametric/#HypothesisTests.OneSampleZTest)zde