Skip to main content

Tips & Tricks

Julia

Začít s

using Statistics, Distributions, Random, LinearAlgebra, Clustering, StatsBase, Plots, StatsPlots, HypothesisTests

Potřebné balíčky:

] add Distributions, Clustering, StatsBase, Plots, StatsPlots, HypothesisTests

Statistika

  • vektor prúměrů mean(X; dims = 1)
  • kovarianční matice cov(X)
  • výběrová korelační matice cor(X)
  • vlastní čísla a vlastní vektory výběrové kovarianční matice
    vals, vecs = eigen(X)
    • procenta variability cumsum(vals) / sum(vals) * 100
    • hodí se na PCA
  • matice vzdáleností dist(X) přičemž potřebujeme první definovat
    dist(X; itr = eachrow) = [norm(vec1 - vec2) for vec1 in itr(X), vec2 in itr(X)]
  • shlukování hcl = hclust(dist(X); linkage = :single) (více zde)
    • dobré potom ještě použít cuttree(hcl; k = <chtěný počet clusterů>)
  • výběrová distribuční funkce (vektorová data X - pouze jednorozměrná)
    plot((minimum(X) - 5):0.01:(maximum(X) + 5), y -> ecdf(X)(y))

Pravděpodobnost

  • kvantil na hladině $\alpha$ quantile(<distribution>, α) např.
    quantile(Normal(0,1), 0.95)
  • hodnota distribuční funkce v bodě cdf(<distribution>, <where>) např.
    cdf(Normal(0,1), 1.6)

Testování hypotéz

  • test střední hodnoty normální rozdělní - z-test OneSampleZTest(<výběrový průměr>, <směrodatná odchylka onoho normálního rozdělení>, <počet pozorování>, <testovaná hodnota>) např.
    OneSampleZTest(mean(X), 0.15, 9, 10) pro příklad 4/2
    • v případě, že testujeme střední hodnotu normálního rozdělení se směrodatnou odchylkou určenou z dat, můžeme použít OneSampleZTest(X, <testovaná střední hodnota>) např. OneSampleZTest(X, 10)
    • p-hodnotu můžeme získat také pomocí pvalue(<test>) např. pvalue(OneSampleZTest(mean(X), 0.15, 9, 10)), přičemž ještě můžeme specifikovat "jednostrannost" tohoto testu
      pvalue(OneSampleZTest(mean(X), 0.15, 9, 10); tail=:left)
    • obdobně pro interval spolehlivosti pomocí confint
  • testy jsou dostupné zde