Uitleggen wat verdelingsvormen zijn
- Verdelingsvorm
Grafische weergave van de datareeks (plot of grafiek)
Hoe de datapunten verdeeld zijn. Het wordt uitgebeeld in een histogram: datapunten op de Y as en de X as as de schaal van de datareeks
Opnoemen welke verdelingsmaten er zijn en wat het voorstelt
- Scheefheid (Skewness): een scheve verdeling is een asymmetrische verdeling.
- Normale verdeling liggen in de buurt van 1
- Linksscheef wordt de skewness kleiner
- Rechtsscheef, wordt de skewness groter - Spitsheid (Kurtosis): hoe spits of plat een histogram is.
- Normale verdeling liggen in de buurt van 1
- Platter wordt kurtosis steeds kleiner
- Spitser wordt kurtosis steeds groter
Onderstaand figuur toont een platykurte (platte), symmetrische en leptokurte (spitse) verdeling. - Modaliteit (Dip test) beschrijft het aantal toppen van de verdeling. Een verdeling met één top wordt unimodaaal of eentoppig genoemd, twee toppen bimodaal en een verdeling met meer toppen wordt multimodaal genoemd.
- Wordt steeds groter naarmate een verdeling minder unimodaal is
- Perfecte normale verdeling is de uitkomst is 0
(Er kan altijd sprake van steekproeftoeval of een meetfout zijn, dus altijd verschillende informatiebronnen tegelijkertijd gebruiken om verdelingsmaten te interpreteren)
Beschrijven wat de normale verdeling is
- Normaalverdeling
- Unimodaal
- Niet scheef (symmetrisch)
- Niet bijzonder plat of spits
- 68% v.d. datapunten liggen binnen 1 standaarddeviaties v.d. gemiddelde
- 95% v.d. datapunten liggen binnen 2 standaarddeviaties v.d. gemiddelde
- 99,7% v.d. datapunten liggen binnen 3 standaarddeviaties v.d. gemiddelde
- Galileo viel dit op in de 17e eeuw
- Gauss ontwikkelde een formule voor de normaalverdeling en toonde aan dat ruis (meetfouten) is verdeeld.
Beschrijven wat Z-scores zijn en hoe je Z-score berekent
- Z-score
- Een normaal verdeling met een gemiddelde van 0 en een standaarddeviatie van 1 heet een standaardnormale verdeling, ook wel z-verdeling genoemd.
- (Datapunten - Gemiddelde) : Standaarddeviatie = Z-score
- Het geeft aan hoe extreem een datapunt is
- Z-scores zijn vergelijkbaar met gestandaardiseerde datapunten uit andere datareeksen
Beschrijven wat density plots zijn
- Density plots
Een soepele lijn die zogenaamd dichtheid van de verdeling aangeeft. De density plots volgen de lijn van de verdeling zoals getoond door de histogrammen, maar zijn gladde lijnen.
- Datapunten geven de oppervlakte aan
- Dichtheid is altijd 1!
Beschrijven wat Q-Q-plots zijn
- Q-Q plot
- In Q-Q-plots worden kwantielen geplot
- Kwantielen zijn breekpunten om een datareeks in gelijke delen te splitsen: mediaan, Q1-Q2-Q3, negen decielen, 99 percentielen enz.
Beschrijven wat boxplots zijn
- Boxplot
- In een boxplot worden drie kwartielen geplot, samen met het minimum en maximum.
- Datapunten die outliers zijn worden aangegeven d.m.v. stipjes die in het verlengde van de verticale lijn liggen
Uitleggen dat beschouwing van verdelingsvormen een subjectief proces is, waarbij het belangrijk is de onderliggende redenering te documenteren
- We zijn niet geïnteresseerd in de steekproefverdeling, maar gebruikt deze om de populatieverdeling mee te bepalen.
- Steekproef heeft uitsluitend bestaansrecht als instrument om iets te leren over de populatie.
- Verdeling is alleen interessant als die iets kan vertellen over de vorm van de populatieverdeling
- Het bepalen van de vorm die de populatieverdeling waarschijnlijk heeft is subjectief proces
- Verschillende informatiebronnen combineren
- Kritisch over nadenken