o uitkomst- of responsvariabele: variabele waarop de focus ligt, en wiens variatie en voorkomen we wensen te begrijpen
o blootstelling- of verklarende variabele: variabelen die het voorkomen of de waarde van de uitkomstvariabele beinvloed
o Het type uitkomstvariabele is belangrijk op te bepalen wat de meest gepaste statistische methode is
Exploratie van Data
Samenvatten en voorstellen van data → EDA (ExploratoryDataAnalysis)
Eenvoudige tabellen en grafische technieken voor het voorstellen van een verdeling van waarden kunnen worden gebruikt in het geval van 1 variabele: verbanden zoeken
Exploratie kan worden gebruikt om de associatie tussen waarden van 2 variabelen voor te stellen
o een frequentieverdeling wordt vaak gebruikt in het geval van kwantitatieve variabelen met meer dan 20 geobserveerde waarden. of categorische variabelen met te veel categorieën.
o een frequentietabel toont het aantal observaties
o indien de frequenties voor elke waarde klein zijn, worden observaties gegroepeerd in specifieke intervallen -> discrete variabelen of continue variabelen
absolute frequentie van 14 = 3
relatieve frequentie van 14 = 0.3
Staafdiagram
Categorische data
Discrete data
Meestal barplot / pie chart
In de figuur wordt de absolute frequentie voorgesteld door het maatgetal van de lengte van het lijnstuk
Niet geobserveerde waarden kunnen toch het best worden voorgesteld op de X-as
Vanuit een histogram wordt het midden van de bovenste zijde van de rechthoeken verbonden door middel van een lijn. De lijn die deze punten verbind noemen we de frequentieveelhoek
voorstelling van associatie tussen 2 variabelen kan in verschillende manieren:
o kruistabel
indien beide variabelen categorische
conventie -> rijen stellen blootstelling voor en kolommen stellen uitkomtwaarde voor
o scatterplot
wordt gebruikt om de relatie tussen 2 numerieke variabelen te bestuderen
o boxplot
relatie tussen numerieke en categorische variabele bekijken
Kerngetallen - Locatie = ookwel centrummaat
(Rekenkundig) Gemiddelde
Alles optellen van bereik door de hoeveelheid getallen binnen bereik
Mediaan
van een rij van n numerieke gegevens, andat deze rij als een gerangschikte tabel is herschreven
= Het middelste getal, indien n oneven is
= het rekenkundig gemiddelde van de middelste 2 getallen, indien n even is
Kerngetallen - Spreiding = hoe variabel zijn de waarden van een specifieke meting