11.1. Zeitreihenanalyse 1 (nur klasurvorbereitung nicht aus blättern) in gizzmo
18.1. Zeitreihenanalyse 2
25.1. Weitere Methoden
1.2. / 8.2. Wiederholung und Klausurvorbereitung
Stichprobe
Teilmenge aus der Grundgesamtheit
Grundgesamtheit
Die eigentlich interessierende Gesamtheit
Zentraler Grenzwertsatz
Hypothesentest/Signifikanztest
Methode, um zu überprüfen, ob Ergebnisse aus einer Stichprobe auf die Grundgesamtheit übertragbar sind
(mit dem auf vorderseite ist einfach gemeint das wie die signifikanz (p<5) überprüfen)
Inferenzschluss
Übertragung von Ergebnissen aus einer Stichprobe auf die Grundgesamtheit (durch die Methode: Signifikanztest, also überprüfen der signifikanz)
Voraussetzung für Inferenzschluss: Testverteilung für zu testenden Parameter konstruierbar
Signifikanz
Inwieweit lässt sich die Position des Parameters in der Wahrscheinlichkeitsverteilung allein durch den Zufall erklären (oder nicht)
Signifikanztest(/Hypothesentest)
1. Formulieren von Hypothesen
2. Berechnen eines Testwertes
3. Bestimmen der Signifikanz anhand der Testverteilung
Definition: Statistische Datenanalyse (erkläre die kurz)
Statistische Datenanalyse
Deskriptive Datenanalyse
Inferenzielle Datenanalyse
Explorative Datenanalyse
Konfirmatorische Datenanalyse
Methoden für univariate, bivariate und multivariate Analyse
.
Wo steht was bei der Datenmatrix ?
Instnazen/Objekte sind die Versuchspersonen
Voraussetzung für die Statistische Datenanalyse
ist die Datenerhebung mit einem Fragebogen
& die Datenvorbereitung --> Erheblicher Aufwand: 50% bis 90% des Gesamtaufwands!
(Sachen in Bild immer kurz lesen)
Statistische Datenanalyse ...
nutzt „statistische Methoden, mit welchen aus vorliegenden Einzeldaten zusammenfassende Informationen (Kenngrößen) gewonnen und tabellarisch oder grafisch dokumentiert werden.“
Deskriptive Datenanalyse:
Verdichten und Darstellen von Informationen, um Wesentliches deutlich werden zu lassen
Inferenzielle Datenanalyse:
Übertragung der Stichprobenbefunde auf die Grundgesamtheit
Explorative Datenanalyse:
Strukturen und Zusammenhänge in Daten entdecken
Konfirmatorische Datenanalyse:
Überprüfung von (vermuteten) Zusammenhängen
Was für Methoden gibt es ?
Methoden für univariate, bivariate und multivariate Analysen
Übersicht Messniveaus/Skalenniveaus
nominale Variablen können dichotom oder polytom (Mehrstufige Variablen)sein ( also entweder 2 Merkmalsausprägungen haben oder mehr als 2)
ordinale Variablen sind polytom.
Intervall skalierte und Ratio skalierte Variablen sind kontinuierlich
Ratio skalierte: alle mathematischen Operationen (also auch Multiplikation & Division)
Nominalskala
Nominalskala
Niedrigster Informationsgehalt
Ausprägungen können unterschieden werden
Keine Randordnung (Reihenfolge) möglich
Variabeln haben Dichitome oder Polytome Ausprägungen
Beispiele:
Geschlecht
Studiengang
Familienstand
Ordinalskala
Ausprägungen können unterschieden werden
Rangordnung
Ausprägungen können als größer/kleiner definiert werden
Abständen zwischen den Ausprägungen können nicht interpretiert werden & sind nicht gleich groß
Beispiele:
Schulnoten
Steuerklassen
Präferenzwahl
Kardinalskala/
metrische Skala
Intervallskala
Ratioskala
Intervallskala
Kann alles wie ordinalskala + noch
Abstände zwischen den Ausprägungen sind interpretierbar
Abständezwischen den Ausprägungen sind gleichgroß
keinnatürlicher Nullpunkt
Beispiel:
Temperatur in Grad Celsius (Temperaturskala einen willkürlich festgelegten Nullpunkt) geburtsjahre
Verhältnisskala/Ratioskala
Hat alles wie bei der Intervalskala
+ einen natürlichenNullpunktAbstände können ins Verhältnisgesetzt werden
Beispiel: Preis in €, Abstand in cm
Verhältnisskala/Ratioskala
Hat alles wie bei der Intervalskala + einen natürlichen Nullpunkt Abstände können ins Verhältnis gesetzt werdenBeispiel: Preis in €, Abstand in cm
Übersicht Messniveaus/Skalenniveaus detailliert
.
Deskriptive statistische Datenanalyse
Definition:
Deskriptive statistische Datenanalyse hat...
Definition: Deskriptive Statistik (beschreibende Statistik) ist „der Teilbereich der statistischen Methoden, der die Beschreibung von Gesamtheiten, bes. durch Tabellen, Grafiken sowie durch Kennwerte wie Mittelwerte und Streuungsmaße, zum Gegenstand hat.
Deskriptive statistische Datenanalyse hat die Aufgabe, „die in den Einzeldaten enthaltene Information zu verdichten und diese so darzustellen, dass Wesentliches deutlich wird
Maße der Streuung
Varianz, Standardabweichung und andere
(Varianz, Standardabweichung)
Maß der zentralen Tendenz: Modus
Modus = der Wert mit der höchsten Häufigkeit (Bsp: Klausur 5 mal die Note 2,5)
NUR FÜR MESSNIVEAU nominal
Maße der zentralen Tendenz
Mittel, Modus und Median
(Ein Maß der zentralen Tendenz ist eine statistische Summierungen von Daten, die dazu gemacht wurden, einen einzigen Wert einer Variablen zu finden, der all seine möglichen Werte am besten repräsentiert)
Zentrale Tendenz: Median
Der Median einer Verteilung ist definiert als der Wert, der in der Mitte - einer nach Größe sortierten - Verteilung steht.
(geraden Anzahl von Werten: Bei einer geraden Anzahl von Werten gibt es keinen Wert in der Mitte; in diesem Fall wird der Median gefunden, indem man den Durchschnitt der zwei mittleren Werte bildet. --> 1 5 17 22 34 66 74 75 : (22 + 34)/2 = 28 ist der Median)
(ungerade Anzahl von Werten: sieht man den Median direkt--> 1 5 17 22 34 66 74 75 83 : 34 ist der Median)
NUR FÜR MESSNIVEAU ordinal
Maß der Zentrale Tendenz: arithmetrisches Mittel - metrisch
Es ist der Durchschnittswert der Verteilung, d.h. die Summe aller Werte, geteilt durch die Anzahl der Werte (einfach der Durschnitt) (Symbol so x̄ oder auch so)
NUR ab Intervall Skala ( also auch für Ratioskala)
Streuungsmaße Quartilsdifferenz
Die Quartilsdifferenz ist die Differenz zwischen dem ersten und dem dritten Quartil --> Q = Q3 - Q1
(das zweite Quartil wäre der Median!).
-->Da die Quartilsdifferenz eine arithmetische Operation beinhaltet, ist sie nur sinnvoll für numerische Daten, obwohl sie oft für ordinale Daten ohne strenge Rangfolge genutzt wird
NUR AB ordinal Skala
Streuungsmaße Varianz/Standardabweichung
Die Stichprobenvarianz ist das Mittel aller quadriertenAbweichungen vom arithmetischen Mittel; und die Standardabweichung ist ihre Quadratwurzel. Sie ist das gebräuchlichsteMaß der Abweichung für numerische Variablen.
Visuelle Darstellung eines Datensatzes meist ordinalskalierte Variablen
Der Boxplot zeigt die 5 wichtigsten Kennzahlen/Maße:
Minimum
Maximum
Median
Quartil1 (Q1)
Quartil3 (Q3)
In der Box befinden sich die Daten zwischendemQuartil1 und Quartil 3 – das sind 50% der Daten
Die Linie in der Mitte ist der Median
Die aus der Box ragenden Linien (aus Whiskers) genannt, stellen die Daten außerhalb der Box bis zum Maximum & Minimum dar
Zusätzlich kann es Punkte außerhalb geben, das sind Ausreißer – eventuell ein Fehler in den Daten
Box-Whisker-Plot - Wie erkennt man ob die Verteilung die im Boxplot dargestellt wurde symmetrisch ist?
Anhand dessen wo sich die Box befindet kann man Aussagen, ob es symmetrisch rechtschief oder linkschief ist
Wenn es einen symmetrischen Aufbau hat verweist das auf eine Normalverteilung
InterpretationBox-Whisker-Plot (Hierzu eve noch video gucken)
-->Beispiel Interpretation:
die eine hälfte der Personen ist unter 45-59 und die andere ist über 45-59 Jahre alt. 50% der Personen sind zwischen 30 und 74 Jahre alt. Darüber hinaus ist die jüngste Person 18 und die ältesten Personen sind über 89 Jahre alt. Der symmetrische Aufbau des Boxplot verweist auf eine Normalverteilung
Repräsentation der Grundgesamtheit durch Stichprobe