Statistik Vorlesung 1

Subdecks (1)

Cards (187)

  • Themen und Termine
    • 26.10. Konstituierende Sitzung
    • 2.11. Deskriptive Statistik / SPSS Einführung
    • 9.11. Hypothesentests und Inferenzstatistik
    • 16.11. Bivariate Statistik
    • 23.11. Multiple Regression
    • 30.11. Faktorenanalyse 1
    • 7.12. Faktorenanalyse 2
    • 14.12. Clusteranalyse 1
    • 21.12. Clusteranalyse 2
    • 4.1. Durchführen statistischer Analysen
    • 11.1. Zeitreihenanalyse 1 (nur klasurvorbereitung nicht aus blättern) in gizzmo
    • 18.1. Zeitreihenanalyse 2
    • 25.1. Weitere Methoden
    • 1.2. / 8.2. Wiederholung und Klausurvorbereitung
  • Stichprobe
    Teilmenge aus der Grundgesamtheit
  • Grundgesamtheit
    Die eigentlich interessierende Gesamtheit
  • Zentraler Grenzwertsatz
  • Hypothesentest/Signifikanztest
    Methode, um zu überprüfen, ob Ergebnisse aus einer Stichprobe auf die Grundgesamtheit übertragbar sind
    (mit dem auf vorderseite ist einfach gemeint das wie die signifikanz (p<5) überprüfen)
  • Inferenzschluss
    Übertragung von Ergebnissen aus einer Stichprobe auf die Grundgesamtheit (durch die Methode: Signifikanztest, also überprüfen der signifikanz)
  • Voraussetzung für Inferenzschluss: Testverteilung für zu testenden Parameter konstruierbar
  • Signifikanz
    Inwieweit lässt sich die Position des Parameters in der Wahrscheinlichkeitsverteilung allein durch den Zufall erklären (oder nicht)
  • Signifikanztest(/Hypothesentest)
    1. Formulieren von Hypothesen
    2. Berechnen eines Testwertes
    3. Bestimmen der Signifikanz anhand der Testverteilung
  • Definition: Statistische Datenanalyse (erkläre die kurz)
    Statistische Datenanalyse
    Deskriptive Datenanalyse
    Inferenzielle Datenanalyse
    Explorative Datenanalyse
    Konfirmatorische Datenanalyse                                                   
    Methoden für univariate, bivariate und multivariate Analyse

    .
  • Wo steht was bei der Datenmatrix ?
    Instnazen/Objekte sind die Versuchspersonen
  • Voraussetzung für die Statistische Datenanalyse
    • ist die Datenerhebung mit einem Fragebogen
    • & die Datenvorbereitung --> Erheblicher Aufwand: 50% bis 90% des Gesamtaufwands!
    • (Sachen in Bild immer kurz lesen)
  • Statistische Datenanalyse ...

    nutzt „statistische Methoden, mit welchen aus vorliegenden Einzeldaten zusammenfassende Informationen (Kenngrößen) gewonnen und tabellarisch oder grafisch dokumentiert werden.“
  • Deskriptive Datenanalyse:
    Verdichten und Darstellen von Informationen, um Wesentliches deutlich werden zu lassen
  • Inferenzielle Datenanalyse:
    Übertragung der Stichprobenbefunde auf die Grundgesamtheit
  • Explorative Datenanalyse:
    Strukturen und Zusammenhänge in Daten entdecken
  • Konfirmatorische Datenanalyse:
    Überprüfung von (vermuteten) Zusammenhängen
  • Was für Methoden gibt es ?
    Methoden für univariate, bivariate und multivariate Analysen
  • Übersicht Messniveaus/Skalenniveaus
    • nominale Variablen können dichotom oder polytom (Mehrstufige Variablen)sein ( also entweder 2 Merkmalsausprägungen haben oder mehr als 2)
    • ordinale Variablen sind polytom.
    • Intervall skalierte und Ratio skalierte Variablen sind kontinuierlich
  • Zulässige Operationen der Messniveaus
    Nominale: gleich, Ungleich ( =, ≠)
    Ordinale: gleich , größer, kleiner (=, >, <)
    Intervall skalierte: gleich, ungleich, größer, kleiner größer gleich , kleiner gleich, plus, minus (=, ≠, <, <=, >, >=, +, -)
    Ratio skalierte: alle mathematischen Operationen (also auch Multiplikation & Division)
  • Nominalskala
    Nominalskala
    • Niedrigster Informationsgehalt​
    • Ausprägungen können unterschieden werden​
    • Keine Randordnung (Reihenfolge) möglich​
    • Variabeln haben Dichitome oder Polytome Ausprägungen​
    Beispiele:​
    • Geschlecht​
    • Studiengang​
    • Familienstand
       
  • Ordinalskala
    • Ausprägungen können unterschieden werden​
    • Rangordnung ​
    • Ausprägungen können als größer/kleiner definiert werden​
    • Abständen zwischen den Ausprägungen können nicht interpretiert werden & sind nicht gleich groß​
    Beispiele:​
    • Schulnoten​
    • Steuerklassen​
    • Präferenzwahl
  • Kardinalskala/​
    metrische Skala
    Intervallskala​
    Ratioskala
  • Intervallskala​ 

    • Kann alles wie ordinalskala + noch​
    • Abstände zwischen den Ausprägungen sind interpretierbar​
    • Abstände zwischen den Ausprägungen sind gleich groß​
    • kein natürlicher Nullpunkt​
    Beispiel:​
    Temperatur in Grad Celsius (Temperaturskala einen willkürlich festgelegten Nullpunkt)​ geburtsjahre
  • Verhältnisskala/Ratioskala​
    Hat alles wie bei der Intervalskala ​
    + einen natürlichen Nullpunkt Abstände können ins Verhältnis gesetzt werden​
    Beispiel: Preis in €, Abstand in cm
  • Verhältnisskala/Ratioskala
    ​Hat alles wie bei der Intervalskala ​+ einen natürlichen Nullpunkt Abstände können ins Verhältnis gesetzt werden​​Beispiel: Preis in €, Abstand in cm
  • Übersicht Messniveaus/Skalenniveaus detailliert
    .
  • Deskriptive statistische Datenanalyse
    Definition:
    Deskriptive statistische Datenanalyse hat...
    Definition: Deskriptive Statistik (beschreibende Statistik) ist „der Teilbereich der statistischen Methoden, der die Beschreibung von Gesamtheiten, bes. durch Tabellen, Grafiken sowie durch Kennwerte wie Mittelwerte und Streuungsmaße, zum Gegenstand hat.
    Deskriptive statistische Datenanalyse hat die Aufgabe, „die in den Einzeldaten enthaltene Information zu verdichten und diese so darzustellen, dass Wesentliches deutlich wird
  • Maße der Streuung
    Varianz, Standardabweichung und andere
    (Varianz, Standardabweichung)
  • Maß der zentralen Tendenz: Modus
    Modus = der Wert mit der höchsten Häufigkeit (Bsp: Klausur 5 mal die Note 2,5)
    NUR FÜR MESSNIVEAU nominal
  • Maße der zentralen Tendenz
    Mittel, Modus und Median
    (Ein Maß der zentralen Tendenz ist eine statistische Summierungen von Daten, die dazu gemacht wurden, einen einzigen Wert einer Variablen zu finden, der all seine möglichen Werte am besten repräsentiert)
  • Zentrale Tendenz: Median
    Der Median einer Verteilung ist definiert als der Wert, der in der Mitte - einer nach Größe sortierten - Verteilung steht.
    (geraden Anzahl von Werten: Bei einer geraden Anzahl von Werten gibt es keinen Wert in der Mitte; in diesem Fall wird der Median gefunden, indem man den Durchschnitt der zwei mittleren Werte bildet. --> 1 5 17 22 34 66 74 75 : (22 + 34)/2 = 28 ist der Median)
    (ungerade Anzahl von Werten: sieht man den Median direkt--> 1 5 17 22 34 66 74 75 83 : 34 ist der Median)
    NUR FÜR MESSNIVEAU ordinal
  • Maß der Zentrale Tendenz: arithmetrisches Mittel - metrisch
    Es ist der Durchschnittswert der Verteilung, d.h. die Summe aller Werte, geteilt durch die Anzahl der Werte (einfach der Durschnitt) (Symbol so x̄ oder auch so)
    NUR ab Intervall Skala ( also auch für Ratioskala)
  • Streuungsmaße​ Quartilsdifferenz
    Die Quartilsdifferenz ist die Differenz zwischen dem ersten und dem dritten Quartil --> Q = Q3 - Q1
    (das zweite Quartil wäre der Median!).
    -->Da die Quartilsdifferenz eine arithmetische Operation beinhaltet, ist sie nur sinnvoll für numerische Daten, obwohl sie oft für ordinale Daten ohne strenge Rangfolge genutzt wird
    NUR AB ordinal Skala
  • Streuungsmaße Varianz/Standardabweichung
    Die Stichprobenvarianz ist das Mittel aller quadrierten Abweichungen vom arithmetischen Mittel; und die Standardabweichung ist ihre Quadratwurzel. Sie ist das gebräuchlichste Maß der Abweichung für numerische Variablen.
    Nur ab bzw. metrische Variablen
  • Verteilungen: Darstellung und Parameter
  • Box-Whisker-Plot - Nenne: Wofür, Kennzahlen, Aufbau
    • Visuelle Darstellung eines Datensatzes meist ordinalskalierte Variablen​
    Der Boxplot zeigt die 5 wichtigsten Kennzahlen/Maße:​
    • Minimum​
    • Maximum​
    • Median​
    • Quartil 1 (Q1)​
    • Quartil 3 (Q3)​
    • In der Box befinden sich die Daten zwischen dem Quartil 1 und Quartil 3 – das sind 50% der Daten​
    • Die Linie in der Mitte ist der Median ​
    • Die aus der Box ragenden Linien (aus Whiskers) genannt, stellen die Daten außerhalb der Box bis zum Maximum & Minimum dar​
    • Zusätzlich kann es Punkte außerhalb geben, das sind Ausreißer – eventuell ein Fehler in den Daten​
  • Box-Whisker-Plot - Wie erkennt man ob die Verteilung die im Boxplot dargestellt wurde symmetrisch ist?
    • Anhand dessen wo sich die Box befindet kann man Aussagen, ob es symmetrisch rechtschief oder linkschief ist​
    • Wenn es einen symmetrischen Aufbau hat verweist das auf eine Normalverteilung ​
  • Interpretation​Box-Whisker-Plot (Hierzu eve noch video gucken)
    -->Beispiel Interpretation: ​
    die eine hälfte der Personen ist unter 45-59  und die andere ist über 45-59 Jahre alt. 50% der Personen sind zwischen 30 und 74 Jahre alt. Darüber hinaus ist die jüngste Person 18 und die ältesten Personen sind über 89 Jahre alt. Der symmetrische Aufbau  des Boxplot verweist auf eine Normalverteilung
  • Repräsentation der Grundgesamtheit durch Stichprobe
    und zwar durch Zufallsstichprobe