Deskriptive Statistik

Bevor man diese Frage beantwortet, sollte man sich die deskriptive Statistik der entsprechenden Variablen genauer ansehen. In der vorliegenden Fragestellung handelt es sich um eine intervallskalierte Variable, daher ist die Betrachtung der Kennwerte für zentrale Tendenzen (Mittelwert, Median, Modus, Minimum, Maximum und Range), der Dispersion (Varianz, Standardabweichung, Quartile, Standardfehler, Konfidenzintervalle, Schiefe und Kurtosis), sowie die Darstellung der Verteilung in einem Histogramm sehr hilfreich.

Unter bestimmten Voraussetzungen, eignet sich der Mittelwert als bester Schätzer (bzw. als einfachste Modellvorstellung). Bevor man sich jedoch der Auswertung von Daten widmet, ist es sehr empfehlenswert die zugrundeliegende Datenstruktur zu analysieren und auch zu dokumentieren. Im nachfolgenden Kapitel wird ein sehr nützliches Paket für genau diese Analyse kurz vorgestellt.

Codebooks in R

In R hat man die Möglichkeit, mit Hilfe des Pakets codebook eine genaue Beschreibung der Daten (inklusive einer deskriptiven Statistik für jede Variable) zu erstellen. Für den vorliegenden Datensatz wurde auszugsweise eines erstellt, welches in Kapitel Codebook CPS85 zu finden ist.

Tabellen

Im Codebook werden neben den deskriptiven Kennwerten (für kategorielle Variablen) Häufigkeitstabellen angegeben. Wir wollen uns daher einen kurzen Überblick über Häufigkeitstabellen in R verschaffen. Kopiere den nachfolgenden Code in den Editor und führe in aus. Diskutiere die Ergebnisse.

  Income <- CPS85$wage
  library(pastecs)
    kable(stat.desc(Income))
    # DT::datatable(data.frame(stat.desc(Income)))
  library(psych)
    kable(describe(Income))
    # DT::datatable(data.frame(describe(Income)))

  # Häufigkeitstabellen
  SR  <- table(CPS85$sex, CPS85$race)
  kable(SR)
  SRM <- table(CPS85$sex, CPS85$race, CPS85$married)
  kable(SRM)
  # Häufigkeitstabellen mit Randsummen
  x0 <- addmargins(table(CPS85$sex, CPS85$race))
  kable(x0)
  # Häufigkeitstabellen in Prozent
  x1 <- addmargins(round(100*prop.table(table(CPS85$sex, CPS85$race)), 2))
  kable(x1)