Dummy Kodierung

Man nennt diesen Vorgang auch Dummy Kodierung. Die Vorgehensweise ist dabei:

  1. Die Anzahl der neuen (Dummy) Variablen ist die Anzahl der Stufen des Prädiktors - 1 \((N_{DummyVars} = N_{Stufen} - 1)\)
  2. Man legt so viele neue Variablen (Dummy-Variablen) an, wie man (im ersten Schritt) als Anzahl der Gruppen berechnet hat.
  3. Wahl einer Bezugsgruppe (Baseline-Bedingung). üblicherweise die Kontrollgruppe, falls keine vorhanden wählt man am besten die Gruppe, in der die meisten Personen/Fälle vorliegen.
  4. Allen Dummy-Variablen für die gewählte Baselinegruppe den Zahlenwert 0 zuweisen.
  5. Der ersten Dummy-Variablen für die erste Gruppe die man gegen die Baselinegruppe vergleichen will den Wert 1 zuweisen, den restlichen Gruppen den Wert 0.
  6. Wiederholung des Schrittes 5, bis alle Dummy-Variablen entsprechend codiert wurden.
  7. Alle Dummy-Variablen ins Modell aufnehmen!
DVar1 DVar2 DVar2
Crusty 1 0 0
Indie Kid 0 1 0
Metaller 0 0 1
No Affliation 0 0 0

Bei der linearen Modellierung in R werden kategorielle Daten im Modell automatisch Dummy-Kodiert. Will man jedoch eine spezielle Anordung der Gruppen, sollte man wissen, wie eine händische Kodierung einfach durchgeführt werden kann. Im folgenden Code werden diese Möglichkeiten dargestellt:

    # Automatisch ohne Bezeichnung der Dummyvariablen
    contrasts(DF$music) <- contr.treatment(4, base = 4)
    # Manuel mit Bezeichnung der Dummyvariablen
    crusty_v_NMA        <- c(1,0,0,0)
    indie_v_NMA         <- c(0,1,0,0)
    metal_v_NMA         <- c(0,0,1,0)
    contrasts(DF$music) <- cbind(crusty_v_NMA, indie_v_NMA, metal_v_NMA)
    pander(attr(DF$music, "contrasts"), digits = 3)
  crusty_v_NMA indie_v_NMA metal_v_NMA
Crusty 1 0 0
Indie Kid 0 1 0
Metaller 0 0 1
No Musical Affiliation 0 0 0