Dummy Kodierung
Man nennt diesen Vorgang auch Dummy Kodierung. Die Vorgehensweise ist dabei:
- Die Anzahl der neuen (Dummy) Variablen ist die Anzahl der Stufen des Prädiktors - 1 \((N_{DummyVars} = N_{Stufen} - 1)\)
- Man legt so viele neue Variablen (Dummy-Variablen) an, wie man (im ersten Schritt) als Anzahl der Gruppen berechnet hat.
- Wahl einer Bezugsgruppe (Baseline-Bedingung). üblicherweise die Kontrollgruppe, falls keine vorhanden wählt man am besten die Gruppe, in der die meisten Personen/Fälle vorliegen.
- Allen Dummy-Variablen für die gewählte Baselinegruppe den Zahlenwert 0 zuweisen.
- Der ersten Dummy-Variablen für die erste Gruppe die man gegen die Baselinegruppe vergleichen will den Wert 1 zuweisen, den restlichen Gruppen den Wert 0.
- Wiederholung des Schrittes 5, bis alle Dummy-Variablen entsprechend codiert wurden.
- Alle Dummy-Variablen ins Modell aufnehmen!
DVar1 | DVar2 | DVar2 | |
---|---|---|---|
Crusty | 1 | 0 | 0 |
Indie Kid | 0 | 1 | 0 |
Metaller | 0 | 0 | 1 |
No Affliation | 0 | 0 | 0 |
Bei der linearen Modellierung in R werden kategorielle Daten im Modell automatisch Dummy-Kodiert. Will man jedoch eine spezielle Anordung der Gruppen, sollte man wissen, wie eine händische Kodierung einfach durchgeführt werden kann. Im folgenden Code werden diese Möglichkeiten dargestellt:
# Automatisch ohne Bezeichnung der Dummyvariablen
contrasts(DF$music) <- contr.treatment(4, base = 4)
# Manuel mit Bezeichnung der Dummyvariablen
crusty_v_NMA <- c(1,0,0,0)
indie_v_NMA <- c(0,1,0,0)
metal_v_NMA <- c(0,0,1,0)
contrasts(DF$music) <- cbind(crusty_v_NMA, indie_v_NMA, metal_v_NMA)
pander(attr(DF$music, "contrasts"), digits = 3)
crusty_v_NMA | indie_v_NMA | metal_v_NMA | |
---|---|---|---|
Crusty | 1 | 0 | 0 |
Indie Kid | 0 | 1 | 0 |
Metaller | 0 | 0 | 1 |
No Musical Affiliation | 0 | 0 | 0 |