Dummy Variablen

Allgemeine Fragen zur Programmierung mit R.

Dummy Variablen

Beitragvon phil217 » Mi 30. Mai 2018, 12:46

Hallo,

ich habe einen relativ großten Datensatz und möchte eine Spalte davon zu Dummyvariable machen. Es gibt momentan die entweder 2 oder 4 als Zahl in der Spalte. Aber auch relativ häufig NA.
Jetzt meine Frage, wie mache ich alles NA's und 2er zu 0 und die 4 zur 1?

VG
phil217
 
Beiträge: 2
Registriert: Mi 30. Mai 2018, 12:40
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dummy Variablen

Beitragvon jogo » Mi 30. Mai 2018, 16:10

Hallo phil,

kannst Du bitte das Ergebnis von
Code: Alles auswählen
str(Dataframe$Spalte)
zeigen?
Normalerweise sollte es ausreichen, alle NAs auf 2 zu sezten (..., da Du die Spalte als Faktor einsetzen möchtest).
Code: Alles auswählen
Dataframe$Spalte[is.na(Dataframe$Spalte)] <- 2

Gruß, Jörg
jogo
 
Beiträge: 42
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Dummy Variablen

Beitragvon phil217 » Do 31. Mai 2018, 14:01

Hallo Jörg,

danke für deine Antwort, aber ich glaube du hast mich falsch verstanden oder ich habe mich schlecht ausgedrückt..

Ich wollte dafür sorgen, dass ich aus der Spalte eine Dummyvariable mache.

Für die ein Spalte hat das auch geklappt, dass es dort nur die 4 oder die 2 gab. Das habe ich dann einfach mit dem replace() Befehl auf 0 bzw 1 geändert.
Bei meiner anderen Spalte vom Datensatz sind es allerdings ganz viele verschiedene Werte, alle zwischen 0 und 1 oder =0. Jetzt möchte ich in einer neuen Spalte für alle zwischen 0 und 1 den Wert 1 stehen haben. Kannst du mir da weiterhelfen?

Vielen Dank im Voraus

VG

phil
phil217
 
Beiträge: 2
Registriert: Mi 30. Mai 2018, 12:40
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Dummy Variablen

Beitragvon jogo » Do 31. Mai 2018, 15:04

Hallo phil,

phil217 hat geschrieben:danke für deine Antwort, aber ich glaube du hast mich falsch verstanden oder ich habe mich schlecht ausgedrückt..
Ich wollte dafür sorgen, dass ich aus der Spalte eine Dummyvariable mache.
das kann sein - muss aber nicht.
Wenn im Rahmen eines Regressionsmodells auf der rechten Seite der Formel Faktoren auftauchen, so erzeugt R automatisch entsprechende Dummyvariablen in der Systemmatrix:
Code: Alles auswählen
summary(lm(Petal.Length ~ Sepal.Length + Species, data=iris))
Wenn Du also die Spalte als Faktor verwendest (ggf. per as.factor(...)), dann ist es egal, ob die Kodierung 2 und 4 lautet oder ob die Kodierung 0 und 1 lautet.

Für die ein Spalte hat das auch geklappt, dass es dort nur die 4 oder die 2 gab. Das habe ich dann einfach mit dem replace() Befehl auf 0 bzw 1 geändert.
Bei meiner anderen Spalte vom Datensatz sind es allerdings ganz viele verschiedene Werte, alle zwischen 0 und 1 oder =0. Jetzt möchte ich in einer neuen Spalte für alle zwischen 0 und 1 den Wert 1 stehen haben. Kannst du mir da weiterhelfen?
Zeig doch bitte, wie das genau aussieht und was genau Du möchtest im Sinne von http://forum.r-statistik.de/viewtopic.php?f=20&t=11

Gruß, Jörg
jogo
 
Beiträge: 42
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Programmierung allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron