Geeignetes Format

Allgemeine Fragen zu Statistik mit R.

Geeignetes Format

Beitragvon Wheezy92 » Mi 7. Mär 2018, 21:39

Hallo, ich suche nach einer Möglichkeit, eine Excel Tabelle in einen Dataframe zu wandeln.

Diese Excel Tabelle besteht aus ein paar Spalten

Abkürzung (z.B. HAL)
Datum (z.B. 01.05.1992)
Fehlercode (hier geht es um mehrere spalten, von einen manche mit einer Nummer ausgefüllt sind, andere sind leer)
Comment (Ein exogener Kommentar, der nicht verfälscht werden soll, in dem Sonderzeichen verwendet werden)

Wie kann ich eine solche Tabelle in ein Dataframe konvertieren? Ich habe es mit txt und csv versucht; txt meckert, weil bestimmte Spalten nicht ausgefüllt sind und csv funktioniert bei mir irgendwie gar nicht. Wenn ich aber darüber nachdenke, wäre es hier auch ungeeignet, da in der Comment Spalte ja auch Kommas verwendet werden. Hat jemand eine Idee, wie ich das in ein dataframe kriege und nachher wieder exportieren kann?
Wheezy92
 
Beiträge: 2
Registriert: Mi 7. Mär 2018, 21:18
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Geeignetes Format

Beitragvon Hufeisen » Do 8. Mär 2018, 12:07

read.txt und read.csv setzten jeweils eine Datei im Format txt bzw. csv voraus. Ich denke, das ist ein erstes Problem. read.table() sollte dieses Problem lösen. Es liest die Tabelle direkt als data.frame ein. Mit colClasses kannst du die Datentypen jeder Spalte spezifizieren, das sollte in der Regel aber von alleine richtig erfolgen. Die Struktur des df lässt sich leicht so prüfen:
Code: Alles auswählen
apply(data.frame, MARGIN = 2, FUN = class)


Wenn es dann immer noch zu Problemen mit den Kommas in den Zellen kommt, musst du die Datei in deinem Tabellenprogramm neu abspeichern und einen anderen Feldtrenner benutzen, z.B. ein Semikolon.
Neu in R, versuche trotzdem zu helfen.
Hufeisen
 
Beiträge: 115
Registriert: Di 31. Jan 2017, 19:15
Danke gegeben: 0
Danke bekommen: 1 mal in 1 Post

Re: Geeignetes Format

Beitragvon jogo » Do 8. Mär 2018, 16:22

Hallo Wheezy,

zum Einlesen von Excel-Dateien gibt es entsprechende Zusatzpakete.
https://stackoverflow.com/search?q=%5Br%5D+read+Excel
http://forum.r-statistik.de/viewtopic.p ... =620#p2504

Gruß, Jörg
jogo
 
Beiträge: 89
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Geeignetes Format

Beitragvon Wheezy92 » Fr 9. Mär 2018, 12:37

Danke für den Tipp, ich habe es jetzt mit einem Zusatzpacket probiert, welches tidyverse heißt. Da soll der Befehl read_xlsx mit drin sein.
Habe mich bei der Installation an die folgende Anleitung gehalten: http://readxl.tidyverse.orghttp://readxl.tidyverse.org

In meinem Programm habe ich folgenden Code verwendet:
install.packages("tidyverse")
library(readxl)
DF=read_excel(C:\Users\lenovo\Documents\name.xlsx)

Die ersten beiden Zeilen funktionieren soweit ganz gut, aber die dritte Zeile gibt eine Fehlermeldung, anscheinend will er meinen Pfad nicht akzeptieren, denn er sagt mir:
Error: unexpected input in "DF=read_excel(C:\"
wobei die Anleitung zu dem Package ja klar sagt:
read_excel(path, sheet = NULL, range = NULL, col_names = TRUE,
col_types = NULL, na = "", trim_ws = TRUE, skip = 0, n_max = Inf,
guess_max = min(1000, n_max))
siehe http://readxl.tidyverse.org/reference/read_excel.html
Ich habe das problem bei so ziemlich allen Excel Packeten, die ich ausprobiert habe. In dem R Kurs, den ich gemacht habe, haben wir stets nur mit den Daten gerechnet, die sich aus Befehlen wie rnorm bezogen haben. Und jetzt, wo ich verzweifelt versuche, echte Daten zu importieren, klappt alles hinten und vorne nicht. Wäre echt cool, wenn ihr mir dabei weiter helfen könntet.
Wheezy92
 
Beiträge: 2
Registriert: Mi 7. Mär 2018, 21:18
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Geeignetes Format

Beitragvon jogo » Fr 9. Mär 2018, 12:51

Code: Alles auswählen
DF <- read_excel("C:\Users\lenovo\Documents\name.xlsx")
oder evtl.
Code: Alles auswählen
DF <- read_excel("C:\\Users\\lenovo\\Documents\\name.xlsx")
oder
Code: Alles auswählen
DF <- read_excel("C:/Users/lenovo/Documents/name.xlsx")
vielleicht funktioniert ja eine von den drei Varianten.

Ansonsten erstmal das Arbeitsverzeichnis setzen:
Code: Alles auswählen
setwd(...)
(arbeitest Du mir RStudio :?: )
dann kontrollieren, ob soweit alles gut ist:
Code: Alles auswählen
dir()

und schließlich das Einlesen:
Code: Alles auswählen
DF <- read_excel("name.xlsx")

Gruß, Jörg
jogo
 
Beiträge: 89
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron