Tibble-Auswertung von "Substrings"

Allgemeine Fragen zu Statistik mit R.

Tibble-Auswertung von "Substrings"

Beitragvon YannVDC » Do 3. Jan 2019, 21:56

Hallo Leute!

Ich bin ein totaler Newbie, was R anbelangt und versuche mich an ersten Beispielen.

Ich habe ein Tibble mittels gutenberg_download() erstellt, welches aus 2 Variablen besteht. Zum einen gutenberg_ID und dann "text".

Code: Alles auswählen
> alice_books
# A tibble: 7,246 x 2
   gutenberg_id text                             
          <int> <chr>                             
1           11 ALICE'S ADVENTURES IN WONDERLAND 
2           11 ""                               
3           11 Lewis Carroll                     
4           11 ""                               
5           11 THE MILLENNIUM FULCRUM EDITION 3.0
6           11 ""                               
7           11 ""                               
8           11 ""                               
9           11 ""                               
10           11 CHAPTER I. Down the Rabbit-Hole   
# ... with 7,236 more rows



Mittels count kann ich die Einträge zählen:

Code: Alles auswählen
alice_books %>% count(text)
# A tibble: 5,283 x 2
   text                           n
   <chr>                      <int>
1 ""                          1904
2 "                1"            1
3 "               ___"           1
4 "               ____"          1
5 "               364"           1
6 "               365"           1
7 "              ----"           1
8 "              and"            1
9 "              THE END"        2
10 "             JABBERWOCKY"     1
# ... with 5,273 more rows


Soweit so gut, nun möchte ich aber die einzelnen Wörter innerhalb von "text" zählen. Wie kann ich diese für den count splitten?

Danke für Eure Hilfe.

Liebe Grüße
Yann
YannVDC
 
Beiträge: 1
Registriert: Do 3. Jan 2019, 21:46
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Tibble-Auswertung von "Substrings"

Beitragvon tau1234 » Fr 4. Jan 2019, 12:15

Hi Yann,

schau mal ob dir das package tidytext weiterhilft. Evtl. könntest du dein Problem so lösen:

Code: Alles auswählen
alice_books %>% select(text) %>% unnest_tokens(word,text) %>% count()


Gruß
tau1234
 
Beiträge: 60
Registriert: Mi 4. Mai 2016, 11:17
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Tibble-Auswertung von "Substrings"

Beitragvon grawhill » Mi 9. Jan 2019, 06:14

Thanks for your information.
grawhill
 
Beiträge: 9
Registriert: Do 1. Jun 2017, 13:16
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste