Seite 1 von 1

Tibble-Auswertung von "Substrings"

BeitragVerfasst: Do 3. Jan 2019, 21:56
von YannVDC
Hallo Leute!

Ich bin ein totaler Newbie, was R anbelangt und versuche mich an ersten Beispielen.

Ich habe ein Tibble mittels gutenberg_download() erstellt, welches aus 2 Variablen besteht. Zum einen gutenberg_ID und dann "text".

Code: Alles auswählen
> alice_books
# A tibble: 7,246 x 2
   gutenberg_id text                             
          <int> <chr>                             
1           11 ALICE'S ADVENTURES IN WONDERLAND 
2           11 ""                               
3           11 Lewis Carroll                     
4           11 ""                               
5           11 THE MILLENNIUM FULCRUM EDITION 3.0
6           11 ""                               
7           11 ""                               
8           11 ""                               
9           11 ""                               
10           11 CHAPTER I. Down the Rabbit-Hole   
# ... with 7,236 more rows



Mittels count kann ich die Einträge zählen:

Code: Alles auswählen
alice_books %>% count(text)
# A tibble: 5,283 x 2
   text                           n
   <chr>                      <int>
1 ""                          1904
2 "                1"            1
3 "               ___"           1
4 "               ____"          1
5 "               364"           1
6 "               365"           1
7 "              ----"           1
8 "              and"            1
9 "              THE END"        2
10 "             JABBERWOCKY"     1
# ... with 5,273 more rows


Soweit so gut, nun möchte ich aber die einzelnen Wörter innerhalb von "text" zählen. Wie kann ich diese für den count splitten?

Danke für Eure Hilfe.

Liebe Grüße
Yann

Re: Tibble-Auswertung von "Substrings"

BeitragVerfasst: Fr 4. Jan 2019, 12:15
von tau1234
Hi Yann,

schau mal ob dir das package tidytext weiterhilft. Evtl. könntest du dein Problem so lösen:

Code: Alles auswählen
alice_books %>% select(text) %>% unnest_tokens(word,text) %>% count()


Gruß

Re: Tibble-Auswertung von "Substrings"

BeitragVerfasst: Mi 9. Jan 2019, 06:14
von grawhill
Thanks for your information.