options(encoding="UTF-8")
library(tidyverse)
#> ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
#> ✔ ggplot2 3.3.6 ✔ purrr 0.3.4
#> ✔ tibble 3.1.7 ✔ dplyr 1.0.9
#> ✔ tidyr 1.2.0 ✔ stringr 1.4.0
#> ✔ readr 2.1.2 ✔ forcats 0.5.1
#> ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
#> ✖ dplyr::filter() masks stats::filter()
#> ✖ dplyr::lag() masks stats::lag()
library(moranajp)
<- "d:/pf/mecab/bin/" # input your environment
bin_dir library(tidyverse)
data(neko)
<-
neko %>%
neko ::mutate(text = stringi::stri_unescape_unicode(text)) %>%
dplyr::mutate(cols = 1:nrow(.))
dplyrhead(neko)
#> # A tibble: 6 × 2
#> text cols
#> <chr> <int>
#> 1 吾輩は猫である。名前はまだ無い。 1
#> 2 どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニ… 2
#> 3 この書生の掌の裏でしばらくはよい心持に坐っておったが、しばらくすると非… 3
#> 4 ふと気が付いて見ると書生はいない。たくさんおった兄弟が一疋も見えぬ。肝… 4
#> 5 ようやくの思いで笹原を這い出すと向うに大きな池がある。吾輩は池の前に坐… 5
#> 6 吾輩の主人は滅多に吾輩と顔を合せる事がない。職業は教師だそうだ。学校か… 6
<-
n_match list.files(bin_dir) %>%
::str_count("mecab") %>%
stringrsum()
if(n_match > 0){
moranajp_all(neko, text_col = "text", bin_dir = bin_dir, iconv = "CP932_UTF-8") %>%
print(n=100)
}#> # A tibble: 587 × 12
#> text_id cols 表層形 品詞 品詞細分類1 品詞細分類2 品詞細分類3 活用型 活用形
#> <dbl> <int> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 2 1 1 縺九 名詞 一般 * * * *
#> 3 1 1 ↑ 記号 一般 * * * *
#> 4 1 1 縺 名詞 固有名詞 組織 * * *
#> 5 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 6 1 1 蠖謎 名詞 固有名詞 組織 * * *
#> 7 1 1 ココ 名詞 一般 * * * *
#> 8 1 1 繧 名詞 一般 * * * *
#> 9 1 1 ゅ 名詞 一般 * * * *
#> 10 1 1 ≠ 名詞 サ変接続 * * * *
#> 11 1 1 縺 名詞 一般 * * * *
#> 12 1 1 セ 名詞 一般 * * * *
#> 13 1 1 繧顔 名詞 一般 * * * *
#> 14 1 1 曝縺 名詞 一般 * * * *
#> 15 1 1 上 名詞 接尾 副詞可能 * * *
#> 16 1 1 ↑ 記号 一般 * * * *
#> 17 1 1 縺 名詞 固有名詞 組織 * * *
#> 18 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 19 1 1 → 記号 一般 * * * *
#> 20 1 1 諤昴 名詞 固有名詞 組織 * * *
#> 21 1 1 ▲ 記号 一般 * * * *
#> 22 1 1 縺溘 名詞 固有名詞 組織 * * *
#> 23 1 1 b 記号 アルファベ… * * * *
#> 24 1 1 縺 名詞 一般 * * * *
#> 25 1 1 ョ 名詞 一般 * * * *
#> 26 1 1 縺九 名詞 一般 * * * *
#> 27 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 28 1 1 縺 名詞 固有名詞 組織 * * *
#> 29 1 1 ゅ 名詞 一般 * * * *
#> 30 1 1 k 記号 アルファベ… * * * *
#> 31 1 1 譌 名詞 一般 * * * *
#> 32 1 1 ・ 名詞 サ変接続 * * * *
#> 33 1 1 縺昴 名詞 一般 * * * *
#> 34 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 35 1 1 蜿倶 名詞 固有名詞 組織 * * *
#> 36 1 1 ココ 名詞 一般 * * * *
#> 37 1 1 縺 名詞 一般 * * * *
#> 38 1 1 ァ 名詞 一般 * * * *
#> 39 1 1 鄒主 名詞 一般 * * * *
#> 40 1 1 ュヲ 名詞 一般 * * * *
#> 41 1 1 縺 名詞 一般 * * * *
#> 42 1 1 ィ 名詞 一般 * * * *
#> 43 1 1 縺九 名詞 一般 * * * *
#> 44 1 1 r 記号 アルファベ… * * * *
#> 45 1 1 繧 名詞 一般 * * * *
#> 46 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 47 1 1 ▲ 記号 一般 * * * *
#> 48 1 1 縺 名詞 固有名詞 組織 * * *
#> 49 1 1 ヲ 名詞 一般 * * * *
#> 50 1 1 縺 名詞 一般 * * * *
#> 51 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 52 1 1 k 記号 アルファベ… * * * *
#> 53 1 1 莠 名詞 一般 * * * *
#> 54 1 1 コ 名詞 一般 * * * *
#> 55 1 1 縺 名詞 一般 * * * *
#> 56 1 1 梧擂 名詞 一般 * * * *
#> 57 1 1 縺滓 名詞 一般 * * * *
#> 58 1 1 凾縺 名詞 一般 * * * *
#> 59 1 1 ォ 名詞 一般 * * * *
#> 60 1 1 荳九 名詞 一般 * * * *
#> 61 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 62 1 1 繧医 名詞 一般 * * * *
#> 63 1 1 ≧ 名詞 サ変接続 * * * *
#> 64 1 1 縺 名詞 一般 * * * *
#> 65 1 1 ェ 名詞 一般 * * * *
#> 66 1 1 隧 名詞 一般 * * * *
#> 67 1 1 ア 名詞 一般 * * * *
#> 68 1 1 繧偵 名詞 一般 * * * *
#> 69 1 1 @ 記号 一般 * * * *
#> 70 1 1 縺 名詞 固有名詞 組織 * * *
#> 71 1 1 ヲ 名詞 一般 * * * *
#> 72 1 1 縺 名詞 一般 * * * *
#> 73 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 74 1 1 k 記号 アルファベ… * * * *
#> 75 1 1 縺 名詞 一般 * * * *
#> 76 1 1 ョ 名詞 一般 * * * *
#> 77 1 1 繧定 名詞 一般 * * * *
#> 78 1 1 ◇ 記号 一般 * * * *
#> 79 1 1 縺 名詞 固有名詞 組織 * * *
#> 80 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 81 1 1 ◆ 記号 一般 * * * *
#> 82 1 1 縲 名詞 固有名詞 組織 * * *
#> 83 1 1 ゅ 名詞 一般 * * * *
#> 84 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 85 1 1 縺 名詞 固有名詞 組織 * * *
#> 86 1 1 ゥ 名詞 一般 * * * *
#> 87 1 1 縺 名詞 一般 * * * *
#> 88 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 89 1 1 b 記号 アルファベ… * * * *
#> 90 1 1 逕倥 名詞 一般 * * * *
#> 91 1 1 ¥ 記号 一般 * * * *
#> 92 1 1 縺九 名詞 一般 * * * *
#> 93 1 1 ¢ 名詞 サ変接続 * * * *
#> 94 1 1 縺 名詞 一般 * * * *
#> 95 1 1 ェ 名詞 一般 * * * *
#> 96 1 1 縺 名詞 一般 * * * *
#> 97 1 1 <NA> <NA> <NA> <NA> <NA> <NA> <NA>
#> 98 1 1 b 記号 アルファベ… * * * *
#> 99 1 1 縺 名詞 一般 * * * *
#> 100 1 1 ョ 名詞 一般 * * * *
#> # … with 487 more rows, and 3 more variables: 原形 <chr>, 読み <chr>,
#> # 発音 <chr>