Heavy Watal

stringr — Rの文字列をまともな方法で処理する

R標準のbaseパッケージが提供する関数でも文字列処理は可能だが、 stringrのほうが統一的なインターフェイスに合理的な挙動で使いやすい。

今や stringrstringi のラッパーだし、 どちらもほぼ同じインターフェイスなので、 もし前者に不足があれば後者を直接使えばよいが、 普通に使う分にはそんな場面には出くわさない。 むしろ、機能がある程度絞られているほうが取っ付き易いし、 str_* のほうが stri_* よりも1文字短いので、 基本的には stringr を使っとけばよい。

tidyverse に含まれているので、 install.packages("tidyverse") で一括インストール、 library(tidyverse) で一括ロード。

Functions

Basic Operation

str_length(string)
文字列の長さを数える。 base::nchar(x) と相同だが、NA に対して 2 ではなく NA を返す。
str_sub(string, start = 1, end = -1)
文字列を部分的に参照・変更する。 base::substr() と相同だが、負数で末尾からの位置を指定できる。 str_sub<- が定義されているので置換にも使える。
str_flatten(string, collapse = "")
文字列vectorを1つの文字列に結合する。
str_c(..., sep = "", collapse = NULL)
複数の引数で与えた文字列を結合する。 デフォルトの sep がスペースじゃないので base::paste0() に近い。
str_split(string, pattern, n = Inf, simplify = FALSE)
文字列を分割してlistを返す base::strsplit(x, split) の改良版。 stringpattern の要素数が噛み合わないときにちゃんと警告が出る。 最大 n 個に分割するということを指定できる。 simplify = TRUE とするとmatrixで返す。
str_split_fixed(string, pattern, n)simplify = TRUE 固定で有限 n 列のmatrixを返すショートカット。
str_dup(string, times)
指定した回数だけ文字列を繰り返して結合。 str_dup("#", 79) とかで結果出力に区切りを入れたり。

Pattern Matching

str_count(string, pattern)
マッチする箇所の数を返す。
str_detect(string, pattern, negate = FALSE)
マッチするかどうか logical を返す。 nagate = TRUE で結果を反転。 base::grepl(pattern, x) と相同。
正規表現を覚えてなくても始まりと終わりだけ手軽にマッチできる str_starts(), str_ends() もある。
str_extract(string, pattern), str_extract_all(string, pattern)
マッチした部分文字列を取り出す。しなかった要素には NA
数値+単位のような文字列から数値部分だけを抜き出すには readr::parse_number() が便利。
str_subset(string, pattern, negate = FALSE)
x[str_detect(x, pattern)] のショートカット。 マッチする要素だけ元の形で返すので str_extract() より base::grep(pattern, x, value = TRUE) に近い。
str_which(string, pattern, negate = FALSE)
マッチする要素のインデックスを整数で返す which(str_detect(x, pattern)) のショートカット。 base::grep(pattern, x) と相同。
str_locate(string, pattern)
マッチする最初の箇所の start, end 位置を行列で返す。
str_match(string, pattern), str_match_all(string, pattern)
マッチした部分文字列を取り出し、後方参照を含む行列を返す。 str_extract(string, pattern) と同じ結果全体 \0 が1列目で、 カッコでマッチさせた \1 以降の結果が2列目以降に入る。
str_replace(string, pattern, replacement)
マッチしなかった部分をそのままに、マッチした部分を置換する。 base::sub(pattern, replacement, x) と相同。 base::gsub() のように全てのマッチを置換するには str_replace_all()str_remove() はマッチした部分を消すためのショートカット。

上記関数のpattern引数は普通に文字列を渡すと正規表現として解釈してくれるが、 下記の関数を通して渡すことでその挙動を変更することができる。

stringr::regex(pattern, ignore_case = FALSE, multiline = FALSE, comments = FALSE, dotall = FALSE, ...)
デフォルトのICU正規表現。 複数行ファイルに対するマッチではこの関数を通して挙動をいじることになる。
stringr::fixed(pattern)
正規表現ではなくそのままの文字としてマッチさせる
stringr::boundary(type = "character", skip_word_none = NA, ...)
境界に対するマッチ。 typeの選択肢は character, line_break, sentence, word.
stringr::coll(pattern, ignore_case = FALSE, locale = NULL, ...)
よくわからないけど非ascii対策?

Formatting

str_to_upper(), str_to_lower(), str_to_title(), str_to_sentence()
大文字・小文字の変換
str_interp(string, env = parent.frame())
sprintf() と相同。 文字列の中の $[format]{expr} がR表現として評価される。 [format]部分はsprintf()と同じ形式で、省略可。 env はlistやdata.frameでもよい。
e.g., stringr::str_interp("Mean carat is $[.3f]{mean(carat)}.", diamonds)
str_glue(..., .sep = "", .envir = parent.frame())
library(glue) しなくても使えるように。
str_pad(string, width, side = c("left", "right", "both"), pad = " ")
文字列の幅を width に伸ばして side 側を pad で埋める。 例えば "009" "010" のように数字の左を0で埋めて長さを揃えるのにも使える: str_pad(c("9", "10"), 3L, "0")
str_trim(string, side = "both")
空白文字を除去する。 Python でいうところの str.strip()。 両端から空白文字を除去して、連続する空白文字を1つに縮める str_squish() もある。
str_trunc(string, width, side = c("right", "left", "center"), ellipsis = "...")
一定の長さを超えたら捨てて ... にする。
str_wrap(string, width = 80, indent = 0, exdent = 0)
指定した幅で折り返す。 indent は先頭行の左余白。 exdent はそれ以外の行の左余白。

文字列と数値の型変換はstringrの管轄外なので、標準の as.character()as.double() などを使うか、 readr::parse_*()系の関数 を使う。

Rの文字列と正規表現

ダブルクォーテーションで挟んで作る。 文字列の中に " を含む場合はシングルクォーテーションで挟む。

s = "This is a string."
s = 'This is a string with "double quotes".'

エスケープシーケンス

バックスラッシュを使って改行 \n やタブ \t などの制御文字を表現できる。 バックスラッシュ自体を表すためには \\ のように重ねる必要がある。

string = "x\ty\n0\t1\n"
print(string)
# [1] "x\ty\n0\t1\n"
cat(string)
# x       y
# 0       1
readr::read_tsv(string)
#       x     y
#   <dbl> <dbl>
# 1     0     1

See ?Quotes

正規表現

ICU正規表現からよく使うやつを抜粋。

メタ文字 意味
\d 数字
\s 空白
\w 英数字
. 何でも
^ 行頭
$ 行末

\D, \S, \W のように大文字にすると反転してそれ以外にマッチ。

演算子 意味
? 0回か1回
* 0回以上繰り返し
+ 1回以上繰り返し
{n,m} n回以上m回以下
XXX(?=YYY) YYYに先立つXXX
(?<=YYY)XXX YYYに続くXXX

生文字列

数字にマッチする正規表現を書こうとして pattern = "\d" とすると怒られる。 先述のようにバックスラッシュそのものを表すには二重にしておく必要があるため。

"\d"
# Error: '\d' is an unrecognized escape in character string starting ""\d"

"\\d"
# Good.

エスケープシーケンスを無効にした生文字列(raw string)を用いることでバックスラッシュを重ねずに済む。 PythonやC++などでは前からあったけどRでもようやく4.0.0 から使えるようになった。

pattern = "\\d"
pattern = r"(\d)"
pattern = R"(\d)"
pattern = r"---(\d)---"
pattern = r"---[\d]---"
pattern = r"---{\d}---"
stringr::str_count("1q2w3e4r", pattern)

関連書籍