stringr包字符串处理

这是stringr包中常用的字符串处理函数,字符串处理好了,简直是利器在手。

str_length获得字符串长度
> b<-c('abc','456','aini')
> str_length(b)
[1] 3 3 4
> length(b)
[1] 3
str_sub截断字符串

使用sub_str()访问单个字符。它有三个参数:字符向量、起始位置和结束位置。任何一个位置都可以是一个正整数,从长度计算,或者是一个负整数,从右边计算。

x <- c("abcdef", "ghifjk")
str_sub(x, 3, 3)
#> [1] "c" "i"
str_sub(x, 2, -2)
#> [1] "bcde" "hifj"
str_sub可以修改字符
str_sub(x, 3, 3) <- "X"
x
#> [1] "abXdef" "ghXfjk"
str_pad通过增加空格来将字符串长度在某一长度
x <- c("abc", "defghi")
str_pad(x, 10)
#> [1] "       abc" "    defghi"
str_pad(x, 10, "both")
#> [1] "   abc    " "  defghi  "
#str_pad不会将字符长度缩短
str_pad(x, 4)
#> [1] " abc"   "defghi"
x <- c("Short", "This is a long string")
x %>% 
  str_trunc(10) %>% 
  str_pad(10, "right")
#> [1] "Short     " "This is..."
str_trim与str_pad相反,删除空格
x <- c("  a   ", "b   ",  "   c")
str_trim(x)
#> [1] "a" "b" "c"
str_trim(x, "left")
#> [1] "a   " "b   " "c"
str_wrap包装一段文字,使每一行的长度尽可能相似。
jabberwocky <- str_c(
  "`Twas brillig, and the slithy toves ",
  "did gyre and gimble in the wabe: ",
  "All mimsy were the borogoves, ",
  "and the mome raths outgrabe. "
)
cat(str_wrap(jabberwocky, width = 40))
#> `Twas brillig, and the slithy toves did
#> gyre and gimble in the wabe: All mimsy
#> were the borogoves, and the mome raths
#> outgrabe.
str_to_upper、str_to_lower大小写和str_to_title首字母
x <- "I like horses."
str_to_upper(x)
#> [1] "I LIKE HORSES."
str_to_title(x)
#> [1] "I Like Horses."

str_to_lower(x)
#> [1] "i like horses."
# Turkish has two sorts of i: with and without the dot
str_to_lower(x, "tr")
#> [1] "ı like horses."
str_order()和str_sort()对字符向量排序

str_orderstr_sort的区别在于前者返回排序后的索引(下标),后者返回排序后的实际值

x <- c("y", "i", "k")
str_order(x)
#> [1] 2 3 1
str_sort(x)
#> [1] "i" "k" "y"
# In Lithuanian, y comes between i and k
str_sort(x, locale = "lt")
#> [1] "i" "y" "k"
str_detect()str_subset()检测字符串中是否存在某种匹配模

str_detect()检测模式的存在与否,并返回逻辑向量(类似于grepl())。str_子集()返回与正则表达式(类似于grep()value = TRUE)匹配的字符向量的元素)。

fruit <- c("apple", "banana", "pear", "pinapple")
str_detect(fruit, "a")
[1] TRUE TRUE TRUE TRUE
str_detect(fruit, "^a")
[1]  TRUE FALSE FALSE FALSE
str_detect("aecfg", letters)
[1]  TRUE FALSE  TRUE FALSE  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE
[12] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE
> str_subset(fruit, "a")
[1] "apple"    "banana"   "pear"     "pinapple"
> str_subset(fruit, "a$")
[1] "banana"
str_count计算匹配数
fruit <- c("apple", "banana", "pear", "pineapple")
str_count(fruit, "a")
## [1] 1 3 1 1
str_count(fruit, "p")
## [1] 2 0 1 3
str_count(fruit, c("a", "b", "p", "p"))
## [1] 1 1 1 3
str_locate和str_locate_all()定位

str_locate()定位模式的第一个位置,并返回一个包含列startend的数字矩阵。str_locate_all()查找所有匹配项,返回一个数字矩阵列表。类似于regexpr()gregexpr()

> x <- c("abcdef", "ghifjk")
> str_locate(x, "def")
     start end
[1,]     4   6
[2,]    NA  NA
> str_locate(x, "fjk")
     start end
[1,]    NA  NA
[2,]     4   6
str_locate_all(c("abcdefabc", "ghifjkabc"), "abc")
[[1]]
start end
[1,]     1   3
[2,]     7   9

[[2]]
start end
[1,]     7   9
str_extract和str_extract_all提取匹配字符串

str_extract()提取与第一个匹配项对应的文本,返回一个字符向量。str_extract_all()提取所有匹配项并返回字符向量列表。

shopping_list <- c("apples x4", "bag of flour", "bag of sugar", "milk x2")
str_extract(shopping_list, "\\d")
 ## [1] "4" NA  NA  "2"
 str_extract(shopping_list, "[a-z]+")
## [1] "apples" "bag"    "bag"    "milk"
str_extract(shopping_list, "[a-z]{1,4}")
## [1] "appl" "bag"  "bag"  "milk"
str_extract(shopping_list, "\\b[a-z]{1,4}\\b")
## [1] NA     "bag"  "bag"  "milk"
> str_extract_all(shopping_list, "[a-z]+")
[[1]]
[1] "apples" "x"     

[[2]]
[1] "bag"   "of"    "flour"

[[3]]
[1] "bag"   "of"    "sugar"

[[4]]r
[1] "milk" "x"
str_replace和str_replace_all字符串替换

str_replace()替换第一个匹配的模式并返回一个字符向量。str_replace_all()替换所有匹配项。类似于sub()gsub()

> string<-str_replace('1989.03.24','\\.','-')
> string
[1] "1989-03.24"
> string<-str_replace_all('1989.03.24','\\.','-')
> string
[1] "1989-03-24"
str_split和str_split_fixed字符串分割

str_split_fixed()根据模式将字符串分割成固定数量的片段,并返回一个字符矩阵。str_split()将字符串分割成可变数量的片段,并返回一个字符向量列表。

str_split("a-b-c", "-")
#> [[1]]
#> [1] "a" "b" "c"
str_split_fixed("a-b-c", "-", n = 2)
#>      [,1] [,2] 
#> [1,] "a"  "b-c"
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容