-
nchar(x)
:统计字符串长度,x可为向量。
> nchar('123456')
[1] 6
-
substr(x, start, stop)
:字符串截取子集,前闭后闭,x可为向量。
> substr('123456',start = 2,stop = 4)
[1] "234"
-
strsplit(x, split)
:按照split分割x,返回的是一个长度与x相同的list。
> a
[1] "1Naive T cells1=2CD4n T2=3CD4.Naive3=4CD4 Naive4=5CD4_naive5"
[2] "1Activated CD4 T cells1=2CD4m T2=3CD4.EM3=4CD4 TCM4=5Th25"
> strsplit(a,'=')
[[1]]
[1] "1Naive T cells1" "2CD4n T2" "3CD4.Naive3" "4CD4 Naive4" "5CD4_naive5"
[[2]]
[1] "1Activated CD4 T cells1" "2CD4m T2" "3CD4.EM3"
[4] "4CD4 TCM4" "5Th25"
-
sub(pattern, replacement, x)
和gsub()
:替换字符串。 sub()
和gsub()
的不同点在于,sub只替换第一个匹配的字符,而gsub匹配所有的。一般来说,gsub更为常用。
> x <- "dddddddwerxd"
> sub("d","M",x)
[1] "Mddddddwerxd"
> gsub("d","M",x)
[1] "MMMMMMMwerxM"
-
grep(pattern, x)
:查找x中包含pattern的元素所在的位置
grepl(pattern, x)
:判断x是否包含pattern,返回的是逻辑向量
> x <- c("d", "a", "c", "abba")
> grep("a", x)
[1] 2 4
> grepl("a", x)
[1] FALSE TRUE FALSE TRUE
-
agrep(pattern, x, max.distance = 0.1)
和agrepl(pattern, x, max.distance = 0.1)
:模糊匹配
> x <- c("approximately")
> grepl("approximate", x)
[1] TRUE
- 以上所有很多函数都包含一个参数pattern,它通常是一个正则表达式,关于正则表达式的用法,我们放在后面单独讲。
参考
https://www.cnblogs.com/liujiaxin2018/p/14696562.html