R语言 矩阵批量替换

杀杀

最近学了几个矩阵批量替换的阳间方法,拒绝for循环!

应用:数据格式的标准化

我们在处理临床随访文件时,医生们通常会这样记录:
但是我们如果要进行生存分析或者风险分析或者其它一系列的训练-验证处理,都需要对数据进行一个标准化,把这些不统一的字符统一成计算机能够识别/区分的字符,比如0/1,或者连续型的数值。这时候我们需要批量替换。

以前我做的时候会用excel,或者在R中一列一列地进行替换,使用which之类的函数。
但是当我们需要批量替换的时候,可以使用更方便的方法:

Replace

首先是do包中的Replace函数
我想要把我数据中所有的"Primary","Female","Wildtype","Non-codel","un-methylated"都统一换成0,表示一种野生型/对照的状态
另外,数据中所有的"Recurrent","Secondary","Male","Mutant","Codel","methylated"都统一换成1,表示一种突变型的状态

library(do)
CGGA_325_clinical1 <- Replace(data=CGGA_325_clinical,from = c("Primary","Female","Wildtype","Non-codel","un-methylated"),to = 0)
CGGA_325_clinical2 <- Replace(data=CGGA_325_clinical1,from = c("Recurrent","Secondary","Male","Mutant","Codel","methylated"),to = 1)

注意替换的时候可以把原矩阵赋值给新的一个对象,以免覆盖错误导致原始信息丢失。另外最好是留下最初的矩阵,以便进行检查。

另外,需要特别注意!

Replace这个函数针对的是字符串对象,也就是说它识别的是字符串而不是矩阵或者list,这导致了重复识别的可能。比如我们有两个值‘A’,和‘NA’,这两个本身代表的是完全不同的意义,如果你先将A替换为1,然后想将NA替换为0,在代码运行时,函数会将NA里的A也替换成1,这样你的所有NA会变成N1,这样会导致后面的操作无法进行。

因此我们需要进行类似excel中“单元格匹配“的操作,也就是只有当我的字符完全匹配的时候才进行替换,我们可以使用正则表达式进行,就是在字符前后加上^和$

test_data1 <- Replace(data=test_data,from = c("^\\(-)$","^F$","^wt$","^no loss$","^Un-Met$"),to = 0)

注意举例里的"^\(-)",其实我想替换的是(-),而不是\\(-),之所以加上\\是因为括号()也是正则表达式,因此我们需要加上\\去避免系统识别其为正则表达式。 因此当我们替换(+)这个符号时,需要写的式子是"^\\(\\+)",因为括号和加号都是正则表达式,都需要加上\避免系统错误识别。
类似的大家可以举一反三地写代码。

还有更重要的是!

在使用这个函数进行批量替换过后,它会自动把矩阵全部变成字符型(所以如果你需要在这个矩阵中进行加减乘除的操作请在批量替换前做):

这时候直接as.numeric强制转换成数值型,会导致我想保留的字符(比如3,4列)变成NA,把刚刚转成01的再一列列换回数值型也太无聊了,所以我一般会这么做

write.csv(test_data3,"japan_test_temp.csv",row.names = F,quote = F)
test_data3_deal <- read.csv("test_data3_temp.csv",header = T)

把数据写出去,quote=F,再读进来。其实这个方法是有好处的,首先,当你下次想使用这个数据的时候,你就不用从头处理了,只需要读入你这次写出的数据,其次将数据写出也有利于溯源。

马上变成你想要的样子~

mutate

另外一种需求是,比如说我有一列代表等级,原始的等级用希腊数字I, II, III, IV表示,我需要分别替换成1,2,3,4 这时候需要用到另一个函数mutate

library(tidyverse)
CGGA_325_clinical3 <- CGGA_325_clinical2%>%
            mutate(grade=recode(grade,"WHO I"="1","WHO II"="2","WHO III"="3","WHO IV"="4"))%>% 
                                    mutate(grade=as.numeric(grade))

我们这边使用管道操作,把四个需要替换的字符换成数值。

祝大家天天开心~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容