clinical.json 数据中注释信息提取

在之前的基础上:TCGA clinical_data.json中临床信息的提取,对之前那的perl脚本进行改进。

#! /usr/bin/perl -w
unless(@ARGV ==2){
 die "usage: perl $0 <clinical.json> <fileout.txt> $!";
}

my($file1,$file2)=@ARGV;

my %hash;
open FILEIN, "$file1" || die "cannot open file : $!";
open FILEOUT, ">$file2" ||die "cannot write file $!";
while(<FILEIN>){
 chomp;
 if(/(\S+)\:\s(.*)\,/){
  if($2 =~ /\"(\S+)(\_diagnosis)\"$/){$hash{"new_id"} .= "\t$1"}
  else{$hash{$1} .="\t$2"};
}
}

close FILEIN;

foreach my $k (sort keys %hash){
print FILEOUT "$k \t $hash{$k}\n";
}
close FILEOUT;

这个是处理之后的脚本,相比之前,清爽了许多

      1 "age_at_diagnosis"              28714   22792   25300   22883   27506   28037   28919   29107   29441   27594   30178   1831
      2 "age_at_index"          78      62      69      62      75      76      79      79      80      75      82      50      72
      3 "ajcc_pathologic_m"             "M0"    "M0"    "M0"    "M0"    "M0"    "M0"    "M0"    "MX"    "M0"    "M0"    "M0"    "M1"
      4 "ajcc_pathologic_n"             "N1"    "N0"    "N0"    "N3a"   "N2"    "N0"    "N0"    "N3"    "N1"    "N0"    "N0"    "N1"
      5 "ajcc_pathologic_stage"                 "Stage IIIA"    "Stage IB"      "Stage II"      "Stage IIIB"    "Stage IIIB"    "Sta
      6 "ajcc_staging_system_edition"           "6th"   "7th"   "7th"   "7th"   "7th"   "7th"   "7th"   "7th"   "6th"   "7th"   "7th
      7 "alcohol_history"               "Not Reported"  "Not Reported"  "Not Reported"  "Not Reported"  "Not Reported"  "Not Reporte
      8 "alcohol_intensity"             null    null    null    null    null    null    null    null    null    null    null    null
      9 "bmi"           null    null    null    null    null    null    null    null    null    null    null    null    null    null
     10 "case_id"               "f72a26e8-7f96-4d86-b37b-7dc35f681133"  "6e03b415-84a1-4b91-8717-1a41edd4a255"  "9ef7582b-d4c1-4036-
     11 "cigarettes_per_day"            null    null    null    null    null    null    null    null    null    null    null    null
     12 "classification_of_tumor"               "not reported"  "not reported"  "not reported"  "not reported"  "not reported"  "not
     13 "created_datetime"              null    "2019-04-28T15:49:21.905058-05:00"      null    null    null    null    null    "201
     14 "days_to_birth"                 -28714  -22792  -25300  -22883  -27506  -28037  -28919  -29107  -29441  -27594  -30178  -183
     15 "days_to_death"                 113     359     661     24      284     476     439     300     52      570     356     300
     16 "days_to_diagnosis"             0       0       0       0       0       0       0       0       0       0       0       0
     17 "days_to_last_follow_up"                null    356     1072    11      838     754     null    null    0       23      694
     18 "days_to_last_known_disease_status"             null    null    null    null    null    null    null    null    null    null
     19 "days_to_recurrence"            null    null    null    null    null    null    null    null    null    null    null    null
     20 "days_to_treatment_end"                 null    null    null    null    null    null    null    null    null    null    null
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 223,207评论 6 521
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 95,455评论 3 400
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 170,031评论 0 366
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 60,334评论 1 300
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 69,322评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,895评论 1 314
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,300评论 3 424
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,264评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,784评论 1 321
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,870评论 3 343
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,989评论 1 354
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,649评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,331评论 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,814评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,940评论 1 275
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,452评论 3 379
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,995评论 2 361

推荐阅读更多精彩内容