hg19基因组碱基计数

这篇文章的生物学意义可能没有,主要是为了练习下perl语言的使用,对下载得到的hg19人类基因组中A,T,C,G碱基分别进行计数统计。实际上我更想直接看基因组的GC含量,不过如果能得到各个碱基的数目,那也可以了。
下载地址:
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
解压后,再将染色体merge到一个hg19.fa文件,然后开始进行vim goodchromGC.pl进行编写:

#/usr/bin/perl -w

#count Nucleic acid in chrosome

@chr;

@sequence;

%chrom;

while(<>){

    chomp;
    
    if(/^>/){
        if($chrom{$chr}){

            @leng = countBases($chrom{$chr});
            print "$chr @leng\n";

                }
        
        $chr =$_;
        
        $sequence ="";
        
        }
    
    else{

        $chrom{$chr}.=$_;
}

    }


#print %chrom;


#print keys %chrom;

@leng = countBases($chrom{$chr});

print "$chr @leng\n";





sub countBases{

my($dna)=@_;

my $a=0;

my $t=0;

my $c=0;

my $g=0;

my $e=0;

while($dna=~ /a/ig){$a++}

while($dna=~ /t/ig){$t++}

while($dna=~ /c/ig){$c++}

while($dna=~ /g/ig){$g++}

while($dna=~ /[^actg]/ig){$e++}


my(@result)="$a $t $c $g $e";

return @result;

}

计算hg19.fa 中碱基数目

 time cat hg19.fa|sed -n '/>chrM/,/\<>chrUn_g1000211\>/p'|perl ../temp/goodchromGC.pl >partM.txt

因为我用的腾讯云服务器(1核1G),所以一下子运行不起来全部基因组,就采用sed,分段对hg19.fa基因组进行统计,然后进行merge,比较麻烦。如果服务器性能好,那可以直接这样

time cat hg19.fa|perl ../temp/goodchromGC.pl >result.txt

得到的结果大概是这个样子(依次是A,T,C,G,N)

      1 >chrX 45648952 45772424 29813353 29865831 4170000
      2 >chrY 7667625 7733482 5099171 5153288 33720000
      3 >chr10 38330752 38376915 27308648 27298423 4220009
      4 >chr11 38307244 38317436 27236798 27268038 3877000
      5 >chr11_gl000202_random 9226 8978 11254 10645 0
      6 >chr12 0 0 0 0 0
      7 >chr12 38604831 38624517 26634995 26617050 3370502
      8 >chr13 29336945 29425459 18412698 18414776 19580000
      9 >chr14 25992966 26197495 18027132 18071947 19060000
     10 >chr15 0 0 0 0 0
     11 >chr15 23620876 23597921 17247582 17228387 20836626
     12 >chr16 21724083 21828642 17630040 17701988 11470000
     13 >chr17_ctg5_hap1 429214 432922 355909 362783 100000
     14 >chr17 21159933 21206981 17727956 17700340 3400000
     15 >chr17_gl000203_random 12564 12452 6074 6408 0
     16 >chr17_gl000204_random 19702 17322 22701 21585 0

将结果导出到本地,就可以进行下一步分析


人类染色体中各碱基的占比.png

各个染色体ATCG以及N碱基的占比

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353