2019-12-26 Biostar Handbook DAY2

“Scientific Fight Club”的Rules:

1.没有“通用”规则。
2.每个看似基本的的paradigm都有一个或多个例外。
3.生物信息学方法的validity取决于数据的unknown characteristic。
4.即使考虑到这些规则,生物学也总是比你想象的要复杂。

5.1开始讲了一些生物信息学需要掌握的基本biology知识(5.1.1-5.1.16)

DNA (Deoxyribo Nucleic Acid)

真核生物位于细胞核,原核生物位于细胞质

核苷酸 nucleotide
例:炭疽杆菌的the forward strand
ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT

碱基对 base pair
共享某些特征的核苷酸组可以用所谓的歧义码(ambiguity codes)来指定:

Y是嘧啶,R是嘌呤,W为弱氢键,S为强氢键,K为酮基,M为氨基,D为非C,V为非T,H为非G,B为非A,N为任何碱基,-为gap

DNA链 forward strand|reverse strand
在某些数据集中也表示为+|-、top|bottom、Watson|Crick (了解即可,尽量使用forward strand|reverse strand)

这些只是label,不涉及DNA本身的性质,具体哪条链为forward,哪条链为reverse是由研究者在初次研究某DNA时决定的,为了交流方便,label不能随意改变。

DNA的方向性
多数biological mechanism发生在上图中的某一条链中,方向为箭头所指的方向
两条链呈“反向互补”(reverse complement)

同义/反义 sense|antisense

“When a process occurs in the expected direction, its directionality may be called sense”

↑翻译不出来,感受一下意思吧↑

注意,sense|antisense和forward strand|reverse strand的概念不相关。前者是相对于sequence的方向而言,而这个sequence既可以来源于forward strand,也可以来源于reverse strand。

DNA 测序
这是一个大的概念,包括所有以鉴定DNA大分子构成为目的的流程。DNA测序会得到未经处理的文件,通常为FASTA、FASTQ、unaligned BAM(uBAM)文件。多数论文会上传测序文件至数据库,以便下载和重复分析。

测序测的是什么
并不是拿到DNA就开始测,而是通过“一系列实验室流程”将原始DNA转换成测序文库(sequencing library),因此测序是间接得知原有DNA分子的部分信息,且建库过程势必会在结果中引入多种limitations和artificial properties。

基因组
有机体的每个体细胞都包含着一套完整的基因组,细胞分裂的过程包括基因组的拷贝

基因组是做什么的
编码信息,实现有机体的功能
包括编码区域(编码蛋白质),非编码区域(产生非蛋白分子、发挥调控作用),同时包含许多“无功能区域”(如一些散在序列,重复序列)
C值矛盾 https://en.wikipedia.org/wiki/C-value#C-value_paradox

基因组大小
朊病毒仅有300个碱基对,日本重楼有1500亿碱基对,常用的度量基因组大小的单位包括kilo-bases(Kb, 千), mega-bases (Mb, 百万), giga-bases (Gb, 十亿)

常见物种基因组大小,人约3Gb

RNA
在细胞内降解很快(分钟级)

基因组如何工作
举个primary mRNA transcription的例子,“简单说来”就是:

细胞将基因转录(transcription)成RNA分子,转录后RNA分子被剪切(splicing),被剪切的部分称为内含子(intron),未被剪切的称为外显子(exon),剪切后得到信使RNA(mRNA)。
细胞通过GT和AG识别内含子(也叫剪切信号,通常出现在内含子的开头和结尾),单有剪切信号不够,35%的人类基因包含可变剪切。

看似简单的解释,随便摘出来一句其实都是深坑,根本没这么简单...这就是生物学的复杂性啊

蛋白
DNA,mRNA包含遗传信息,蛋白则执行功能。生化基础知识已经讲了一堆了

蛋白如何产生
转录、翻译、密码子、起始密码子(编码甲硫氨酸)、终止密码子

什么是开放阅读框 ORF
包括至少100个连续的内含子的序列
尽管有所谓的“standard” translation table,但不同物种采用的编码会有不同,即所谓的genetic codes,可查看https://en.wikipedia.org/wiki/List_of_genetic_codes

什么是基因 gene
Sequence Ontology 给出的gene的定义为:

A region (or regions) that includes all of the sequence elements necessary to encode a functional transcript. A gene may include regulatory regions, transcribed
regions and other functional sequence regions.

这个定义中,基因包含了编码有功能转录本所需的所有元件,包括调控元件,转录元件和其他有功能的序列。

基因组还有其他特点吗

多了去了,列举一些:

  • 非转录区域:
    1、mRNA起始密码子前有一段5'UTR;
    2、mRNA终止密码子后到polyA尾前为3'UTR
  • 启动子区:
    60%的人类基因的启动子区位于CpG岛上。
  • CpG岛:
    5'→3'顺序的CpG组合,C可被甲基化,可调节基因表达,涉及到表观遗传学
    书上给了一个1号染色体一段CpG岛的例子,包括了30个CpG,GC%为77.14%,出于对表观遗传学的兴趣摘录了下来:
efetch -db=nuccore -id=NC_000001.11 -format=fasta -seq_start=36306860 -seq_stop=36307069
  • 增强子
    一个增强子可作用于多个基因,一个基因可以有多个增强子(沉默子同理)
    增强子在DNA strand上和调控的基因可以相隔甚远,但DNA链在细胞中被折叠了
    鉴定增强子可以通过disrupt观察基因表达的增减,也可以通过核小体修饰鉴定。

什么是同源性 homology

Two regions of DNA that evolved from the same sequence (through processes of duplication of genomic regions and separation of two species) are homologous, or homologs of one another.

homologous 同源(包括直系同源orthologous 和旁系同源paralogous )

More specifically, regions in the genomes of two species that are descended from the same area in a common ancestor’s genome are orthologs. These regions are said to be orthologous.

orthologous 直系同源:物种不一样,但都源于基因组上同一区域

On the other hand, paralogous sequences or paralogs were separated by duplication of a genomic region within the same genome.

paralogous 旁系同源:基因源于两个区域,这两个区域是由于基因重复(gene duplication)产生的,与物种无关。


来源:http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html

Homology is not a synonym of sequence similarity!
同源性不等同于序列相似性!
Homologous sequences are usually similar to one another, but similarity of sequences does not indicate homology.
同源序列一般相似,相似序列不一定同源。

主要是preface的chapter5,先到这里吧,已经2点半了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容