【数据库-1】1000 Genome Project 数据库

欢迎关注公众号:oddxix

一、简介


1000 Genomes Project(缩写为1KGP)于2008年1月启动,是一项国际研究工作,旨在建立迄今为止最详细的人类遗传变异目录。科学家计划在接下来的三年内使用新开发的技术对来自不同种族群体的至少一千名匿名参与者的基因组进行测序,这些技术更快,更便宜。 2010年,该项目完成了试验阶段,在“自然”杂志的一篇出版物中对此进行了详细描述。2012年,1092个基因组的测序在Nature出版物中公布。 2015年,“自然”杂志上的两篇论文报告了结果,项目的完成以及未来研究的机会。确定了许多罕见的变异,仅限于密切相关的群体,并分析了8个结构变异类别。

该项目将来自世界各地研究所的多学科研究团队联合起来,包括中国,意大利,日本,肯尼亚,尼日利亚,秘鲁,英国和美国。每一个都将为庞大的序列数据集和精细的人类基因组图谱做出贡献,这些图谱将通过公共数据库免费提供给科学界和公众。

1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。

1000个基因组项目的人口样本的位置,每个圆圈代表最终版本中的序列数
基因数量和顺序的变化(A-D)在群体内和群体之间产生遗传多样性

人类基因组由大约30亿个DNA碱基对组成,估计携带约20,000个蛋白质编码基因。在设计研究时,该联盟需要解决有关项目指标的若干关键问题,如技术挑战,数据质量标准和序列覆盖。

整个项目划分为四个阶段,试点阶段和三个主要阶段。

(1)为了确定整个项目的最终设计,设计了三个试点研究,并将在项目的第一年内进行:

  • 第一个试点旨在对低覆盖率(2x)的3个主要地理群体的180个人进行基因分型。

  • 第二项初步研究,两个核心家族(父母和成年子女)的基因组将进行深度覆盖(每个基因组20倍)的测序。

  • 第三项试点研究涉及对1000名深度覆盖(20x)的1000个基因的编码区(外显子)进行测序。

(2)主要阶段中只有第一阶段和第三阶段产生了数据,每个阶段数据的详细情况如下图所示

image

主要阶段包括三个项目:

来自4个群体的180个个体的低覆盖度全基因组测序
2个三人组(母亲 - 孩子)的高覆盖率排序
来自7个群体的697个个体的外显子靶向测序

结果发现,平均而言,每个人在注释基因中携带约250-300个功能丧失变体,并且先前涉及遗传性疾病的50-100个变体。

整个项目从2008年开始到2013年结束,最终的版本为2013年5月2日发布的数据, 包含了来自26个人群,共2504个样本的SNP分型结果。根据Fort Lauderdale principles原则,所有基因组序列数据(包括变体调用)随着项目的进展免费提供,1000G的数据是免费公开的,可以通过ftp下载得到。


二、Human genome samples

1000 Genomes项目遵循广泛的道德程序,然后将使用志愿捐赠者的样本。研究中将包括以下人群:尼日利亚伊巴丹(YRI)的约鲁巴人;日本人在东京(JPT);中国人在北京(CHB);来自北欧和西欧的犹他州居民(CEU); Luhya在肯尼亚Webuye(LWK);肯尼亚Kinyawa的马赛(MKK);意大利托斯卡尼(TSI);秘鲁利马的秘鲁人(PEL);休斯顿的古吉拉特印第安人(GIH);中国人在大都会丹佛(CHD);洛杉矶墨西哥人(MXL);和美国西南部的非洲血统人士(ASW)。

image

三、FTP下载

FTP 结构(README.ftp_structure) 千人基因组计划有两个主要的 ftp 站点镜像: ftp://ftp.1000genomes.ebi.ac.uk
ftp://ftp-trace.ncbi.nih.gov/1000genomes/

image
image

1.在顶层有 6 个目录, 分别是 data、 release、 sequence_indices、 alignment_indices、 technical 和 changelog_details。还有一个 pilot_data 目录,它包含来自初步研究 (pilot study)的数据,以及Index files。

  • 1.data:data 目录包含主要工程的每个个体的子目录, 每个单独的子目录也包含一系列 的子目录--包含不同的数据集,例如 sequence reads 和 sequence alignments 等。 individual id 或 coriell sample names /technical/working/20140502_ sample_ summary_ info/以及/technical/working/20130606_ sample_ info/中有 individual id 与 population 对应的信息。

  • 2.release:包含日期命名的目录, 这些目录又包含发布于那个日期的分析结果集,并且也 包含 readme 用于解释这些数据集是怎么产生的。release 目 录 以 后 ( 此 readme 文 件 创 建 日 期 为 20110404 ) 将 基 于 YYYYMMDD.sequence.index(这一文件保存在 ftp/sequence_indices/目录下)中 的日期格式进行命名。在这些 YYYYMMDD 目录中的 SNP 和 indel calls 等是基 于 YYYYMMDD.sequence.index 文件所列出的数据比对产生的。 例如:目录 ftp/release/20100804/中包含的 SNP 和 indels calls 的发布版本是基于 ftp/sequence_indices/20100804.sequence.index 文件产生的。

  • 3.technical:这一目录包含许多的子目录--包含诸如模拟产生的数据集或方法开发产生的interm 数据集文件等。 注意:technical/working 目录--这一目录包含的数据有 experimental status(未公 开发表) ,适合内部项目使用。请小心使用。

  • 4.sequence_indices:这个目录包含所有先前产生的 sequence.index 文件。 每个文件以 YYYYMMDD 开头,表明了它的发布日期。出现在主要项目 bam 文件名字中日期将这些 bam 文件连接到了相应的序列,因为 sequence.index 文件名中包含相同的日期。 最近的文件也应该与 ftp/sequence.index 文件相匹配。 例子:NA10851.unmapped.ILLUMINA.bwa.CEU.low_coverage.20101123.bam 文 件被创建是使用了 ftp/sequence_indices/20101123.sequence.index 文件中列出的 NA12878 low_coverage sequence 文件,每个 sequence.index 文件都伴随着两种类型的统计文件(stats.cvs 和 .stats),每个 YYYMMDD_sequence.index.stats 文件包含 summary 信息--关于序列数据 的 Study/Population/Center/Sample coverage 统计量。

.stats 文 件 名 中 包 含 测 序 策 略 名 称 (exome,low_coverage) , 这 些 名 称 包 含 summary 信息的一个子集(只与 exome/low_coverage 信息有关) ,而 summary 信 息包含在 YYYMMDD_sequence.index.stats 中。 例如: 20101123.sequence.index.exome.stats 20101123.sequence.index.low_coverage.stats .cvs 统 计 文 件 给 出 了 来 自 sequence.index 文 件 的 Population, Center 和 Sequencing platform 发生的增量变化。 例如:文件 20101101_ 20101123.exome_ stats.csv 20101101_ 20101123.low_ coverage_stats.csv 给出了 2010110.sequence.index 文件和 20101123.sequence.index 文件中列出数据的摘要信息差异。

  • 5.alignment_indices:这 个 目 录 包 含 所 有 先 前 产 生 的 alignment.index 文 件 , 每 个 文 件 开 头 的 YYYMYDD 表明所基于的 sequence.index 文件的比对。 最近的文件也应该与 ftp/sequence.index 文件相匹配。 你可能也会发现 stats 文件,例如 20101123.alignment.index.bas.gz These contain all the .bas files for the bam files in the release concatenated into a single file. 也有 stats 文件,如 20101123_ 20100901.alignment_ stats.low_ coverage.csv,这种类型的 文件包含与 sequence_ indices 目录中的 stats 文件类似的信息。

  • 6.changelog_details:为了保证主要的 root-level CHANGELOG 可读性和滚动性,任何 ftp 站点内容 的改变会被总结在此目录中。这些文件的命名可反映了 when 和 what 改变发生 了,例如'new', 'moved', 'replacement' or 'withdrawn'。 例子: changelog_details_ 20110216_ new changelog_ details20110216replacement changelog_ details_ 20110216_ withdrawn changelog_ details_ 20110216_ moved。

  • 7.pilot_data:这代表一个冻结版本的 pilot 数据。 它包含了与主要 ftp 目录具有相同目录形式 大部分的目录。

  • 8.The analysis group of the sequence, this reflects sequencing strategy - sequence.index 文件的发布日期包含序列文件的列表用于构建 alignment 文件。 (对于 ftp/pilot_data 中的 alignment 文件 SLX for illumina, 454 for 454 and SOLID for SOLiD。 The SRP is the study identifier, 31 is pilot1 low coverage, 32 is pilot2 high coverage, 33 is pilot3 gene targetted sequencing。 ) 如果文件名包含“ unmapped ” , bam 代表与个体相关的 reads 没有 map the reference. 每个 bam 文件都伴随一个 index 文件(.bai)和一个统计文件(.bas)可以查看 ftp/README.alignment_data 文件中找到关于.bas 文件的描述。 所有比对都与 the reference(ftp/technical/reference/)进行了比较。 pilot/data alignments are against the NCBI Build 36 reference. Main project alignments are against the GRCh37 reference.

  • 文件名以来自 Corelli/Hapmap 的 sample 名开始。
  • 如果比对过程已经利用染色体 split,那么文件命中会包含染色体名。
  • 测序技术为 next, ILLUMINA for illumina, LS454 for 454 and SOLID for SOLiD。
  • the aligner used 名字缩写(bwa, bfast 等)。
  • population 缩写为三个字符。
  • Index files:千人基因组产生的数据量是前所未有的。 为确保所有数据都能易于定位到最近 更 新 的 序 列 和 比 对 文 件 , 因 此 有 了 index files 。 ftp/sequence.index 文 件 和 ftp/alignment.index 文件。 这 些 文 件 的 格 式 说 明 在 : ftp/README.sequence.index 文 件 和 ftp/README.alignment.index 文件中。 这些 index files 应该可以为你提供足够的信息下载文件 subsets(基于 study, individual or technology)。它们也包含文件的 md5s。 主要项目的比对文件名中也包含相似的信息: data/NA12878/alignment/NA12878.chromY.SOLID.bfast.CEU.high_coverage.20100 125.bam data/NA12878/alignment/NA12878.chrom20.LS454.ssaha2.CEU.exon_targetted.201 00311.bam data/NA12878/alignment/NA12878.unmapped.LS454.ssaha2.CEU.exon_targetted.20 100311.bam data/NA12878/alignment/NA12878.nonchrom.ILLUMINA.bwa.CEU.exon_targetted. 20100311.bam 文件名组分:

2.顶层还包含两个主要的 index 文件:
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/sequence.index
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/alignment.index

序列数据(README.sequence_data) 这一 readme 文件描述了 ftp 站点上的序列数据, 它是如何处理以及序列数据中哪 些信息是可用的。 目录结构和 sequence index 文件: 所有的序列数据都是 fastq 格式, 它给出了一段 序列以及每个 read 的质量字符串。 序列文件存在/data/XXXXXX/sequence_read 目录中( XXXXXX 代表样本名, this should be in the form or coriell sample names HGXXXXX or NAXXXXX)。与 meta 数据相关的一个特殊文件(包含 meta 数据 md5sum)可以在 sequence.index 文件中找到。这是一个 tab 分割的文件,它的每一列都包含一块不同的 meta 信息。

参考:

https://en.wikipedia.org/wiki/1000_Genomes_Project
https://mp.weixin.qq.com/s/R4vvQW8mg81ZJxTifTqOMw
https://mp.weixin.qq.com/s/KHlWWMNOkFJqBq4DZqg7pQ
https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/

转载请注明出处

欢迎关注公众号:oddxix

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352