生物信息学：第一章：历史简介和概论

第一章：历史简介和概论

1. 前言导论

1.1 生物信息学的概念

1.1.1 生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科。

1.1.2 生物信息学特指数据库类的工作，包括持久稳固的在一个稳定的地方提供对数据的支持。

1.1.3 生物信息学是在大分子方面的概念型的生物学，并且使用了信息学的技术，这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法，并以此在大尺度上来理解和组织与生物大分子相关的信息。

1.1.4 生物信息学是生物学、计算机科学和信息技术融合成一门学科的科学领域。该领域的最终目标是发现新的生物学见解，并创建一个全球视角，从中可以辨别生物学的统一原理。

1.1.5 生物信息学研究可以被看成是研究信息的传递，从DNA经转录翻译到蛋白质，从细胞质中到细胞核内，从母细胞到子细胞，从一个细胞或一个组织到另一个细胞或另一个组织，从一代到下一代，从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信息学。

1.2 生物信息学的发展历程

1.2.1 1952年，Sanger根据胰岛素蛋白质的测序结果，推断蛋白质是排列完美的分子。-最早的信息论观点。

1.2.2 1955年，Sanger与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。-最早的序列比对。

1.2.3 1962年，鲍林提出分子进化的理论，推测在人中可能存在50,000~100,000个不同的基因/蛋白质。-分子进化理论的奠定

1.2.4 1965年，Margaret Dayhoff构建蛋白质序列图谱

1.2.5 1970年，Needleman-Wunsch算法：全局优化比对。

1.2.6 1981年，Smith-Waterman算法开发：局部优化比对。

1.2.7 1990年，快速序列相似性搜索工具BLAST的开发

1.3 生物信息学的发展过程中里程碑性事件

1.3.1 1965年：Margaret Dayhoff开发了第一个蛋白质序列数据库，名为蛋白质序列和结构图谱（Atlas of Protein Sequence and Structure）。这是理解蛋白质结构与功能关系的重要一步

1.3.2 1970年：Saul B. Needleman和Christian D. Wunsch发表了第一个序列比对方法，用于比对和比较蛋白质和核苷酸序

1.3.3 1971年：RCSB蛋白质数据银行（Protein Data Bank）成立

1.3.4 1977年：Frederick Sanger开发了一种快速测定DNA碱基序列的方法。这是DNA测序首次实现自动化，为人类基因组计划铺平了道路。

1.3.5 1981年：Smith-Waterman序列比对算法，用于识别可能表示两个序列之间功能、结构或进化关系的相似区域。

1.3.6 1982年：GenBank核苷酸序列数据库成立，由美国国立卫生研究院（NIH）创建，用于存储和共享遗传信息。

1.3.7 1984年：PIR-International蛋白质序列数据库成立。

1.3.8 1990年：人类基因组计划启动。这个雄心勃勃的项目旨在测序整个人类基因组，于2003年完成。

1.3.9 1996年：第一个蛋白质组学数据库SWISS-PROT成立。该数据库包含有关蛋白质序列、功能和结构的信息。

1.3.10 20世纪90年代末和21世纪初：建立了宏基因组学领域。该领域专注于研究整个微生物群落的遗传物质，而不仅仅是个体生物。

1.3.11 20世纪90年代末和21世纪初：建立了宏基因组学领域。该领域专注于研究整个微生物群落的遗传物质，而不仅仅是个体生物。

1.3.12 2001年：人类基因组的第一份初稿发表。这是我们对人类生物学认识的重大突破，为研究和药物开发开辟了新途径。

1.3.13 2002年：UniProt蛋白质序列数据库成立。

1.3.14 2010年：首次创造合成基因组。这是合成生物学领域的里程碑成就，为创造具有定制基因组的新生物奠定了基础。

1.3.15 2012年：发现CRISPR-Cas9系统。这一革命性技术使科学家能够以前所未有的精确性和准确性编辑基因组。

1.3.16 2023年：人工智能（AI）和机器学习（ML）被整合到生物信息学工具和工作流程中，革命性地改变了该领域。AI和ML被用于分析大型数据集、预测蛋白质结构和开发新药物。

1.4 生物信息学的数据库工具以及应用

1.4.1 80年代：DNA序列数据库

1974年，George I.Bell等人收集DNA序列，构建GenBank数据库。1982~1992开发第一个版本。

1980年，EMBL数据库成立。

1984年，日本DDBJ数据库成立。

核酸序列数据的去冗余：Refseq数据库，对于相同的序列只列一条目录。

1.4.2 获取序列及检索公共数据库

Entrez的开发，D.Lipman等人。

提供关键字的搜索的方法。

“硬搜索”:包含关键字的，完全匹配的结果。

“软搜索”:与查询内容相关的信息。

查询内容：基因/蛋白质的名称、标识符，文献、蛋白质结构，等等。

1.4.3 序列比对工具的开发

1970年，Gibbs AJ 和 McIntyre GA，点阵法进行氨基酸和核酸的序列比较：当相同的字母在两条序列中同时出现时，在交叉处置点。

1970年，Needleman-Wunsch，全局优化的序列比对算法：允许匹配、错配和缺失。动态规划的算法：任务可分割，分成更小的子问题进行解决。

1981年，Smith-Waterman，局部优化的序列比对算法。

FASTA & BLAST的开发，启发式优化算法。

多序列比对：CLustalW/X, POA, MUSCLE.

1.4.4 RNA二级结构的预测

RNA分子中，如果存在重复且反向互补，则可以形成发卡结构。

动态规划法：最多配对的碱基对。

应用：构建RNA分子数据库。

1.4.5 序列->分子进化

寻找Ortholog (直系同源物)或者Paralog (旁系)同源物。

构建进化树，分析蛋白质的超家族及亚家族分类。

分子进化树的构建方法：邻接法(Neighbor-Joining), 最大简约法(Maximum Pasimony)，最大似然性法(Maximum Likelihood)，以及贝叶斯类算法(MCMC)。

构建进化树的前提：可靠的多序列比对。

直系同源物: 两个基因通过物种形成的事件而产生，或，源于不同物种的最近的共同祖先的两个基因，或者两个物种中的同一基因，一般具有相同的功能。

旁系同源物：两个基因在同一物种中，通过至少一次基因复制或分歧的事件而产生。

Xenolog:异同源物：由某一个水平基因转移事件而得到的同源序列。

1.5 生物信息学的研究内容

1.5.1 开发新的算法及统计学的方法来揭示大规模数据之间的联系。

1.5.2 分析和解释各种类型的生物学数据，包括核酸、氨基酸序列、蛋白质功能结构域以及蛋白质三级结构等。

1.5.3 开发、设计一系列相关的工具，能够方便有效的获取、管理以及使用各种类型的数据和信息。

1.5.4 生物学背景：e.g., 细胞生物学、分子生物学、发育生物学、分子神经生物学、生物化学。

1.5.5 计算能力/编程能力：Perl/Python，PHP+MySQL, JAVA。

1.5.6 分子进化理论：MP, NJ, ML。

1.5.7 统计学知识：至少单变量统计知识。

1.6 面临的问题和挑战

1.6.1 基因组序列及其表达情况。主要指RNA层面的分析。如Riboswitch RNAs：主要定位于基因的5’非转录端附近，能够感知代谢物并调控基因表达。

(1) 在基因组中，究竟有多少具有功能性的和结构性的RNA?

(2) 转录和剪切。人中大约<23,000个基因，水稻大约是人的两倍(~50,000)。推测，可变剪切(Alternatively Splicing)可能在其中起着重要的作用。

(3) 剪切的分子机器通过识别何种机制来调控基因的可变剪切？通过计算需要解决的问题：成熟的RNA是怎样的？它们的表达是如何受到调控的？在细胞层面上，不同剪切异构体的表达有着什么样的影响？

1.6.2 人类基因组研究

(1) 与其他物种相比，哪些基因是人类所特有的？目前研究：两类，与语言相关或者大脑的发育有关。

(2) 能否系统的计算出这些基因？以及推测其功能，为进一步的实验作指导？

(3) 人的进化过程是怎样的？在什么时候，决定人类物种形成的基因是如何产生的？走出非洲？

1.6.3 遗传密码的延伸和拓展：共价修饰、环境因素及表观遗传学。遗传密码不仅包括确定蛋白质的序列，还包括蛋白质的共价修饰。~10%的基因表达执行修饰功能的酶。

(1) 在何等程度上遗传因素决定了生物体的表型？在何等程度上环境因素起着另一层的作用？是否可以将环境因素看成是“代谢组学”，即细胞或生物体中的分子组分的特定性？

(2) 我们能否推测究竟哪个激酶磷酸化哪个底物？哪个泛素连接酶负责哪个底物的降解？这些底物都具有什么样的功能？

(3) 能否通过生物信息学的方法来研究“histone code”？

1.6.4 一维的遗传编码，如何实现三维的世界？DNA->RNA->蛋白质，线形的一维序列转变成三维的结构和分子机器，能否通过序列来预测蛋白质的结构？

(1) 非共价的作用在计算最低自由能种有着何等意义？如何进行描述？给定一个结构设计序列为何比给定一个序列来预测结构更为容易？

(2) 基因组的信息如何与能量的因素结合起来，进行蛋白质三级结构的预测？

(3) 热动力学的假设对于Amyloid-like fibers以及其他错误折叠的蛋白质，是否适用？

1.6.5 细胞的功能及仿真模拟，系统生物学研究。蛋白质之间以及蛋白质与小分子之间的相互作用。

(1) 多大程度上，我们能够通过蛋白质的序列去推测蛋白质之间的相互作用以及网络？什么样的基因组及蛋白质组的信息对于理解蛋白质相互作用网络有帮助？这些网络在细胞周期过程中如何发生变化？在不同的细胞或器官中，网络如何的不同？

(2) 根据细胞的分子组分，能否模拟其代谢的过程？对于生命体能否通过仿真提供新的观点？单个细胞与一群细胞的平均状态是否相同？

1.7 生物信息学的相关杂志

1.7.1 NS 正刊

1.7.2 Nature 知名的老牌子刊 Methods / Genetics / Biotechnology / Medicine

1.7.3 Nature 新的两个子刊 Machine Intelligence / Computational Sciences

1.7.4 Nature Communications / PNAS / Science Advances

1.7.5 Genome Research / Genome Biology / Genome Medicine

1.7.6 Nucleic Acids Research

1.7.7 Bioinformatics / PLoS computational biology / GigaScience / AJHG / Briefings in bioinformatics

1.7.8 BMC 系列 genomics / bioinformatics / biology

生物信息学：第一章：历史简介和概论

推荐阅读更多精彩内容