最近生信圈子在传一本书:Encyclopedia of Bioinformatics and Computational Biology ABC of Bioinformatics。可以说这本书谈及了生物信息学的许多方面,我下载来翻了一下,大概三千多页吧,分三卷。这样大致的翻一翻,知道了一个大概,其实生物信息学主要的是围绕着中心法则展开的数学与计算机的学问。
第一个问题是如何在一个半小时内翻完一本三千多页的外文书?
当然你不能设置pdf自动翻页,然后自己去逛B站。目录是必须要看的,然后在不断的滑动鼠标的同时要看里每一章的标题以及一级标题和有趣的图表。这样,一遍下来,这本书的轮廓就了然了。对于这么一本庞然大物,这样的快速阅读是有必要的,接下来你可以确定哪部分是你比较感兴趣的,然后仔细的去读。
结合生物信息的数据结构,浅谈一下生物信息工程师的段位。首先,我们需要明确生物信息工程师处理的是什么数据?测序数据?临床数据?社会调查数据?也许是所有的数据。我们在看医学文献的时候,里面既有测序数据,又有临床数据,还是有病人的社会关系数据,甚至是病人的消费习惯的数据,这一切都是生物信息工程师要面对的数据吗?
如果是,那么生物信息工程师真的就是数据科学家了。其实就是的。但是我们还是不想把话题唠的那么大,围绕着中心法则来讲吧。
- 序列数据
我们认为这是基本的,一个生物信息工程师如果没有亲自处理过fasta数据,那他和这个工种离得就有点远了。序列有顺序和结构两个方面,DNA和RNA的结构其实目前基本已经摸得差不多了,虽然氨基酸(蛋白质)的结构也建立了一些数据库,但是它的三维结构还有许多未开垦的领域。顺序的序列数据主要用来组装与比对,序列的结构数据的挑战一方面来自数据结构,一方面来自表示算法。其实很多大牛做的就是这部分的工作。
- 矩阵数据
最常见的就是各种表达谱。主要见于RNA-seq的数据当中,比如最近比较火的单细胞转录组,它的数据分析基本就是基于这么一张cell X gene的表达谱:
所以,单细胞转录组的数据分析工作并不难:二维表是人类在念书的时候处理的最熟练的表。之前有处理过类似表达谱、丰度表的同学做单细胞转录组,很多情况下就是换个概念。这时候 的挑战不是技术方面的,而是理解生物学的意义。另一方面是数据模型的应用,当然,序列数据的处理也离不开数学模型,只是这里我们直接地面对了数学模型。而且数据数据科学的发展,处理矩阵数据的方法也越来越多,所以矩阵数据的算法迭代是比较快的,特别是机器学习的内容。机器学习似乎就见不得数值型数据,一见到,它就想用上去。
- 文本数据
人类为了描述基因发展了一套语法,虽然到现在都不怎么完善。但是生物信息中的这类数据我们统称为文本数据:基因功能,通路,疾病药物关系等等。早期的基因本体论是一个很好的例子,基于此开发了不少关系型描述性的数据库,如GO。当然,随着生物信息的发展,更多的文本数据被发表出来。于是,自然语言处理也有一些应用到生物信息当中去。
- 图像数据
自人类研究生物学问题的那天起,生物图像就一直伴随着这门科学的发展。处理图像数据自然也是生物信息分析的一部分。很久之前,图像只能作为一种信息的存储手段,人们很难对它进行比对分析,但是随着数据以及计算机科学的发展,一些工具可以分析图形数据了。在医学上已经积累的大量的影像资料,针对图像数据目前也开发了一些相应的数据库。现在人们在图像时不得不提一下人工自能,或者深度学习。虽然之前人们处理序列也会用到的算法和深度学习的算法框架相差无几,只是那时候还没有深度学习的名字。
- 空间数据
其实在序列结构这部分已经涉及到空间的数据了:三维基因组,三维的蛋白质。这里主要说一下,宏观的空间:组织形态层面的。这里的空间也可能是动态的。单列出来是因为这也是一种新的数据格式。
- Biological Databases
我们认为,数据库已经成为一种数据结构。因为生物信息实在太多了,一张表、一张图无法完成对某一现象的描述。数据库这种数据结构已经涵盖了中心法则以及医学周边,成为生物信息工程师不得不面对的数据结构。在展开一项研究的时候,之前只搜索关键字就可以了,现在要加一个database。很可能,你的想法别人已近打包成数据库了。随着高通量技术在生命科学中的应用,生物数据的增长量不亚于人类的商务数据。
以上就是目前生物信息工程师处理的主要的数据类型,生物信息工程师处理声音数据吗?