在得到网站回来的数据后,通过自己筛选需要的元件或其他信息后,我们将进行可视化分析。
这里提供几种常规的可视化分析
安装环境:pip install biopython matplotlib numpy
1、堆叠柱状图(Stacked Bar Chart)
部分代码
结果
2、熵图(Entropy Plot)
熵是用来量化随机变量不确定性的一个度量。对于一个离散随机变量 X 及其取值概率 p(x) ,熵定义如下:
部分代码
3、序列标识图(Sequence Logo)
画图先安装个库
使用logomaker库来绘制这种序列标识图(sequence logo):pip install biopython logomaker matplotlib,它能够根据每个位点的碱基组成生成概率图或信息量图。
部分绘图代码,它会读取多条序列并生成一个序列标识图。
结果图:序列标识图的主要目的是展示每个位置的碱基组成概率,即碱基在特定位置上的出现频率。
碱基大小:每个位置上的碱基大小反映了该碱基的出现概率。较大的字母代表该位置上较常见的碱基,而较小的字母则较少出现。
多样性:如果一个位置上只有一个大字母,表示该位置非常保守,几乎所有序列都拥有相同的碱基;如果有多个不同大小的字母,说明该位置存在碱基多样性,不同序列在该位点可能有不同的碱基。
各位置的偏好性:您可以看到一些位置明显偏好特定碱基,而另一些位置则显示出更多的变异性。这些信息可以帮助识别序列的保守区域和可变区域。
4、基因结构图(Gene Structural Map)
准备数据
部分代码
结果
5、水平堆叠图(Horizontal Stacked Bar Chart)
部分数据
部分代码
结果
6、聚类热图(Clustering Heatmap)
部分数据
部分代码
结果
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~