测序公司在释放原始数据的目录下都会有一个MD5文件,对于不太了解MD5的老师,可能会直接忽略这个文件。实际上这个文件还是很有必要的。那MD5到底是干嘛的呢?
MD5简介
MD5全称MD5消息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。其典型应用就是对一段信息产生信息摘要,防止被篡改。简单点解释,就是MD5会为任何文件或信息产生一个“数字指纹”,如同人的指纹互不相同,不同文件的MD5也各不相同,哪怕是最细微的改动,其MD5也会相差甚远。只有在文件完全一样时,其MD5才会一致(这句话其实是错的,不同文件MD5可能会一样,但是概率非常非常小,理解时不用太过在意)。
例如,我们常常在某些软件下载站点的软件信息中看到其MD5值,它的作用就在于我们可以在下载该软件后,对下载后的文件用专门的软件(如Windows MD5 Check等)做一次MD5校验,以确保我们获得的文件与该站点提供的文件为同一文件,而不是被篡改植入病毒的。
讲到这里,大家应该对MD5有了一个大概的了解。我们回到文章最开始的问题,测序公司在产生原始数据时,会为每个文件生成一个MD5值,与原始数据一同交给客户。客户在下载完数据后,最好对每个数据进行一次MD5校验,以确保下载的数据与测序公司提供的完全一致,防止下载时出错导致数据丢失,进而影响后续数据的分析。那怎样进行校验呢,不要急,往下看。
MD5校验工具
网上可以校验MD5的软件有很多,这里我们简单介绍几个。
1.MD5Check
下载链接:
https://www.softpedia.com/get/System/File-Management/MD5-Check.shtml
使用方法也很简单,一张图就能看懂。
2.好压
好压是压缩解压缩的软件,它也是可以计算MD5的。
右键单击要校验的文件,好压的 “其他压缩命令” 下有一个 “计算MD5” 功能。
3.md5sum
上面的都是Windows中的MD5校验工具,linux中也有计算MD5的命令--md5sum。用法如下:
$md5sum data.file
0a6de444981b68d6a049053296491e49 data.file
好了,MD5就讲到这了,相信大家体会到MD5的重要作用了吧!请不要再无视我!
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5.微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读。