思考一个问题
用户需要上传和下载一个重要的资料文件,应该如何判断用户本次是否上传成功和下载成功了呢?是否仅仅通过代码来判断当前次的请求发送结束或者收到数据结束就可以了吗?
答案是否定的。文件的上传与下载极易出错,尤其涉及使用断点续传方式上传或下载的文件。
因此非常有必要在客户端与服务器之间通过一种验证机制来确保文件上传下载后的完整性。那怎么样才能保证资源的完整性,处理办法就是用MD5验证文件的完整性!
当客户端上传一个文件的时候,在请求body里面添加该文件的MD5值来告诉服务器,服务器接受文件完毕以后通过校验收到的文件的MD5值与请求body里面的MD5值来最终确定本次上传是否成功。
当客户端下载一个文件的时候,在响应头里面收到了服务器附带的该文件的MD5值,文件下载结束以后,通过获取下载后文件的MD5值与本次请求服务器返回的响应头中的MD5值做一个比较,来最终判断本次下载是否成功。
你可能觉得不就是下载一个文件吗?需要这么麻烦吗?
那我们还是一起看看一些其他人都是怎么做的吧。
这里强调一下,使用MD5来校验完整性还是非常有必要的,例如该文件比较大,一个请求并不能快速请求到整个文件。文件的下载过程是持续的,大部分浏览在下载支持断点续传请求方式的文件的时候,默认都是启用了断点续传的方式来下载。
既然使用断点续传,那么不用想,每一次请求都需要就设置Content-Range这个头部,设置range字节开始传输的位置(默认是按字节算的),回应使用206状态值,表示现在开始部分传输,回复Content-Length头部,表示传输的部分,用字节记,然后就与普通传输没有区别了。这里Content-Range这个头部每次都不一样,它是通过浏览器在每次收一部分数据后不断在更新的,文件下载后又涉及一个I/O操作,更新缓存进度信息操作,这样即使用户任何时候关闭了浏览器,下载打开浏览器,文件还是从最近一次操作的最后进度开始的。既然这么复杂,那么这个过程其实就极易出错。因此,很难确保下载后,通过拼接二进制数据产生的文件就一定是完整的。因此验证文件完整性必不可少。
细心的朋友们以后在下载任何文件的时候,都可以关注一下是否有MD5有关的信息。其实游戏里面的补丁,下载后是一定需要校验的。设想一下,用户下载了一个不完整的补丁文件,去跟一个旧版本的游戏做补丁合成,生产的最终的新版本文件,一定是错误的。那么游戏使用者基本上再也打不开这个游戏软件了,只能删除重新一个完整的新版本安装包。(用户内心一定是千万只草泥马奔腾而过😂😂~)。其实在完整的补丁文件与旧版本做合并新版本的过程中也是容易出错的,任何的差池都会导致最终合并后的最版本有可能是错误的,那么合并后再次进行一次校验(需要服务器提供新版本完整包的MD5)也是非常有必要的。如果整个过程都没有问题,那么恭喜本次下载补丁,合并补丁的过程是非常OK的,用户仅仅下载了很小的补丁就实现了整个应用程序的完整安装。
那么你肯定想问,文件的MD5值究竟是什么,它能表征写什么信息呢?还是先度娘一下吧
MD5校验和通过对接收的传输数据执行散列运算来检查数据的正确性。
一个散列函数,比如 MD5,是一个将任意长度的数据字符串转化成短的固定长度的值的单向操作。任意两个字符串不应有相同的散列值(即,有“很大可能”是不一样的,并且要人为地创造出来两个散列值相同的字符串应该是困难的)。
一个 MD5校验和通过对接收的传输数据执行散列运算来检查数据的正确性。计算出的散列值拿来和随数据传输的散列值比较。如果两个值相同,说明传输的数据完整无误、没有被窜改过(前提是散列值没有被窜改),从而可以放心使用。
MD5校验可以应用在多个领域,比如说机密资料的检验,下载文件的检验,明文密码的加密等。MD5校验原理举例:如客户往我们数据中心同步一个文件,该文件使用MD5校验,那么客户在发送文件的同时会再发一个存有校验码的文件,我们拿到该文件后做MD5运算,得到的计算结果与客户发送的校验码相比较,如果一致则认为客户发送的文件没有出错,否则认为文件出错需要重新发送。
简单总结一下:其实就是任何一个字符串或文件,无论是可执行程序、图像文件、临时文件或者其他任何类型的文件,也不管它体积多大,都有且只有一个独一无二的MD5信息码,并且如果这个文件被修改过,它的MD5码也将随之改变。
Message-Digest泛指字节串(Message)的Hash变换,就是把一个任意长度的字节串变换成一定长的大整数。注意这里说的是“字节串”而不是“字符串”,因为这种变换只与字节的值有关,与字符集或编码方式无关。
知道了原理,那就话不多说,赶快操练起来吧!
md5sum命令是Linux平台下面用来检测文件完整性的给力工具,维基百科是这样来解释 md5sum的:
md5sum是一种计算机程序,用于计算与校验128位MD5哈希值,此处MD5散列值(或校验和)作一个文件的数字指纹使用。理论上看,正如其他散列算法一样,一个MD5哈希值可对应无限个文件,但从现实的角度看,两个不同的文件几乎不可能有相同的MD5哈希值,除非其创建便是刻意为之。一般来说,任何对一个文件的非恶意变更都会导致其MD5哈希值改变,因此md5sum一般用于检查文件完整性,尤其常用于检测在文件传输、磁盘错误或其他无恶意涉入的情况下文件的正确性。
示例:
以linux下shell为环境示例,以下文件皆于同一目录下。
计算校验值并输出至hash.md5
$ md5sum filetohashA.txt filetohashB.txt filetohashC.txt > hash.md5
所得文件,文件内包括了哈希值和对应的文件名。
$ cat hash.md5
595f44fec1e92a71d3e9e77456ba80d1 filetohashA.txt
71f920fa275127a7b60fa4d4d41432a3 filetohashB.txt
43c191bf6d6c3f263a8cd0efd4a058ab filetohashC.txt
Mac OS可以用md5命令
先看下使用说明
usage: md5 [-pqrtx] [-s string] [files ...]
操练起来:
~ md5 -s woaini
MD5 ("woaini") = 023299564b0db47d5f3e476a254d0c21
MD5命令不能将路径设置为文件夹路径,只能是某一个具体文件。
~ MD5 /Users/nuomi/Desktop/OmniPlan-3.3.3.dmg
MD5 (/Users/nuomi/Desktop/OmniPlan-3.3.3.dmg) = c0a01ff9c0a4f0691a46616ab71e3380
还是非常简单的。
那么在实际的移动应用开发中,文件上传、下载都是必不可少的功能~
在此附上一个我总结的一个iOS上使用OC写的获取文件MD5值得一个小工具。github传送门
建议大家在重要文件的上传、下载时,一定要与后台同学协商,添加对文件传输完整性的校验。
纯手工,欢迎点赞、讨论。😋