rsync算法

最近在学习rsync工具的核心算法，主要参考的是collshell上的一篇文章。

rsync主要解决的是文件的同步问题，比如有A，B两台机器，要把A上的一个文件src更新到B上，假如B上已经有一个较旧的版本dest，这时怎么传输最省流量。

用过svn等版本工具的都知道，只需要把差异化的部分传输过去就够了，比如src比dest就多了一行内容，那么把这一行传输过去就够了，也就是文件做diff。可是现在有一个问题，src与dest分别在两台不同的机器上，而文件要做diff，得同时有两个文件才行，这就相当于要先把dest传回给A，这恐怕不是我们想要的。

有什么更好的办法呢？

可以把文件分块，比如128字节一个块，然后这个块的内容计算一个hash值，dest文件做了这些事情后，把hash信息发送到src处，src也这样干，然后两者逐一匹配，不就知道哪一块不同，然后就可以把差异传过去了，对吧。

问题来了，如果src文件在某个地方增加了一个字母A，这样分块的时候，src计算出来的hash值，整个都错乱了，会传输很多无用的数据，其实我们应该只需要传输一个字母A给dest，怎么解决呢？

采取一个滑动窗口的形式，比如分块是128字节，src先计算第一个块的hash值，如果在dest发过来的hash信息中找到了，得到这个块的id，如果没找到，把窗口向后移动一个字节，继续计算该block的hash信息，到dest发来的信息中匹配，同上了。

大概流程:

1.dest文件分块，计算两个信息，一个弱的校验hash，一个强的md5hash，带上块id，发送到src处。

2.src计算第一个块的弱hash值，到dest发来的hash信息中查找：

3.如果找到，很好，说明这一块的内容很有可能在dest中存在，计算块的md5进行强校验。

4.如果没有找到，说明该块有差异化内容，窗口往后滑动一个字节，计算该块的弱hash值，即重复步骤2

最后发给dest的信息是这样的：

10|tttt|1|2|5|8|ddddd|1

其中数字表示块id，其他为差异化内容，dest收到这些信息后，自己重组文件，收工。

其最核心的内容为：窗口往后滑动一个字节计算弱hash值的时候，不再是手动计算，而是可以根据前一个窗口的hash信息推算出来，这样效率要高很多。假设 h(i,j)表示字节i到j的hash信息，那么h(i+1,j+1)可以根据 A[i],h(i,j),A[j+1]计算出来，我采用的是zlib的adler32算法。

写了个测试代码:

https://github.com/xiaocc2012/rsync

rsync算法

推荐阅读更多精彩内容