Rsync 原理

想起以前做项目,用到了Rsync check 文件内容,未免以后忘记,现在整理下 大致逻辑

背景:

       我们新建一个文件,上传,再改动一点点东西,通用办法就是,把改动后的文件,上传覆盖以前的文件,这样不会错,但是有个问题,如果这个文件很大,那么整个上传就会消耗大量的时间和流量,哪怕我们只是编辑了一个标点符号。

解决方案:

       那么有没有什么办法,我只上传编辑的部分,那就万事大吉了,但是没有编辑的部分,我怎么告诉server 呢,我可以告诉server ,我没有改变的部分的 offset ,比如: 0-121 byte,180- 300byte,编辑的部分我上传data,那么最后的结果是什么呢:

0-121byte(location),122-179byte(data),180-300 byte.

     那么,我怎么找出编辑的部分呢,大致方案如下:

    1. 我将原内容分割成若干部分(具体每部分多大,根据文件大小确定),每部分通过算法,得到两个值,sha -> sum1,md5 ->sum2 

    2. 我将编辑后的文件,按照同样大小,分割,依次对比,如果发现sum1 和 sum2 都一样,那么我们认为这部分是以前的内容,记录下来

    3. 遇到sum1 不一致,或者sum1一致,sum2 不一致的内容(这就是为什么要通过两个算法去校验,sum2 准确,但是消耗性能,sum1 性能消耗较低,但是不准确),那么我们往后移动一个byte,这一个byte 作为新增的内容,记录下位置,接着从移动过后的位置对比

    4. 一个字节一个字节的添加太麻烦,还有如果重用的部分是连续的,那么我们可以添加逻辑把连续新增的字节或者连续重用的字节连起来,最后上传的时候,再上传连起来的部分的offset 和data

    大致的逻辑就是这样,但是有个问题:

    原内容:[(sum1,sum2),(sum1,sum2),(sum1,sum2).......]

    我们计算编辑后的文件的时候,拿到sum1 和sum2 ,怎么去对比呢,要知道,上面的数组是相当庞大的,你要挨个去对比,我的天,性能灾难,得不偿失。

    有什么办法呢,如果能想key ,value 这样挨个对应起来就好了,这样,直接找key,看value 是否有值。

    原内容:[{sum1:{sum2:xxxxx,location :123-456}}.......]

    但是,这样有新的问题:

            1. sum1 有可能碰撞(不精确)

            2. sum1 还是很长,key value 都很长,这样的性能我们是无法接受的

    如果有什么办法,能够将sum1 或者sum2 编程一个数字或者简单的字符就好了。

    网上找找,果然有,将可以通过一个算法将sum1 变成一个 数字:

                f(sum1) -> 10233

    我们再构建一个hashtable 样子, 表的样子是什么呢

    hashTable[10233] = i, i 表示在原文件中的第几端,至于其他的都设置成-1,最后结果

    hashTable[0] = -1,....hashTable[10233] = 0,......

    我们拿到编辑后的文件段的sum1, 通过同样的运算, 获得的值也是 10233, 那么我们拿这个10233 反过来找hashTable, 发现value 不是-1, 恭喜你可能找到了,这时再对比下sum2,这样就能最终确定了,这样是不是性能提高了很多

    但是还有一个问题,不同内容的sum1 可能一样啊,这咋整,也就是,可能第57 段和第89段的sum1都是10233,那么结果就是,后面的把前面的覆盖,结果就是 hashTabel[10233] = 89

    这咋整?

    我们想如果能记录后一段,也就是在覆盖前一段的时候能够把前一段的location 记录下来就好了,ok,那么我们新定义一个变量chain,通常情况下,chain值为-1,只有发现hashTable[10233]有值时,我们把后一个位置的chain 设置成前一个位置的location,这样是不是就不怕覆盖了,结果就是,假设第0,57,89 的结果都是10233,那么:

hashTable[10233] = 89, data[89].chain = 57, data[57].chain = 0

代码如下:

for I in 0..<count {

                let sumData = file.sums[I]        

                let t =self.getHashEntry( sum1: sumData.sum1,true)

                let subsum = file.sums[i]

                subsum.chain=hashTable[Int(t)]

                self.hashTable[Int(t)] = i

            }

perfect!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容

  • 一、为什么要用rsync+sersync架构? 1、sersync是基于inotify开发的,类似于inotify...
    SkTj阅读 1,845评论 2 14
  • 在C语言中,五种基本数据类型存储空间长度的排列顺序是: A)char B)char=int<=float C)ch...
    夏天再来阅读 3,340评论 0 2
  • 基础命令 主要的命令和快捷键 Linux系统命令由三部分组成:cmd + [options]+[operation...
    485b1aca799e阅读 1,094评论 0 0
  • 一. Java基础部分.................................................
    wy_sure阅读 3,809评论 0 11
  • 前天下班路上,在一个上面有多车道立交桥的大型十字路口,一堆堆的人待在安全线内等绿灯。这时,一个三十岁左右的男子,专...
    杨晓木阅读 256评论 0 4