第16章 信息指纹及其应用

以下内容学习、摘录自《数学之美》


一段文字所包含的信息,就是它的信息熵。如果对这段信息进行无损压缩编码,理论上编码后的最短长度就是它的信息熵。

任何一段信息(包括文字、语音、视频、图片等),都可以对应一个不太长的随机数(信息熵),作为区别这段信息和其他信息的指纹( Fingerprint)。只要算法设计得好,任意两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用

生信息指纹的关键算法:伪随机数产生器算法( Pseudo- Random NumberGenerator,简称PRNG),通过它将任意很长的整数转换成特定长度的伪随机数。

信息指纹的用途远不止网址的消重,它的孪生兄弟是密码。信息指纹的个特征是其不可逆性,也就是说,无法根据信息指纹推出原有信息。

在互联网上加密要使用基于加密的伪随机数产生器( CryptographicallySecure Pseudo- Random Number Generator,简称 CSPRNG)。常用的算法有MD5或者SHA-1等标准,它们可以将不定长的信息变成定长的128位或者160位二进制随机数。

在网页搜索中,有时需要判断两个查询用词是否完全相同(但是次序可能不同),比如“北京 中关村 星巴克”和“星巴克 北京 中关村”用词完全相同。解决这个问题有各种各样的方法,没有绝对正确的和错误的,但是有好的方法和笨的方法。
1.最直接的笨办法是对这个集合中的元素一一做比较,这个方法计算的时间复杂度是0(N^2),其中N是集合的大小。
2.稍微好一点的办法是将两个集合的元素分别排序,然后顺序比较,这样计算时间的复杂度是O( NlogN),比前面那种方法好了不少,但还是不够好。
3.与这个方法相当的是将第一个集合放在一张散列表中,然后把第二个集合的元素一一和散列表中的元素作对比。这个方法的时间复杂度为0(N),达到了最佳1。但是额外使用了0(N)的空间,而且代码很复杂,不完美。
4.完美的方法是计算这两个集合的指纹,然后直接进行比较。我们定义一个集合S={e11,e2,……,en}的指纹FP(S)=FP(e1)+FP(e2)+…+FP,其中FP(e1),FP(e2),…,FP(en)分别为S中这些元素对应的指纹。加法的交换率,保证了集合的指纹不因元素出现的次序而改变,如果两个集合元素相同,那么它们的指纹一定相同。当然,不同元素的指纹也相同的概率非常非常小,在工程上完全可以忽略。利用信息指纹的方法计算的复杂度不需要额外的空间,因此是最佳方法。

从上百万视频中找出一个视频是否为另一个视频的盗版,并非易事。一段几分钟的视频,文件大小有几兆到几十兆,而且还是压缩的,如果恢复到每秒30帧的图像,数据量就会大得不得了。因此,没有人会直接比较两段视频来确定它们是否相似。视频的匹配有两个核心技术,关键帧的提取和特征的提取。MPEG视频(在NTSC制的显示器上播放)虽然每秒钟有30帧图像,但是每一帧之间的差异不大。(否则我们看起来就不连贯了。)一般来说,每一秒或若干秒才有一帧是完整的图像,这些帧称为关键帧。其余帧存储的只是和关键帧相比的差异值。关键帧对于视频的重要性,就如同主题词对于新闻的重要性一样。因此,处理视频图像首先是找到关键帧,接下来就是要用一组信息指纹来表示这些关键帧了。

有了这些信息指纹后,检测是否盗版就类似于比较两个集合元素是否相同了。 Google收购 Youtube后,由 Google研究院研究图像处理的科学家们开发出的反盗版系统,效果非常好。由于可以找出相同的视频的原创和拷贝, Google制定了一个很有意思的广告分成策略:虽然所有的视频都可以插入广告,但是广告的收益全部提供给原创的视频,即使广告是插入在拷贝的视频中。这样一来,所有拷贝和上传别人的视频的网站就不可能获得收入。没有了经济利益,也就少了很多盗版和拷贝。

所谓信息指纹,可以简单理解为将一段信息(文字、图片、音频、视频等)随机地映射到一个多维二进制空间中的一个点(一个二进制数字)。只要这个随机函数做得好,那么不同信息对应的这些点就不会重合,因此,这些二进制的数字就成了原来的信息所具有的独一无二的指纹。

点击这里可以查看《数学之美》的其它学习笔记。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,104评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,816评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,697评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,836评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,851评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,441评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,992评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,899评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,457评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,529评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,664评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,346评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,025评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,511评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,611评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,081评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,675评论 2 359

推荐阅读更多精彩内容