和大家朝夕相处的产品君其实也是也是一位爱好旅行的小青年,产品君一直幻想有一天可以去一趟浪漫的欧洲,行走在卢浮宫前,拿出手机即刻一拍,博物馆的历史跃然"屏上";乘坐已有一百多年历史的巴黎地铁,手机一扫,翻译好的车站名立刻呈现;拍摄街景的同时,文字介绍也同时显现~~产品君并没有在做梦,这些旅途中的小科技依靠OCR技术完全可以实现,可尽管OCR技术强大,它还有个多年劲敌,这也是今天产品君想为大家隆重介绍的主角,它不是别人,就是 “验证码”!
“验证码”?!产品君你有木有搞错啊,就是那个被玩坏的12306吗?好吧产品君承认,这个画风确实相差有点大,可是今天产品君正要好好的为“验证码”下名,不要小瞧这验证码,它背后还有好多你不知道的事嘞,尤其是最近的大新闻,谷歌推出新验证码服务(Invisible reCAPTCHA),不用点击即可拦截各种恶意访问,简直强大无敌啊!
要为大家详细介绍谷歌隐形验证码服务这神一般的进阶史,那一定得先从“CAPTCHA”说起,尽管这个单词看着就有点像乱码,它其实是“Completely Automated Public Turing Test to Tell Computers and Humans Apart”的首字母缩写,含义为“全自动区分计算机和人类的图灵测试”。
据说啊,这最早的验证码机制首先是来源于黑客的暗语,他们不想让机器读懂他们的语言,于是将拉丁字母用符号、数字等提到表示出来。比如骂人“shit”(狗屎)就被他们写成“$#!+”。1997年,当时有人通过程序发“链接炸弹”到引擎库中,导致搜索结果被污染,AltaVista的搜索引擎的工程师就开始构思验证码的产品原型。到了2002年,来自卡内基梅隆大学的学生团队更深化了验证码的概念,并起了个名字“reCAPTCHA”,致力于保护人类免受计算机的攻击,这项技术在2009年被google收购。
当时他们的设计是这样的:当传来一个访问请求后,计算机就会随机生成一组数字或符号,然后通过一些随机的规则使其难以辨认,例如使其变色、扭曲,再加上横线、斑点,最终生成一幅图片。他们认为你是人嘛,你肯定认识这些乱七八糟的图案,可是产品君想说,也不是那么好认啊,这都是什么字体呀,真实逼死宝宝了!
现在由产品君为大家介绍下这个reCAPTCHA的工作原理,这也是一项人工智能呀,而且它还有无心插柳柳成荫的神奇功效。
它的原理是这样:
Step1 :我们选择一篇年代比较久远看不太清的文章
Step2 :我们从这篇文章中提取一个不能进行OCR的词,这个词的特点就是不易辨认
Step3: 我们加上一些符号让这个词更不好识别
Step4: 生成两个验证码
软件将能够正确识别CAPTCHA词的用户看作是人类,当CAPTCHA词被正确识别出来后,程序判别,此人为人。然后勒,程序再把另一个难认词添加到数据库中,这样啊也就借助人完成了一次人工OCR识别!
为什么要设计这个环节呢?因为其实当用户在费老大劲识别这些难认字符的同时也为古籍保护作出一点点贡献,毕竟又不是所有文章印到电脑里都是清晰可见的,大家一定有这样的感受,读一篇年代稍微久远的文献,那个费劲呀。举个栗子比如下面这篇文章:
在电脑眼中就是这样的,简直是一片乱码~
而对于那些实在难以辨认的单词,程序会设计多人校验提高正确率。它所取得的巨大成果是:借助广大网民之手,纽约时报从1851年到现在的所有报纸,总共超过1千3百万篇文章都已经成功录入计算机。如果依靠手工输入,人力,资金,时间都将是巨大的,然而借助reCAPTCHA, 以及每天上网的我们,这项工作短时间内就完成啦。( 这不就是咱免费众包的形式嘛,谷歌大大好聪明!)
谷歌还将这项技术充分支持了它伟大的板块—谷歌地图中, Google 让reCAPTCHA 里显示街景的图片。这样就可以从街景里提取如街道名称和交通标志等数据,向 Google 地图里添加商铺地址和位置等有用信息,准确率达90%。我们回到上面那种照片,是不是除了文字还有很多门牌号信息需要识别。
但是总是识别这些难识别的文字和街牌号很无趣,在2014年,谷歌对reCAPTCHA进行了一次大升级,简化了人机识别的流程同时也大大提高了准确性,基本上也是我们现在打开Youtube使用的识别机制~
不用再识别那些难认的文字,改成读图识图回答问题,如果程序判断你是人,你就可以开心地浏览网页,而如果判断你是机器人呵呵,那题目难度直接升级!它所应用的技术还包括机器学习,可识别风险机制,而除了根据问题的答案进行人机判断,程序还会根据用户的行为习惯比如打字的速度翻页点击的习惯来做出选择。
(升级版reCAPTCHA的工作原理)
据统计reCAPTCHA的技术可以大大提高识别准确率,总共可以有效节约用户每天50000小时的上网时间。而在3月13日推出的隐形验证码服务中,尽管谷歌公司并没有太多透露,但我们可以得知这个神级的验证码服务都不用点击“是不是机器人的选项”,程序可以依据日常的上网习惯直接作出判断。
(官网公布的代码)
新闻一发布,网上就开始有各种各样攻破隐形验证码的信息,如果这个黑科技投入使用,产品君心理这是一阵暗喜,不用再输入那些复杂的识别码即刻获得高效通畅的上网体验,好像有个隐形保镖为我们上网保驾护航。但由于谷歌公司还没有太多透露,而对于那些经常清理cookies的用户来说,还存在用户行为不好追踪等问题,还有依旧强大的OCR技术持续紧逼,产品君表示还需要再一步观测~~