10月25日,维权骑士发步了2017年Q3内容行业版权报告,包括微信公众号,百家号,头条号,豆瓣等主流平台。同时一些人对此报告发表了嘲讽,称微博、QQ空间等平台由于侵权数据太大,会导致维权骑士服务器瘫痪,所以没被详细列出来。
看到这种没搞清楚事情因果关系的评论,我在办公室里当时就笑出了声。
在谈微博和空间为何榜上无名之前,我们首先要搞清楚维权骑士对侵权的定义(算法上的),也就是在检查一篇文章是否侵权的时候究竟检查的是哪一部分算侵权。
一篇文章的内容分文字和图片两块。
在检查是否构成侵权时,我们让机器检查,也只能检查的是文字内容。为什么是文字内容呢,因为字符在编码表中的编号是唯一的,即使使用了不同的编码表,如Unicode、GB18030、BIG5、UTF-8……只要比对编码表,就可以轻松的知道双方的文字内容是否一样。
对于图片检查的困难主要源于2个方面:
一是识图算法上的难度。利用图片的编码来检索是不现实的,原因如下:
首先图片没有统一的压缩算法,JPG要是世界第一好用的格式,那怎么会有人搞个PNG出来呢?GIF第一个不服啊,我能播动图,你JPG能吗?EPS也要会会你这JPG印出来究竟清晰不清晰。
其次图片有分辨率一说,1M的原图和100K的截图肉眼看着区别不大,数据上可不是简单的1/10。除非是一模一样的两张图,更不用说两张不同格式的图片了。
所以目前无论是百度、淘宝以及其他主流识图的算法都是根据色块来检索的,那么即使在文章中使用的是原创图片,放到搜索引擎中的结果除了原图之外还会有其他颜色相近,但实际上不相干的图。
大家都不想写文章配了张风景,结果提示你“您的图片与以下图片有74%的相似度,可能构成抄袭”吧。
二是对于盗图的界定。机器如何识别我文章里这张图只是一张配图,还是我这篇文章就是为了展示我的图片作品?
我引用了别人的图片,文章相似度又应该怎么算,图片和文字的权重是怎样设定的?
如果不能引用图片,那我写的这个回答也“抄袭”了题主的截图。
盗图这事儿连阿里都得靠人工举报,维权骑士要是实现了这个功能,那生意可就不局限于维权领域了。
微博和空间没有上榜的原因是多方面的。我们先看一下微博和空间大V抄袭的模式是怎么样的↓↓↓
为什么大家说微博官方烂泥扶不上墙?说的无非就是新浪一不严打抄袭,二不配合检查。
这就涉及到一个问题:我们为什么发微博?
看一下微博的启动页↓↓↓
我们发微博的初衷不就是:唉,我觉得这事儿好好玩/mmp,发出来跟大家分享一下。
简而言之,微博官方对于内容原创性是没有要求的。
像上面截图的知乎酱,人家的逻辑就是:我也没说这是我回答的,我就是刷知乎看到好玩的回答来分享一下。侵权?不好意思,你都发现了那我删了吧。付费是永远不可能付费转载的。
还有大量公众性的东西,比如天气预报,比如新闻,这些东西混在一起,这就有了上面说的对于抄袭界定的问题。
除了界定的问题,抄袭形式也是一个重要的原因。
微博和空间的抄袭形式大部分都是截图啊!
要从图片中将抄袭的内容纠出来,就需要借助OCR技术。和OCR比起来,文本检查真的就只是简单的匹配识别。
别忘了在此之前还得把带文章的图片和普通图片区分开来。
对于反查重我想,道高一尺魔高一丈。洗稿现在都查不出来,我弄点花式背景,萌萌哒的字体,还不是易如反掌?完全不会影响人类阅读,但是就让你机器的识别正确率下去了。连识别的字都不正确,又谈何鉴定抄袭?
这种浪费算力的事,等量子计算真正进入商用领域或许可以考虑一下?
至于检测内容的来源,有两种获取方法:
1.和主流平台合作,获取官方数据,内容的提供交给别人来做,这样比较节约自家服务器的性能。
2.就是自己到处爬,但是会受到爬虫协议的制约,比如说↓↓↓
淘宝头条100%原创我是不信的。
新浪微博不提供自己平台内容的原因不是很明显吗,如果重复的算抄袭不让发,还有什么人气?这是让微博死啊!