如何看待维权骑士最新发布侵权排行中微博和QQ空间榜上无名？

10月25日，维权骑士发步了2017年Q3内容行业版权报告，包括微信公众号，百家号，头条号，豆瓣等主流平台。同时一些人对此报告发表了嘲讽，称微博、QQ空间等平台由于侵权数据太大，会导致维权骑士服务器瘫痪，所以没被详细列出来。

看到这种没搞清楚事情因果关系的评论，我在办公室里当时就笑出了声。

在谈微博和空间为何榜上无名之前，我们首先要搞清楚维权骑士对侵权的定义（算法上的），也就是在检查一篇文章是否侵权的时候究竟检查的是哪一部分算侵权。

一篇文章的内容分文字和图片两块。

在检查是否构成侵权时，我们让机器检查，也只能检查的是文字内容。为什么是文字内容呢，因为字符在编码表中的编号是唯一的，即使使用了不同的编码表，如Unicode、GB18030、BIG5、UTF-8……只要比对编码表，就可以轻松的知道双方的文字内容是否一样。

对于图片检查的困难主要源于2个方面：

一是识图算法上的难度。利用图片的编码来检索是不现实的，原因如下：

首先图片没有统一的压缩算法，JPG要是世界第一好用的格式，那怎么会有人搞个PNG出来呢？GIF第一个不服啊，我能播动图，你JPG能吗？EPS也要会会你这JPG印出来究竟清晰不清晰。

其次图片有分辨率一说，1M的原图和100K的截图肉眼看着区别不大，数据上可不是简单的1/10。除非是一模一样的两张图，更不用说两张不同格式的图片了。

所以目前无论是百度、淘宝以及其他主流识图的算法都是根据色块来检索的，那么即使在文章中使用的是原创图片，放到搜索引擎中的结果除了原图之外还会有其他颜色相近，但实际上不相干的图。

大家都不想写文章配了张风景，结果提示你“您的图片与以下图片有74%的相似度，可能构成抄袭”吧。

二是对于盗图的界定。机器如何识别我文章里这张图只是一张配图，还是我这篇文章就是为了展示我的图片作品？

我引用了别人的图片，文章相似度又应该怎么算，图片和文字的权重是怎样设定的？

如果不能引用图片，那我写的这个回答也“抄袭”了题主的截图。

盗图这事儿连阿里都得靠人工举报，维权骑士要是实现了这个功能，那生意可就不局限于维权领域了。

微博和空间没有上榜的原因是多方面的。我们先看一下微博和空间大V抄袭的模式是怎么样的↓↓↓

为什么大家说微博官方烂泥扶不上墙？说的无非就是新浪一不严打抄袭，二不配合检查。

这就涉及到一个问题：我们为什么发微博？

看一下微博的启动页↓↓↓

我们发微博的初衷不就是：唉，我觉得这事儿好好玩/mmp，发出来跟大家分享一下。

简而言之，微博官方对于内容原创性是没有要求的。

像上面截图的知乎酱，人家的逻辑就是：我也没说这是我回答的，我就是刷知乎看到好玩的回答来分享一下。侵权？不好意思，你都发现了那我删了吧。付费是永远不可能付费转载的。

还有大量公众性的东西，比如天气预报，比如新闻，这些东西混在一起，这就有了上面说的对于抄袭界定的问题。

除了界定的问题，抄袭形式也是一个重要的原因。

微博和空间的抄袭形式大部分都是截图啊！

要从图片中将抄袭的内容纠出来，就需要借助OCR技术。和OCR比起来，文本检查真的就只是简单的匹配识别。

别忘了在此之前还得把带文章的图片和普通图片区分开来。

对于反查重我想，道高一尺魔高一丈。洗稿现在都查不出来，我弄点花式背景，萌萌哒的字体，还不是易如反掌？完全不会影响人类阅读，但是就让你机器的识别正确率下去了。连识别的字都不正确，又谈何鉴定抄袭？

这种浪费算力的事，等量子计算真正进入商用领域或许可以考虑一下？

至于检测内容的来源，有两种获取方法：

1.和主流平台合作，获取官方数据，内容的提供交给别人来做，这样比较节约自家服务器的性能。

2.就是自己到处爬，但是会受到爬虫协议的制约，比如说↓↓↓

淘宝头条100%原创我是不信的。

新浪微博不提供自己平台内容的原因不是很明显吗，如果重复的算抄袭不让发，还有什么人气？这是让微博死啊！

最后编辑于：2017.12.11 07:07:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,542评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,822评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,912评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,449评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,500评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,370评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,193评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,074评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,505评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,722评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,841评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,569评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,168评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,783评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,918评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,962评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,781评论 2赞 354

如何看待维权骑士最新发布侵权排行中微博和QQ空间榜上无名？

推荐阅读更多精彩内容