这篇文章好久不见,文字太多了,虽然当时有感而发,现在着实看不下去。刚才同门师弟问查重的事情,突然想起了这。
再三说明,不要胡乱用各种查重系统,最后一次学校用啥查自己就用啥查。
建议直接去官网查:http://www.paperpass.com/f/8cef99 别在其他地方查了,造成论文泄露等情况。
上交了论文查重,今天晚些时候年级通知我们,结果出来了,没有公布相似的比例,但通过了。这算是过了论文的第一关了,略微松了一口气,回想之前改论文的痛苦过程,觉得应该把一些经验记录下来,具体的可以再。
现在流行的相似度匹配系统大概有这么几类:知网、paperpass、维普及万方等。
这些系统的原理都是一样的,都是把你提交的论文拆分成一堆句子,再拆分成一堆关键字,然后与他们维护的数据库做对比,计算重复的文字在你文章里的比重,算法类似于百度的关键字匹配,这么说,大家也就明白了,你简单地把一个句子的各别词换成同意词,把字句变被字句,加一两个“的”等是不行的,除非你把句子40%的词都换了。
略有不同的他们数据库内文献的多少、重复率及断定为相似的阀值。数据库的大小就不说了,那后两个是什么呢?
指可以被认定为重复句的最小句长,举个例子,现在的系统都把分号与句号当作分句符,paperpass把这个最小句长设为8,这意味着小于8个字的句子无论怎样都不会被认为是重复的,因为你没有到人家检测的门槛。知网的好像是13。
相似的阀值指和原文相似多少以上为重复,举个例子,paperpass把你的文章中的文字分为三种绿色、橙色与红色,分别表示该句与原文的重复度在40%以下、40%~60%、60%以上,除绿色以外其他部分都会被计算为相似度,而知网的阀值好像为60%,只会把你的文章中的句子分为两类:重复与原创。同时,还要说明一下,这个阀值有可能不是固定的,一般系统会设一个重点检查的论文,比如说,你抄文献A的比较多,知网查出你的文章与A的重复度在5%以上,系统就会重点查A,如果你这句子与A有50%的相似也可能会判为重复。
我所理解的查重系统的大概原理也就这些了。下面介绍下我们常用的系统:知网与paperpass。知网是官方的系统,大部分学校用的都是知网,当然我校也是;paperpass为一个公司开发的,因为操作方便、不太贵且非常严格,被我们广泛使用,我个人只用过paperpass。因为,只有校方的人有知网的入口,他们在淘宝上买,一次要300,而且经常要改的话可能要检数次,对学生是一笔很大的开销。除此外,至于我为什么没用知网查,还有个小故事,教研室和我一同改论文的一兄弟,paperpass改到了17%,用知网查了一个才0.7%,我这个18%也就非常放心了。
paperpass查一次是一万字15元,我的正文纯字数3万4,加标点近4万,检一次50多元。paperpass由于参数严格,所以结果会高于知网的,至于高多少这没有准。但使用paperpass时要注意的是,paperpass的数据库并没有知网全,他们自已也承认,他们只保证有知网90%以上的文献,那哪部分没有呢?据我观察是最新的没有,paperpass是商业机构,他们没有知网的数据库,他们数据的来源可想而知---买个知网的号,然后“扒”论文,类似于百度的人说我们的一大工作是“扒”网页。所以最新的没来的及入库的,当然也检不到,不过还好的是,他有“自建库”功能,如果你觉得你抄了某最新文献B比较多了,但没查出来,可以自已上传。
同时,因为paperpass有时过于严格,会出现,你都已经看不出改动了,他还是橙色,比如我的18%、我兄弟的17%。这时就可以不改了,过尤不及,0.7也说不过去。
下面说下我的方法,这个网上都有,而且更全,我怕不过,但又不想在这上面费更多的时间,就简单地用了几招:
1.尽量用长句,相当于加大基数。
2.拼凑,不是把不同文献的句子拼成一段,这样没用,而是把几篇文章中的同一意思的几个句子,拼成一句。
3.翻译,翻译国外的论文基本不会发生重复,而且从道义上讲也是合理的,翻译也是自己的工作,是为学术做了贡献的。毕竟,那些评你论文的教授们也没打算让你有什么开创性的成果,有自己的工作就可以了。
4.看一遍原文用自己的话去阐述,这也是个好办法,起码自己是完全懂了的。
个人建议用后两种,论文查重系统的设计不是为了查重而查重的,设计的初衷还是希望小硕们尽量原创,设计的原则是“可以放过一个坏人,但决不错怪一个好人”,只要是自已写的或是翻译的,通过就是小意思了。再指说,硕士论文的目的就是让人具有基本的研究能力,好好做还是收获颇丰的。在学位没问题的前题下,还是自已多多原创吧!
PaperPass官网:http://www.paperpass.com/f/8cef99