首页论文查重动态职称论文检测-通过技术手段进行修改文献检测报告

职称论文检测-通过技术手段进行修改文献检测报告

时间:2014-03-30 编辑整理:早检测网 来源:早检测网

2011 年浙江省率先规定了职称评定新增参评文章的学术不端第三方检测要求, 基于对学术不端检测原理的分析,检测结果不应以检测数据为唯一标准,因为提供文章的类型、检查者的经验在一定程度上都会影响结果,因此,应对检测报告再次修正(要在检测报告中增加检测者的说明建议部分):包括减去系统误判的重复率,增加系统漏判的抄袭率,设定各种抄袭情况的权重系数等建议。


2011 年浙江省率先在职称评定方面新增了参评文章的学术不端检测要求, 并规定一般由该市较权威的高校图书馆负责第三方检测。[1]检测系统为以北大方正开发的cnki 学术不端检测系统,拥有几个端口,分类依据为文章类型:学位论文抄袭检测系统、科技期刊抄袭检测系统、社科期刊抄袭检测系统、大学生论文抄袭检测系统等。[2]现在检测系统还专门开发了一个全新的端口———“已发论文检测”,目前是收费端口,只有被cnki 审核通

过的机构才有权进行已发论文检测, 用这个通行证严控职称论文检测者的检测权, 以保证检测的公平合理性。从上面的介绍可以看出来,学术不端检测系统既可以按照学科进行分类, 也可以按照论文是否发表分为已发论文检测系统和未发论文检测系统。

一、职称论文检测系统的检测原理

将待评审的职称论文进行学术不端检测是cnki 学术不端检测系统的一大新应用, 其检测原理是和未发论文检测系统的原理相同, 只是检测手段稍有不同。

(一)检测原理———“文字比对”

20 世纪90 年代后,随着互联网技术的发展,信息内容迅速增多, 复制粘贴变得越来越容易与普遍。文本复制(抄袭)是学术不端文献的重要特征。随着内容管理与版权保护的需要,文本复制的检测研究也得到进一步发展,陆续提出数字指纹、VSM 等检测方法。[3]笔者通过对检测原理的深入研究发现, 目前国内外的学术不端检测系统都是以“文字比对”———提供文字复制比率为基本原理,也就是说出现了初级的文本复制类型的抄袭,系统可以轻易地识别。以这种“文字比对”为识别基础的学术不端检测系统采用的是“外形”对比以及针对文字、字母与数字的排列组合进行形式上的比对,如果被比对的两段文字的句式、用词、排列顺序相同,就可以被检测出来。但如果是意义抄袭就比较隐蔽,系统基本无法检测出来。

(二)检测手段的改进

将一篇待检测的职称论文放在未发论文检测系统中会发现全篇皆红, 系统会提示这篇论文和该作者的已发表的论文重复率为100%,也就是说未发论文检测系统是没有办法对已经发表的论文进行检测的, 主要是因为该系统缺少一个时间模块判定功能, 即自动删除该文章发表时间以及以后的“相似”论文。

基于此, 已发论文检测系统特别设置了论文发表时间功能, 并要求委托人提供论文的发表时间。据此时间,去除了发表时间在所测论文发表时间之后(含发表时间在同一天)的“相似”论文,最终获得由系统自动生成的“文字复制比”结论。

这个结论虽然不包含所测论文发表时间之后(含发表时间在同一天)的抄袭结果判定报告,但是对该文章发表之前,它是否存在抄袭的现象是可以检测的,这部分的功能和未发论文检测系统是一致的,所以我们可以适当借用未发论文检测系统部分适用的研究成果来探讨对检测结果的判断。

二、抄袭判断的量化指标

由上面的分析可知, 检测方只负责提供第三方检测报告, 真正使用报告的是各校的负责职称评定的人事部门,到目前为止,笔者尚未见到各人事部门有关于对检测系统结果统一、公开的量化标准。因此我们可以借用较为通行的未发论文的量的检测标准, 这个毕竟是通过大量的检测最终被实践证明的较为合理的标准。

通常情况下,对于待发论文检测来说,各期刊社和图书出版社根据自己的具体情况有不同的规定。有的编辑部认为,论文中超过10%的重复率即视为抄袭,而有的编辑部规定“雷同比例达20%为抄袭”,还有的放宽到了30%,对有争议的结果大部分都采取个别处理的方式, 没有制定出可以适用的行业标准, 基本上各编辑部根据投稿论文的平均水平制定适合本部门的比例。

对于学位论文检测来说, 高校将这个重合比的限度定为25%-30%。若检测发现超过这个比率, 论文就会被提交至该校学术委员会来判定是否存在抄袭行为。[4]例如中南大学为了保证检测结果的公正性,会将检测结果公示,对有异议的结果和超出规定值的论文检测结果, 组成相应学科的专家评议组, 对检测系统所得出结果做进一步的分析和审议。

总体来说, 使用机构对检测结果判定方面较为通行的数字方面的标准为,“一篇论文与数据库的文字重合率大于或等于10%, 属于句子抄袭;30%到50%之间属于段落抄袭;50%以上则被判断为整体抄袭。”[6]

综上所述, 这个可以借用的标准看似操作简单方便,标准明确,但实际还有一些值得探讨的部分,如果不具体问题辩证分析,只是以最终检测数据为唯一判断文章是否抄袭的标准, 恐怕是有失公允, 特别对像职称评定这样对人生有重大意义的事情,还需慎重,当然人事部门还有一个专家评议环节, 但是对部分可能面临在前面关卡就被枪毙的稿件存在一定的不公平。在笔者长期的检测工作中, 发现即便检测者并不了解一篇检测文章是否抄袭, 用笔者总结出来的一些经验仍然可以对结果进行科学修正, 但首要条件是搞清楚影响已发论文检测结果存在哪些因素。

三、影响职称论文检测结果的因素

(一)提供的待检测文档的类型及出处

Cnki 期刊学术不端文献检测系统目前以“中国学术期刊网络出版总库”为全文比对数据库,当前,可对DOC、TXT、CAJ、KDH、NH、PDF 等多种格式的文件进行比对,从词、句子到段落等方面,可检测抄袭、伪造、一稿多投、篡改、不正当署名、一个成果多篇发表等多种学术不端行为。

同时, 职称评审文件中规定: 优先从图书馆“中国知网CNKI 数据库”中下载CAJ 或PDF 格式电子版论文(专著、译著、教材及外文刊物上发表的论文除外)。如未在该数据库中检索到提交论文, 可以从图书馆其他数据库中继续查找并下载PDF 格式电子版论文, 如仍然没有, 方可提供WORD 文档。提交论文原件和完整论文的电子版(须PDF 格式,著作、教材除外)。

经过笔者的了解,在实际操作中,也是按照这个文件的规定做的,待检测文献的电子文档,并没有一定要求使用PDF 格式, 只要提供的电子文档能够正常地从中复制出文本来,PDF、DOC、CAJ(及其系列文档类型)、RTF 及DOCX 都可以。

首先是从cnki 学术网络中下载,可是受技术水平的限制,很多早期的文章是以 PDF 照片———图片的形式存在的,不能复制文本,还有部分编辑部提供的原稿采用了密码或版权保护也不能复制,另外一种情况是由于编辑部新发论文上网需要一定周期,新发论文也没有原始文档,只能向送检人索要编辑部的修改文档,当然,非cnki 下载所得的文档,所有的文档类型要在检测汇总表中予以说明。

由以上的复杂情况来看,不同类型、不同情况下提供的电子文档, 在检测中会出现检测比例的不同。如一位研究者反映,他在《航空学报》个人比对库中的一篇文章(. doc 格式,为作者提交的录用定稿)已经在中国期刊网上发布(具体采用的比对文件格式未知),新提交的一篇稿件被检测出与这篇文章有文字重合的问题,但检测结果中该稿与个人对比库中的稿件间的文字复制比为46%,而与同一篇文章在中国期刊网中的版本的文字复制比为26%,不同的格式竟然造成检测结果间20 个百分点的差别。

可见不同的文档形式会对检测结果产生较大的影响,这种现象需被重视。

(二)第三方检测模式

毋庸置疑, 检测系统在程序上是非常容易操作的, 但任何一种程序设计都会存在一些设计没有考虑周全的部分和现有的技术水平和使用条件无法达到的要求。检测方式是图书馆的第三方检测, 由于学科的限制, 检测者对文章水平没有直观感受只能信赖软件,以系统检测结果出一份报告。一般来说,检测者不会对检测结果的百分比多少做一个结论,只是提交结果,评价者是由职称管理部门和专家来确定的。

当然学术不端检测系统是一个初步的检测,后期还有专家评议一个环节来判断文章的优劣。但是对于一些处于临界值的稿件, 如果只是看到其检测结果超标就进行清退对被检测者是不公平的,因为它已经没有资格进入下一道环节了。

第三方检测者只是在出具汇总报告时添加的一个说明文字,提示一些具体情况,笔者认为可以使用一些可以共通的原则, 对检测结果要出具更具体的修正报告, 包括剔除系统误判的部分和系统未发现问题的部分,为参评者提供公正的服务。

四、对职称论文检测报告的修正

要制定可以通用再研判的标准, 首先要搞清楚“文字复制比”与“文字抄袭率”的关系,我们通常看到的学术不端检测系统提供的是“文字复制比”,但它绝对不等于“文字抄袭率”。“文字复制比” 是系统提供的有抄袭嫌疑的地方,“文字抄袭率”是我们已经定性的抄袭的文章的比例,两者性质是截然不同的。基于此,笔者认为真正的文章抄袭率应该如下修正:

文章抄袭率=文字复制比—系统误判+系统漏判

这里,“文字复制比” 是系统提供的百分比,“系统误判”是指虽然被系统检测出来有抄袭的嫌疑,但并不能算作抄袭的部分,“系统漏判”是指虽然系统没有检测出来,但是存在隐性抄袭的部分。

(一)减掉系统误判的抄袭率

1. 系统收录不全。所有的检测系统只默认首次在文献库中出现的文章为原创, 在其以后提交的论文中出现了相同的文字并且没有标注出的,即被认定为抄袭, 如果2位作者一先一后引用了如书籍、引用较早论文、引用未被系统收录的论文中的部位文字,后引用者一定会被系统认定抄袭,这种情况导致的抄袭率在出具的报告中建议适当减掉,否则有失公允。

2. 作者误引了抄袭文字, 必要时通知作者申诉。对这点,职称检测政策中规定了“论文中有明确注明为引自其他论文中的内容,不计入”。虽然注意到了这种情况, 但统统减掉还会有漏网之鱼的嫌疑,在后面会具体讨论。

3. 按目前政策,下列特殊情况可免于计入相似比中:(1) 与本人数据库中的同一文章相似的,不计入。这种情况也存在,有时系统对同一篇文章会多次录入,对这个原因导致的相似比应剔除。(2)与本人硕士、博士毕业论文中相似的,不计入。博士、硕士论文虽然被收录到了cnki 文献库中,但是并不属于印刷及公开发表的文章,对这个原因导致的相似比应剔除。(3)与本人论文发表后,他人引用本人论文中的内容,不计入。(4)论文中有明确注明为引自其他论文中的内容,不计入。(5)送检论文中的同一段文字内容,和其他多篇文章相似的,则该段文字造成的相似比,按一次计入,不重复累加。

以上几种条款起到了保驾护航的作用都应该在检测报告中适当删减, 但也有一些情况虽然没有被系统检测出,但一旦被查到是要严厉指出的。

(二)增补系统漏判的抄袭率:设定各种抄袭情况的权重系数有的文章虽然检测的抄袭率很低, 但是文章若存在以下一些状况, 应适当建议增补权重系数一项,具体为:

1. 有对句义、观点、主题抄袭现象,无个人观点,及对外文文献套改翻译抄袭等。这种抄袭手段隐蔽,比较难发现,性质也比较恶劣,对此,可以增加公示环节,以增强被检测者间互相监督,更有利于发现比较隐蔽的抄袭,一旦发现并查实,在所出具的报告中应明确指出: 对检测结果乘以适度的权重系数,以增加其抄袭率。

2. 有对图表、实验方法抄袭现象, 情节严重的。对于这点,曾有研究者指出检测系统对于含数学公式的PDF、WORD 格式的文件具有一定的局限性,检测效果不理想。就目前检测的情况来看,对含公式、图表较多的论文,该系统的作用仍然存在很大的局限性,所出具的报告中应明确指出对这类型的文档建议另请专家评审。

3. 论文中有明确注明为引自其他论文中的内容,不计入,在实际的检测过程中会发现有的作者明明没有引用, 也乱标参考文献引用以显示所看论文数量较多,对这种情况,发现了一定要在检测报告中明确指出。

4. 文章的后部重合度(ER)项较高,即在文章中的“解决问题”部分和文章的核心句子部分抄袭率较高,但全文抄袭率较低。这种情况应视情况加一个权重系数,拉高全文的抄袭率,因为文章核心部分的抄袭性质比较严重。这一定要在出具的检测报告中明确指出。

Cnki 检测系统是智能很强的系统, 能帮助检测者高效检测稿件,但是,稿件的情况非常复杂,应该具体情况具体分析, 对检测所出具的报告一定要慎重, 准确判断报告中哪些是依据原则要减掉的系统误判百分比, 哪些是要增加或建议加重权重的抄袭率, 建议有关部门尽快做出统一的标准供检测者操作。另外对检测结果要实行公示制度和作者申辩制度,有利于发现比较隐蔽的抄袭,以做到对检测结果的完全的公正和客观。


赵蔚  宁波大学学报编辑部, 浙江宁波315211

在线咨询
在线留言
系统列表
返回顶部