首页论文查重动态国内外学术不端文献检测系统平台的比较研究

国内外学术不端文献检测系统平台的比较研究

时间:2014-03-07 编辑整理:早检测网 来源:早检测网

如何防范 学术不端的问题在党和国家科教兴国的 全局工 作中具 有十分 重要的 地位, 是关系 到党和 国家科 学技术事业发展的问题之一 . 文章研究了国内各种学术不端文献检测系统平台的 形式和方式, 调查了 国际上的各 种类型的学 术不端献检测系统平台, 并进行了一定的比较。结果表明, 通过互联网组织和强大数据库 后台支持 运行的学术 不端文献检 测系统平台, 在实际应用上有较大优势。

学术界, 特别是高校和科研机构, 一 直被大家誉为 “象牙塔” 。人们希望在日趋功利 化的 社会中, 能 存留 着这样 一片净土。然而, 近年来在 我们认为纯洁的这片净土上, 却发生了不少抄袭造假、 权学交易等学术不端事件--汪晖 事件; 浙大"论文造假"事件; 刘兴土院士事件等等。

学术不端事件频发, 让越来越多的人 对中国科 技事业的未来开始担忧。 20 世纪以来, 科研经费成为一种稀缺资源配置, 随着科研队伍的扩 大, 不可 避免地 在有 限资 源和职 位上出现竞争。一直 以来, 学术 界上 上下下 都在 强调学风建设,学术不端事件却 因何 屡禁不 止? 对于 这一 连串 学术造 假事件所暴露出 的学 术 评估 乏力 问 题, 复旦 大 学葛 剑雄 教 授呼吁: "我们需要独立学术机构的独立调查"。清华大学教授蔡继明建议, 目前学术监管可以通过引入民间第三 方的独立审查机构来保证监管 的公开、 透明、 公平。

为了贯彻落实好 这个第三方的独立审查 机构, 并且使这个机构有客观公正的态度和作 风, 在计算 机信息飞 快发展的今天, 我们首先可以做的就是努力建设一 个有着全 面的系统的学术不端文献 检测 系统平 台的 第三方 机构。 这个平 台的建设对提高我国科 技发 展水 平、 加快建 设科 技期刊 强国, 对全面建设小康社会、 加 快推 进社 会主义 现代 化、 实现中华民族伟大复兴具有重大而深远的意义。

什么是学术不端行为

19 92 年, 由美国国家 科学院、 国家工 程院和国家 医学研究院组成的 2 2 位科学家小 组给出的学术不端行为的定义: 在申请课题、 实施研究报告结果的过程 中出现的捏 造、篡改或抄袭行为。即不端行为主要被限定在 伪造、 篡改、 抄袭  ( FFP ) ( Fabrication,Falsification,Plagiarism ) 三者中。   

中国科协科技 工作者 道德 与权益 工作 委员 会提出 了我国学术不端行为的七 种表 现形 式: 抄 袭剽 窃他人 成果、 伪造篡改实验数据、 随意侵占他人科研成 果、 重 复发表论文、 学术论文质量降低和育人的不负责 任、 学术 评审和项目 申报中突出个人利益、 过分追求名利和助长浮躁之风。

在中国著名生命科学家邹承鲁看来: 在我国学术 上的不端行为还应包括伪 造学 历和工 作经 历、 贬低 前人成 果、 自我夸张宣传、 一稿多投、 在自己并无贡 献的论文 上署名、 为商业广告作不符合实际的宣传等。

虽然以上各种 定义 存在差 别, 但实 质内容 大体 相同, 即学术不端行为是指 在学术 研究 过程中 出现 的违 背科学 共同体行为规范、 弄虚作假、 抄 袭剽 窃或其 他违 背公 共行为 准则的行为。大致都把 现有主 要的 学术不 端行 为分 为以下 这四类: 抄袭、 伪造、 篡改 及其他。其他  主要包括不当署名、 一稿多投、 一个学术成果多 篇发表 ( 不包 括科 研阶 段性成 果的发表 ) 等不端行为。

国内科技文献数据库的学术不端文献检测系统平台

CN K I科技期刊学术不端文献检测系统 ( A M LC )

CN K I科研诚信管理系 统研究中心是同方 知网出版集团旗下从事科研诚信管理产品研发的专门机构, 中心 主要从事学术不端文献检测系统、 科研诚信档案管理系统等软件研发。同时也承担相关机构委托的科研诚信监测、 管 理等 事务。还为各单位的学术评价提 供科研诚信方 面的参考 数据,辅助进行学术评价。 它旗下 的中国 学术期刊 ( 光 盘版 ) 电子杂志社 ( CNK I) 的科技 期刊学 术不端 文献检 测系统 ( A M L C )从 2 006 年开始正式立项研发到 目前已经达 到大规模实用化的成熟程度。 2008 年底, A M LC 管理 办公室 开始 为 CN K I提供每期数据的期刊编 辑部免费提供刚开发完成的科技期刊学术不端文献检测系 统 ( A M LC ) 。

如期刊编辑部 希望 使用该 系统, 可以邮寄、 传真方式向中国学术期刊 ( 光盘版 ) 电子杂志社 A M LC管理办公 室提交 A M LC使用申请  , 签订授权使用协议, 就可以通过CNK I的客服人员直接开通本编辑部的系统使用账 号, 这 个账号只能用于检测本刊的来 稿和已发表文献。

A M LC系统建设是 一个系统工程, 涉及检测方法设计、 比对数据库建设、 规范数据库建设、大规模数据测试、系统性能测试等多个环节。系统目前的检测范围涵盖中国学术期刊网络出版总库、 中国博士论文网络 出版总库、 中国优秀硕士论文网络出版总库、 中国 报纸全 文数 据库、 中国 专利全 文数 据库( 知网版 ) 、 中国 科技成果 数据库 ( 知网版 ) 、 中 国年鉴 网络出版总库、 中国工具书数据库、 中国标准数据库 ( 知网版 ) 。正陆续引进英文数据 库、 网 络数据 库等资 源。 A M LC 可以 进行快速文献比对。以 C NK I 各库为 比对基础库, 在 2 ~ 5 秒内完成一篇 5000 汉字的文献比对, 出 示比对 结果。并支 持批 处理。用户可上传包含多篇文献的压缩文件进行检测。其比对结果经过标红, 且有定位功能。能够快速发现文字重 复的部分, 方便快捷。另外在结果中将详细显示比对源文献的篇 名、 作者、发表刊物、 发表时间等信息, 便于用户参考。

经笔者所在编辑部试 用, AM LC可 以检测 的文献 格式包括: ca j 、 doc 、 p d f 、 t x t 文本以及包括 上述格式文 献的压缩文 件。用户也可对已提交 文献进 行重 新检 测、 修 改、 删除操作。点击提交 文 献 的 篇 名 即 可 细 览 该 文 献 的 监 测 结 果, 如 图 1所示。

另外, 用户还可 以删除 系统 给出的 某些 抄袭来 源文 献,得到新检测结果。如果用户点击抄 袭来源篇 名, 就 可以查看文件相似内容对比情 况了, 如图 2 所示。

万方论文 相似性检测系统

万方论文相似性检测系统是基于万方数据公司所收录的期刊论文、 学位论文、 万方数值数字化期刊全文数值库、 万方数值学位论文、 常识服务平台的全文数值库等海量数据, 运用先进的检测算法研制而成, 它具有检测速度快、 检测准确等特点。

国内第二大数 据集成 商万 方数 据, 在 CNK I 推出 A M LC一年零一个季度之后终 于拿出了一个与 CNK I相提并论的产品, 在 201 0 的 3 月, 万方公司的网站 上出现了 万方论 文相似性检测 系统 的 链 接 h t t p : / / check . w an f a n gda t a . co m. c n , 通 过论文相似性检验测定体系的官网, 万方数据将检测 费用定义在 10 元 每万字, 可以 直接通 过自己在万方数据的账户登录, 并进行论文的检测, 通 过检 测可以 看到 万方 数据提 供了简明和详细两种检测报 告, 见图 3 、 图 4 。

维普通达论文引用检测系统

国内第三大数 据集 成商维 普资 讯, 在 CNK I 推出 A M LC一年零 3 个季度和 万方数 据推 出论文 相似 性检 系统半 年之后终于 也拿 出 了 一 个 与 CNK I 和 万 方 数 据 相 提 并 论 的 产品 -- 论文引用检测 系统.。维普通达论文引用检测系统经过部分高校及社会个人用户的测试, 已经面向企事业用户、 个人用 户全面 公开试用, 用户仅需填写真实的邮箱快速 注册即可享受论文引用检测服务。

论文检测系统是基于多年数据挖掘技术领域的成功经验, 应用于文本比对检测领域上的 成熟产品。该系统将自主研发的大规模文本处理技术 , 应用于论文内容创新性评价系统, 能够高效的与海 量文 本资 源进行 比对, 检 测出重 复及引用片段等, 并且能够 计算 出论 文的复 写率、 引用率及自写率 ( 对论文内容创新性评价 ) 等指标。

该系统集合了专业的数据库资源, 针对不同类 型用户的需求, 可提供专业的个人自检测 服务、 高校学生论文检测服务、 期刊稿件检测服务以及其他类型的检测服务等。

该系统可以满足 教育界、 出版社、 媒体、 科研机 构等行业客户及各类论文撰写 者等不同用户的需求。通过该系统, 我们 可以查 出该 文作 者的自 写率 是多少,见图 5 。

ROST反剽窃系统 ( 学术论文不端行为检测系统 )

RO S T 反剽窃系统 ( 学术论文不端行为检测系统 ) 是由武汉大学信息管理学院出版科学系沈阳教授带领课题小组开发成功的文档 相似 性检测 工具。可有效检测论文的抄袭相似情况, 经过 6 年的研 发 ( 早 期版本 叫做网盗克星 ) , 推出了 6 1 0 版本。

RO S T 反剽窃系统可 以自动将文 档切割 为多个 5 0 ~ 200字 ( 可自定义 ) 的小 文本, 通过 混合 引擎 与 1 88 亿个 网 页和49 0 万篇文献进行柔性匹配 , 标 示出每 个文本块 与文献 库中的文献的最大相似度。由此软件 统计出相似度 \ 95 % ( 基本原封不动拷贝 ) 与相 似度 \ 8 0 % ( 拷贝 后略 作修 改 ) 的 字数所占总字数比例。 软件把 这个 比例作 为相 似程 度参考 衡量指标。 / R O ST 反剽 窃系 统 0 与 其他 系统 最大 的不 同之 处在于覆盖了 1 88 亿个网页以及 49 0 万篇论文。

自 R O ST 反剽窃系统 200 8 年 4月推 出以来, 先后在武汉大学信息管理学 院研 究生 办公 室、 C SSC I核 心期 刊 5出 版科学 6、 5 图书情报 知识 6 试用, 在 2 008 年 1 1 月举办的第二届数字时代出版产业发 展与人 才培 养国际 学术 研讨 会对会 议论文进行全面检测, 并在 20 08 年 12 月 的第三届 中国期 刊创新年会向全国期刊界做了 全面推介, 取得了良好的效果。现在

RO S T 反剽窃 系统 已 经进 一 步 在 5中 国社 会 工 作 6 、 北京 大学、 厦门大 学、 上海理 工大学、 成都 理工大 学、 浙江传媒 学院等全国近百所高校和 期刊社中试用。

国内学术不端文献检测平台的比较

随着计算机技术 在国内的广泛兴起, 对于学术 论文不端行为检测系统的 软件 开发浪 潮也 一浪高 过一 浪。网络和软件的开发成功成为了国内反学术 不端行为重 要的里程碑, 也成为反学术论文 不端 行为的 重要 力量。通 过对 国内几个著名的学术论文不端 行为 检测系 统的 介绍, 我们发现, 国内的学术论文不端行为检测系统都是由具有背景的各高校和研究所开发 ( 见表 1) 。它们在功能和形式上大同小 异, 也有各自不同的软件算法, 支持的文件类型也非常相近, 只是由于后台核心数据库的不 同, 造成了最终 检测结果有 所差别。因此一个学术论文不 端行为 检测 系统的 强大 与否 根本在于其后台比对数据库是否 收录了以前所有公开发表的文献。由于现在 CNK I和万方争相采取和各个编辑部签订独家合作的协议, 如果某一编辑部 签订这 一协议之 后, 就势必造成另一数据库该刊物的原始 数据文献缺失, 也就 造成了现今国内没有一家数据库是完整收录所有刊物文献 数据 的。由于数据库文献不全, 所以国内任何一家 开发单位 的产品都不能说百分百保证 被检测 的数 据一定 可以 与以 往所有 公开发表的中文文献 数据 进行比 对。所以 各编 辑部 如果追 求最全数据比对效果 的话, 最好 同时 使用各 个开 发单位 的产 品。另外我们也同时呼吁国家 政府管理部 门出 面叫 停所谓 的签独家协议的做法, 这 样做不仅仅造成的 数据 库内容不完 整,更是造成了社会资源 的极大浪费。

国外科技文献数据库的学术不端文献检测系统平台

反学术不端反 剽窃系 统作 为论文 初筛 工具 已经成 为欧美高校的常用软 件, 国外高 校对 于反剽 窃的 研究高 度重 视,在反剽 窃 领 域 的 研 究 也 比 较 成 熟, 六年来 国际反剽窃大会已经举行了三届, 相对来说前面介绍的国内相关研究还比较滞后。

Turnitin

T u r n i t i n 是全球最权威的 英文检 测系统, 被提交 检测的文章均为系统自 动检 测, 无任何人工的干预, 所检测出来的结果是系统与 Tu rn i t i n 所收录的海量文献进行对比分析后自动得出的结果。

T u r n i t i n 提 供给教 育工 作者 强大而 有效 的工具, 来 促进学生们的写作技巧和 独立评价思 考能力。 T u r n i t i n 已 经成功地在全世界 9 0 多个国 家、 超过 70 00 所高 等院 校应 用, 全球数百万的教师及学生 都在使用 T u r n i t i n 的实时评 分工具和剽窃侦测服务。

十多年 来 T u r n i t i n 已经成为业界的领导者。每天收到的学生论文超过 1 000 00 份, 已经成为教育界必不可少的工具。

T u r n i t i n 依靠行业中最先进的搜索技 术建立的持 续增长的庞大数据库, 来帮助教育工作者对学生 作业中含 有的不恰当的引用、 或潜在的剽窃行为进行侦 测和比对。每 一份反馈的报告都提供给教 师们一 次教 育自己 的学 生如 何正确 地引用文献, 并以此捍卫学术诚信。

T u r n i t i n 是 世界级 最佳 解决 方案, 港台 和新 加坡的 很多高校也在学校网站 上有详 细指导 学生 使用 T u r n i t i n 的说 明,如香港理工大 学, 还有 新加 坡所 有的 四所 大学 均已 使用T u r n i t i n。

T u r n i t i n 的比对数据库中拥有超 过 4 千万 学生论 文的数据库, 索引超过 120 亿的 i n t er n et 网页, 超过 1 00 00 种 主流报纸、 杂志及学术期刊, 数以千记的 书籍, 包含文学 名著等。所以 T u r n i t i n 是唯一有技术能力来侦 测是否 是购买 的论文、 伪造或是学生之间的相互 剽窃的系统。

Cross Check

C rossCh eck是 C ross R e f 组织下属的一个子网。由于近年来出版集团也和 大学 一样发 现有 越来越 多的 剽窃行 为。总部位于荷兰的 E l sev i er公司和总部位于英国牛津 的 B l ac kw e l l公司是学术界的两大出 版集团, 一 共出版了 2 50 0 多种期 刊。因为剽窃正在变成一种普遍情况 , 出版集 团也和大学 一样不得不采取 行动 了。 B l ac k w e l l 的 总裁 B ob C a m pb el l 说: ”编辑们越来越频繁地向我们 抱怨这类事情“。

所以出版集团 的联 合组 织 C rossR ef 就成 为最 有可 能担当此项责 任的 系统 平台。 C ross R e f最 初 是由 几家 出 版商于 2 000 年创立的 非营利 性组 织, 其 宗旨 是通 过出 版商 之间的集体合作, 让用户能 够访问 原始研 究内 容。 C r os s R ef 也可以被 看 作是 一个 数据 库, 存储 它代 理注 册的 DO I ; C r os s R ef还是一个技术架构, 用来建立在不同出版 商的网络平 台上出版的 ST M ( S ci e n ce / T echn i ca l / M ed i cal ) 期 刊 内 容 之 间 的 链

接, 称之为跨出版商链接 , 或  跨平台链接 , 这是 C r os s R ef最重要的作用。

这种链接机 制背 后最 核心 的技 术是 DO I ( D i g i t a l O b j ectI d e n t i f i cat or , 数字对象标识符 ) , 就是给 网上的 每篇文 章分配一个唯一的身份识别 代码。目前 C r os s R ef 已有 3 000 多家会员单位 ( 出版商、 学协会等 ) 。

C rossCh eck是 由 C r os s R ef 推出 的一 项服 务, 用于帮助检测论文是否存在剽 窃 行 为。 它 的 软 件 技 术 来 自 于iThenticate 。在国际出 版链接 协会 ( P I LA ) 牵 头下, 国 际几大出版商和电子电气工 程师协会 ( I E EE ) 及美国计算 机学会( A C M ) 共同 参与 了这 项全 球性 项 目。正 是由 于 C r os sc h ec k能够在全球 范围 内 最大 程度 地 检查 和防 范 学术 剽窃 行 为,达到严正学术道德, 净化学术空气的目的, 使其一举赢得了全球学术与专业出版者 协会 ( ALPSP ) 颁发的 20 08 年度全球最佳出版创新奖。目前全球 会员单 位有 5 0 多家, 包 括一些国际科学出版集团和科 学学会: 自然出版 集团 ( NP G ) , 爱思唯尔, 施普林格 , 威立 # 布莱克威尔 ( W i l ey B l ack w el l ) , 英国医 学 期 刊 出 版 集 团 ( B M J ) , 泰 勒 弗 朗 西 斯 出 版 集 团( T a y l or & F ra n c i s ) , 美国 科学进 步协 会 ( AA A S ) , 美国 物理学会 ( APS ) 等。我国的 5 浙江大学学报 ( 英文版 ) 6 在国家自然科学基金 的重点 期刊 项目的 资助 下, 也于 200 8 年 成为中国第一家 C ross c h ec k 会员。

C r ossCh e ck的工作原理其实很简单, 用户通 过客户端将可疑论文上传, 然后系统将该论文与 C r os s Ch ec k 数据库中的已发表文献进行比较, 最后报告给用户可疑论文与数据库中已发表文献的相似度, 以百分比表示, 并将相似的文本标示出来。

当其相似度 总量超 过 50 % 时, 系 统会自 动显示黄 色背景, 如图 6 所示, 提醒操作者的注意。只要点击其中的相似度数据, 系统便直接进入具体报告列表, 操作者可以对论文具体的 / 文本重叠 0 现象进行分析判断。其中, 界面的左栏为上传的被检测 文本, 凡 与之 匹配 的对 比文 献相 似部 分系统以相同的颜色 和序 列号标 识; 右 栏的 每个 单篇 匹配 文献的相似度大小顺序排列 。

Safeassign

Safe Assign是 B l ackb oar d 教 学 管 理 平 台 功 能 的 一 部分, B l ac k board 用户无需额外费用, 能够将提交的论 文与指定的资源库中的论文 进行相 似度对比 检测, 并 将检测 结果 ( 包括匹配度、 分析报告 ) 反 馈给 用户; 与成 绩中 心互连, 教 师可在成绩中心为检测后 的论文打分。 S af e A ss i gn 同样也 是强有力的反抄袭检 测工具, S af e A s s i gn 采 用独 特的 原创 性检 测算法将提交的文章与数据库内批 量收藏的作品 进行对比, 这些

数据库包括: 数以亿计的公众可获取的文 件的综合 信息的互联网; 有 数 百 万 的当 前 文 章, 且 每 周 都 在 更 新 的 P r o Q u estA B I / I n f or m 数据库; 机构的用户提交的 所有文 献研究 机构的文档库: 还包括有各地学生们自愿提交的 文献全球 参考数据库 ( G l oba l R ef ere n ce D at abas e) ; 文 献在专 业机构的数据 库内自动进行检测。

爱思唯尔的 PERK

爱思唯尔作为世 界上最大的学术期刊出 版机构, 旗下拥有18 00 多种期刊。 2008 年 3 月 4 日, 爱思唯尔发布了 5出版道德资 源工 具 包 6 ( Pub l i sh i ng E t h i cs R esou r ce K i t , PERK ) 。PER K 是一个在线资源, 用以处理期刊编辑出版 中的论文是否有学术不端 问题。这 是一 个爱思 唯尔 出版 道德准 则的单一标准点。同时作 为一个 在线资 源, PER K 链 接到爱 思唯尔内外各种与出版道德相关的 政策和程序性 文件, 为期刊编辑提供及时和广泛的在线支持。

国外其他 科学文献检测平台

和国内的情况不同的是, 除了上述几 家国际著 名的学术不端文献检测平台外, 国外还有相当多数量的学术不 端文献检测 平 台。 如 马 里 兰 大 学 的 T he P l ag i ari s m C h ec k e,p l ag i a ri s m c h ec k er 公司 的 检测 平台

, A rt i cl e C h ec k er公司的检测平台, p l ag i ar i s m search 公司的检测平台,p l ag i a ri s m d et ect 公司的检测平台, t h e p l a g i ar i s m 公司的检测平台, 等等。

国内学术不端文献检测系统平台与国际间的差距

国内学术不端 文献检 测系 统的建 立时 间相 比国外 的学术不端文献检测系 统来 说很短 , 技 术方 面都 还很不 完善, 无论从算法结构, 还是后台核心数据库, 用户数, 还有用 户选择上都无法和国际巨头相提并论。更 重要一点, 国内的 学术不端文献检测系统在英文文献上毫 无办法, 这为一些国 际化程度较高的高校要选择使用此类系 统产生一定 的障碍, 通过同样处于华语区的新 加坡 和香港 的高 校, 我们 可以发 现, 使用国际知名的学术不端文 献检测系统是多数。

结合国内国外 的几个 学术 不端文 献检 测系 统平台 的实例, 我们可以发现凡是通过互联网组织和 强大数据库 后台支持运行的学术不端文献检测系统 平台都相当 的成熟, 并且数据的更新和维护非常及时, 无论在实际应 用和现实情 况上都有较大优势。因此 建议政 府部 门在支 持建 立新 的学术 不端文献检测系统平台时, 可以考虑建设含有 现今完整中 文文献数据库和强大中文网络搜索比对 功能的科学 文献平台, 在此平台上建立的反学术不端、 反剽窃检测平台必然获得巨大的成功。

结语

所有的科学研究, 都是在前人劳动成果的基础上进行的,并有所创新、 有所提高、 有所发 展。作 者在撰 写论文时, 引用他人重要学术观点、 理论、 成果、 研究方法或数 据结果、 调查结论等体现出科学的继 承性及 对他人 劳动的 尊重。作为一个科研工作者, 标 注引用他 人学术成果 是一种符 合科学伦理道德的行为。而现有 的学术不端 文献检测 系统, 完全 可以作为作者的一种 自我检查。对于作 者来说, 学术不端文 献检测系统的好处是显而 易见的, 这个由计算 机数字信 息处理系统所组成的功能平台 实际上起到 的作用是 预防剽窃, 防止该作者将文献投稿并公开出版后被公众指认为剽窃而后悔莫及。

作为编辑来说, 也要认识到仅仅根据 文字复制 比例判断抄袭行为是有局限 性的, 一 定要 采取科 学的 态度, 具体 情况具体分析, 理性地 作出 判断。特 别是简 单、 机械地 整个 句子抄袭在学术不端文献检测系统 推广后会大量 减少, 可以遇见在不久的将来, 更隐蔽、 更 有欺 骗性的 剽窃 论文 将会大 量出现。因此对于编 辑来说, 任 何检 测系统 都不 是万能 的, 对系统的结果不宜盲从, 无 论是 检测 结果有 问题 的, 还是没 有问题的, 都不一定代表是 最后 真正 结果, 更不 能将 计算机 判断的结果作为判断 此论 文到底 有没 有剽窃 的最 终结 果。期刊编辑对各类学术不 端检测 系统 检测的 结果 必须 要人工 2 次核实, 才能对论文 最终 做出客 观、 公正的 评价。如 果检 测出来重复的是具有共性 、 普适性、 权威性的并且 引用过的 内容,可以剔除嫌疑, 而经同行评议发现论文作 者盗用他 人学术观点、 理论、 数据、 图表 、 结 论成果 并在文 字表述 有大量改 写而通过学术不端文献 检测系 统未 能检出 的文 章一 样判断 为抄袭, 退稿并列入黑名单。


张旻浩  高国龙  钱俊龙


在线咨询
在线留言
系统列表
返回顶部