首页论文查重动态CNKI学术搜索引擎的特点及发展趋势研究

CNKI学术搜索引擎的特点及发展趋势研究

时间:2014-03-21 编辑整理:早检测网 来源:早检测网

阐述,知识搜索引擎的功能对,知识搜索引擎的特点进行了分析指出,知识搜索引擎的不足对学术搜索引擎的发展方向提出建议指出,学术搜索引擎的发展趋势是多元化个性化智能化和多媒体化,

近年来,随着IT技术在学术领域广泛,深入的应用,各种数字学术信息资源数量不断膨胀,而使用普通的搜索引擎搜索浩如烟海的学术信息存在着检重率过多,内容与所需信息的相关性不匹配,深层网页资源容易漏检等问题,这给需要搜索专业信息的科研人员带来诸多不便.为了能使科研人员及时,高效,准确地查找到所需要的学术资源,富有个性的,学术性的,专业性的学术搜索引擎应运而生.学术搜索引擎对存在于互联网上的各类学术资源进行二次提炼整合,过滤掉普通搜索中的大量无用信息,帮助用户更精准,更直接地在整个学术领域中确定相关性最强的研究信息.CNKI知识搜索是在整合中国学术期刊网络资源基础上推出的中文学术搜索引擎,是我国拥有自主知识产权的文献检索系统和数字化学习与研究的平台.本文主要介绍其检索功能和特色并对其发展建设提出建议.

1 CNKI知识搜索概况

CNKI文献搜索是清华同方知网公司以CNKI总库资源为基础具有自主知识产权的专业文献检索系统.其搜索范围包含近8000种期刊300所大学研究院所博士硕士论文1000种学术会议论文集1000种重要报纸文章而且实时数据更新.数据涵盖中国学术期刊博硕士论文会议论文报纸文献专利标准等近4000多万篇最新专业学术文献.

2 CNKI知识搜索的检索功能

CNKI知识搜索在KBase独有的搜索引擎技术上采用了最新的文献排序技术分组技术以及用户搜索意图智能分析技术.能够对用户一个简单的搜索请求做全方位的智能解析在返回最相关最重要的文献基础上对全部相关文献做立体化分析CNKI搜索界面简洁明快并通过引证文献相似文献等链接层层深入搜索使用户对搜索结果有更全面的了解.用户可以通过指定来源数据库学科分类等不同分组方式对检索结果进行进一步筛选查到符合自己要求的检索内容.CNKI知识搜索提供相关度被引次数下载次数时间检索等排序方式搜索结果根据下载次数标出下载指数供用户参考CNKI知识搜索的高级检索提供文献重要度检索包括核心期刊SCEI文献来源有基金选项对快速检索出高质量的科技文献很有帮助.

2.1CNKI数字搜索

CNKI数字搜索以一切用数字说话为理念提供数字知识和统计数据搜索服务是一个数字知识问答系统和统计搜索引擎能够从文献全文中搜索各种数据的数值以数值知识元作为基本的搜索单元可  提供更精准的知识服务,数值知识元库中包含,多万条知识元内容覆盖各学科领域从科学知识到财经资讯从大政方针到生活常识,数字搜索的数值知识包罗万象数据来源广泛数字搜索结果既有来源于,文献库也有一部分来自于互联网如在搜索框里输入,福建共搜索到相关记录条搜索结果页面提供了文献来源权威统计年鉴数据和中国宏观数据挖掘分析系统链接在权威统计年鉴中共搜索到相关记录,条主要来自中国城市统计年鉴中国统计年鉴和地方统计年鉴中国宏观数据挖掘分析系统通过统计年鉴统计公报和政府各大统计网站的资料提供中国多个区域指标为社科研究和情报决策提供了有力的数值统计工具.

2.2CNKI新概念搜索

新概念搜索提供对学术新概念的浏览和查询其基于现有文献按照年份专业类别收录所有文献中出现的新概念的产品能够从文献全文中按时间和内容范围搜索概念术语及其解释支持全称简称缩略语等进行查询目前库中收录了2000年至2006年每年CNKI库中出现的新概念并且给出新概念的具体文章出处用户可以直接点击查询.

2.3CNKI学术定义搜索

学术定义搜索提供对学术定义的快速查询内容全部来源于全文库涵盖了文史哲经济数理科学航天建筑工业技术计算机等所有学科和行业使用学术定义搜索可以得到想要查询词汇的准确学术定义,并且可直接查询定义出处,学术定义搜索是一部不断更新完善的学术定义词典力求为用户提供最权威最准确的学术定义概念.

2.4CNKI学术趋势

学术趋势是依托于中国知识资源总库中的海量文献和千万用户的使用情况提供的学术趋势分析服务通以知识资源总库中与关键词最相关的文献数量为基础统计关键词作为文献主题出现的次数形成学术界对某一学术领域关注度的量化表示学术关注度学术关注度能够体现某一研究领域随着时间的变化被学术界所关注的情况展现学术关注热点揭示该学术领域学术发展的潮流.

2.5CNKI图形搜索

图形搜索能够搜索文献中的图形表格可以按表名表格中的内容和图的标题描述进行查询图表库分别包含万以上从文献中自动抽取的图形表格以及他们对应的标题所在文献作者文献中对图表内容的阐述等以此实现基于内容的图表搜索这是一般搜索引擎无法实现的.

2.6CNKI翻译助手

我国科技论文长期存在英文文摘不规范问题影响国际间学术交流通用翻译软件难以准确翻译学术论文翻译助手能实现对中英文词短语句子的辅助互译翻译助手不但对翻译需求中的每个词给出准确翻译和解释还给出大量与翻译请求在结构上相似内容上相关的术语使用实例短语使用实例等方便用户参考后得到最恰当的翻译结果翻译助手采用自动抽取技术从系列数据库中挖掘整理出余万常用词汇专业术语成语俚语固定用法词组等中英文词条以及余万例句形成海量中英在线词典和双语平行语料库数据实时更新内容涵盖自然科学和社会科学的各个领域.

3 CNKI知识搜索的特点

3.1实时的知识聚类

知识搜索根据输入的搜索词和搜索结果自动生成文献类型聚类和知识聚类提供了文献类型文献所属学科属性和结果聚类三种聚类方式文献类型文献所属学科属性是常见的聚类方式提供了独有的结果聚类即基于快速聚类算法对检索结果的知识点进行聚类并将知识点显示给用户帮助用户改善检索表达式使得文献选择更精细更准确提供了文献的重要程度分类通过期刊来源如核心期刊收入期刊等可以帮助科研人员判断文献的质量的关键词聚类展示了知识系统把知识组织成簇揭示了知识的背景方便读者获得领域的全局知识结构.

3.2个性化的搜索排序

知识搜索提供多样化的搜索排序利于用户对检索结果进行浏览分析管理系统提供多种个性化排序方式综合排序相关度下载频次被引频次发表时间便于用户对当前的搜索结果有一个全面的了解通过相关度排序可以找到与检索词最相关的文献根据发表时间排序可以帮助用户快速搜寻到最新文献确定相关研究的时间顺序实现学术跟踪下载频次和被引频次排序有助于检索到质量较高被学术同行认可的文献.

3.3多种资源的整合

制定了系列数据库产品标准涉及从数据入编加工到最后形成数据库产品的全过程建设了中国知识资源总库数据涵盖自然科学工程技术医学农业生物文学历史哲学政治经济法律教育等领域的最新科技文献资料学术网站导航对用户进行引导和资源推荐方便用户快捷地链接到自己需要的学术网站学术网站导航采取三种组织方式行业导航学科导航网站类型导航工具书库集成了近家知名出版社的近余部工具书包括专科辞典百科全书图录传记手册等内容涵盖哲学文学艺术社会科学文化教育自然科学工程技术医学等各个领域.

4. CNKI知识搜索的不足

知识搜索平台基于先进的设计理念实现了对文献内容的详细标引实现了对学术图形表格内容的检索满足用户对文献内容准确检索的需求解决了现有搜索引擎及资源检索平台存在的不足体现了信息资源整合传播增值利用和知识服务的理念但同时知识搜索平台还存在调动用户参与方面不够只能在自己旗下的数据库中搜索搜索范围比较小查准率低相关性排序科学性不足等缺点在知识搜索平台中由于采用了知识元为检索的单位同时没有提供相关的检索技术进行实现用户利用语词检索时产生了许多虚假组配严重影响了信息的检准率在这一点上知识搜索平台应借鉴的技术和实现方式以使检索功能更完备满足不同用户的个性化的检索需求知识搜索平台提供了相关性排序方式但其判定标准科学性不足导致知识搜索平台的相关性测度与文献与检索需求的实际相关性有着较大的差别这是知识搜索平台需要改进之处学术趋势缺少国外资料不能有效利用大量免费国外资源而且更新较慢有些资料仅仅更新到06.

5 学术搜索引擎的发展趋势

5.1多元化

搜索引擎的发展趋势之一是多元化,即元搜索引擎,元搜索引擎的功能优于单搜索引擎,它能有选择地调用多个单搜索引擎搜索集信息,并能集中处理查检结果按其相似性进行匹配排序将查到的信息按单搜索引擎归类返回用户知识搜索应与 维普万方等搜索引擎建立协作关系如果在一个搜索引擎中找不到满意的结果可以通过此搜索引擎向其他搜索引擎提出请求得到结果后处理返回给用户为用户提供更有价值的学术内容这样可以有效解决知识搜索覆盖范围有限的问题并能将其搜索范围拓展到外文学术搜索领域.

5.2个性化

未来的搜索引擎应以读者导向为依据,用户可以用自然语句提问,通过交互式提问帮助用户选择检索表达式,对检索结果作进一步的综合处理,通过个性化搜索满足用户的个体信息需求,通过长期观察用户的搜索行为识别用户的信息需求偏好根据用户对搜索结果的反馈调整搜索策略.个性化搜索引擎的核心是根据用户信息以及通过跟踪分析用户的搜索行为来提高搜索引擎查准率.智能化智能化搜索引擎把信息检索从目前基于关键词的层面提高到基于知识的层面.智能搜索引擎对知识有一定的理解与处理能力能够实现智能分词技术同义词技术概念搜索短语识别提供用户登记用户兴趣自动识别内容的语义理解信息过滤和信息推送等功能.它允许用户采用自然语言进行信息检索为他们提供更方便更确切的搜索服务.中文搜索引擎的智能化进程其实质是对自然语言理解和处理日益精确化的过程.对于中文检索来讲如何更好地解决分词歧义问题如何实现语境分析如何实现智能检索将是推动中文搜索引擎前进的突破口针对搜索的查重率较高的问题可以采取数据清洗技术.通过数据的清洗可以消除检测数据中存在的错误相似重复记录的问题.

5.4多媒体化

随着IT技术的迅猛发展图形图像视频音频动画及以上各种媒体的组合将取代文本成为未来社会的主要的信息载体. 目前学术搜索引擎一般只搜索文本文件非文本检索只能看到部分PDF文档和Postscript文档.图形图像视频音频动画等非文本搜索功能比较弱.随着多媒体技术和搜索技术的发展学术搜索也将实现多媒体化搜索使人们在搜索学术信息的同时感受到网络带来的无限乐趣多媒体信息具有多元化多维性的特征因而难以凭借几个关键词加以描述.基于关键词检索的同时, 还需要对多媒体的内容进行深层次的分析与理解才能取得较好的检索效果.开发基于内容检索的多媒体搜索引擎技术将是学术搜索引擎的新的研究方向.

孙巧稚


在线咨询
在线留言
系统列表
返回顶部