摘要:在研究相关领域的课题时,人们往往需要通过查阅相关文献来获得该领域的一些发展趋势、背景分析等信息。随着互联网技术的发展,在线文献搜索的响应速度需求越来越高,如何将数据挖掘技术充分应用于文献搜索研究受到更多的重视。本文通过运用RefViz工具,通过其独有的算法计算找出每个文献的相关特性,并能够在其中挖掘出有用的热点问题和该领域的趋势分析。
关键词:数据挖掘文献检索RefViz
中图分类号:TP311文献标识码:A文章编号:1007-9416(2015)08-0000-00
随着计算机技术的发展,许多传统的文献也转变成数字信息存储在网络存储器中,网络往往能够快速、及时地展现出相关的研究成果,但是其庞大的数据量也让文献的筛选成为一个难题,传统的关键字匹配的搜索机制缺乏一些限制机制,使得搜索结果存在不少的冗余信息,人们需要花费较多的时间去过滤结果,随着各个研究领域的不断深入和细化,人们对文献的检索、信息的归类、后期数据的分析处理要求也变得越来越高。
1数据挖掘应用在文献研究的意义
数据挖掘就是从大量的、不完全的、有噪声的模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程[1]。预测趋势、关联分析、偏差检测是数据挖掘的主要功能,而这些功能在文献检索过程也常常被用到。
传统的文献检索需要耗费大量的人力来查阅关键字,摘要等内容,人为地查找相关性,当数据量很大的时候,这种方法往往力不从心。引入数据挖掘技术,运用计算机技术来进行数据的归类、分析、关联等,大大提高了文献检索的效率。同时,运用数据挖掘技术能够对大量的文献进行直观的、系统的定量分析,用于弥补传统定性研究的缺陷,并通过海量的样本分析提高文献研究分析的完整性,达到增强研究的科学性和确定性的目的。
2数据挖掘的技术分类
不同的标准产生不同的数据挖掘分类,在文献研究中,主要用到聚类和关联分析等,将数据挖掘分为两类:共词分析和共篇分析。
共词分析属于内容分析技术的一种,通过分析在文本中的每个条目对单词共同出现的形式,确认文本主题关系,进而分析关联发展。从文献中抽取出现频率较高的词汇,统计相互之间出现的次数,构成一种共词矩阵,并分析矩阵。共词分析应用主要为了了解研究领域间的关联以及挖掘潜在的研究领域。
共篇分析是通过分析两篇或以上的多篇文献之间的共同的关键词,来得出文献间的关联关系。它从内容上挖掘文献间在研究方向的关联性;同时通过年份等信息,获得该领域的研究方向和研究趋势;根据相同关键字的文献作者,能够了解研究领域的分布范围以及作者跟一些研究机构之间的关系。
3RefViz的应用
RefViz是ThomsonISIReasearchSoft和OmniViz公司合作推出的一款可视化的文本分析和数据挖掘工具,能对大量文献进行组织分析,以利于研究者对参考文献的理解,是典型的共篇分析工具。能够将大量的文献内容进行分析排列,并以图形化的方式展现出来,通过其强大的分析功能,人们就可以获得文献的研究热点和发展趋势;并且用户可以进行不同数据库之间的文献检索比较,也可将数据进行导入和导出。
RefViz在处理文献时,是通过一种“阅读-查找-分析”的过程,发现词汇的范式以及相互间的联系。RefViz在分析词汇时,并不是简单地通过词出现的频率进行统计,而是通过构建复杂的数学模型,将关键词带入到模型中获得该词在文献中的重要程度并将其分级,一般分为三个等级;然后就用这三个等级的关键词对每个文献进行描述,同时用标准聚类的方式将导入的文献分成几组,这些关键词和描述语句就成为了每组文献之间的联系和文献主题的概念描述。
在界面上,RefViz由4个可视化的窗口构成:视图窗口,用来展示软件分析的最终结果,用户可以垂直或列表的方式来查看分析数据;主题/搜索窗口,就是展示每篇搜索文献的三级主题描述词,从左到右依次是主要主题词、次要词、描述词,并且用户也可以自定义一些干预词汇,在自动处理的前提下加入人工筛选,实现个性化检索的功能,将数据挖掘工具的作用发挥到最大;参考文献窗口,该窗口中展示了软件通过聚类将参考文献进行的分组信息,包括显示文献的作者、发表日期、标题等;用户日志窗口,主要反馈用户操作过程中的一些日志数据的反馈,及时提示用户的操作以及一些软件状态返回。
使用0RefViz进行文献检索的步骤如下:选择文献索引的数据库,一般为某个研究领域中比较权威的数据库,再设定相应的筛选范围,得出相关文献若干篇;导入数据,将刚才检索到的文献通过“主题词+关键词”的格式输出到Endnote软件当中,通过两者的关联分析;预处理,此时一些意思相近的词汇没有区分,会出现大量与主题词无实质相关性的词,通过预处理,比如降低次要概念词的词级、添加和控制同义词等,将主题词进行二次调准和筛选;分析数据,通过对上述结果分析,可以比较直观地发现文献之间的联系,比如研究的热度等,以文献发表时间为例,软件可以统计出在一定时间内,以某个研究领域为题的论文发表的篇数,由此就可以看出该研究领域的研究热度的时间分布。也可以通过每个国家在该领域发表论文的数量来得出该研究领域在哪个国家进行的比较成熟等等。通过RefViz软件,也能够分析出文献研究的发展方向以及与哪些领域关联性较强,这样就可以在检索的时候有目的有针对性地进行文献的检索。
4结语
随着互联网技术的不断发展,人们往往不能满足于文献关键字的检索,数据挖掘技术的发展和应用,能够从大量的文献当中发掘具有价值的信息,使得信息的利用率不断加强,同时也能提高文献研究过程中的效率和水平,促进各领域各学科研究的科学性和提供良好的发展方向。信息技术的发展也带动了各种便捷的可视化数据挖掘工具的诞生,在工具不断地升级和改良的过程中,利用数据挖掘工具进行文献的检索和研究也将变得越来越便捷和高效,使得人们可以从文献检索的结果中发现未知的、具有价值的文献信息,大大增加了文献检索的结果和效率。
参考文献
[1]Roiger R J,Geatz M W,Datamining a tutorial based primer[M].北京:清华大学出版社,2003:11.
[2]王颖,戎文慧.可视化文本分析和数据挖掘工具 RefViz[J].中华医学图书情报杂志,2006,(6):61-64.
作者简介:盛芳圆(1984—),女,黑龙江哈尔滨人,硕士,助理馆员,研究方向:软件工程。