精华版Bibexcel进行中医方剂和药物分析指南

更新时间:2023-10-22 04:02:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Bibexcel进行文献计量分析指南

——分析文本数据(中医方剂和药物分析)

一、软件简介

Bibexcel是一个用于文献计量分析、特别是引文分析的完美工具。用户可以在www.umu.se/inforsk网站上获得最新版本(据本人验证,应该是http://www8.umu.se/inforsk/Bibexcel/这个网站)。其安装也十分简单,只需要把文件拷贝到硬盘的目录下即可。记住,要把帮助文档即:

也放在同一个目录下(在bibexcel打开的情况下,

按下F1即可出现帮助系统的内容,不过是全英文的)。如果本指南不能满足你的需求请到该网站上浏览网页。

Bibexcel 因其灵活性而十分强大,但过于灵活会在刚开始使用的时候会带来一点点困惑,有的时候好几件事情通过一个步骤就完成了,有的时候需要把几种不同数据集结合在一起来处理文件。使用Bibexcel过程中需要帮助的时候可以按F1获得帮助,但是这个帮助往往是面向比较熟练的用户,老用户明确自己要做什么因而需要略加指点后在Bibexcel下完成的任务。幸运的是还有一些笔记来填充教程和快速指南留下的空缺。

二、原理介绍

Bibexcel软件的核心原理是“共词分析法”。该方法最早起源于20 世纪70 年代中后期,属于内容分析法的一种。该方法主要统计一组词中两两之间同时出现于一篇文献的次数,以这种“共现”次数反映这些词之间的关联程度,然后借助聚类方法可分析学科的主题结构。

共词分析法的原理可描述为:两个词的“共词强度” (指两个词同时出现于一篇论文中的次数)越高,则这两个词之间的关联越紧密。

1 定义

共词分析(Co-word Analysis)是通过对反映文献主题内容的关键词进行统计分析,研究文献内在联系和科学结构。

2 流程

2.1 确定分析问题 2.2 确定分析单元

一种是从关键词列表、标题、摘要等进行提取;另一种数据收集方式则是利用专门的语词提取软件直接从全文抽取。(本文讲的方法与此有相似之处)

2.3 高频词的选定

高频词的确定主要有两种方法:一种是结合研究者的经验在选词个数和词频高度上平衡,该方法具有一定的主观性;另一种是结合齐普夫第二定律辅助判定高频词的界限。(齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,??,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。)(但是齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。)

2.4 计算共词频率,得到共词矩阵

在共词分析中,为方便词对共现频率的运算。设计共词矩阵,对于N个高频词的共词分析中,便形成一个N-N的共词矩阵。共词矩阵的计算方法有如下几种:包容指数法、临近指数法、相互包容系数法。

2.5 对共词矩阵进行处理,揭示共词信息 常用的分析方法如下。 (1)共词聚类分析法

借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之同的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团。类团分析是共词聚类分析的核心内容。

(2)共词关联分析法

在共词关联分析的过程,涉及到4个重要的概念:支持度、置信度、期望可信度、作用度。

(3)共词词频分析法

词频分析法是利用能够揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法,是定性分析法的一种。

(4)突发词监测法

突发词监测是Kleinberg于2002年提出话题的突发监测(Brust detection)算法,它关注焦点词一相对增长率突然增长的词。基于单个词的词频增长率变化更有可能涉及到领域局部热点的变化。

3 应用领域

(1)揭示特定领域内的研究主题及其层次之间的关系,以及其对应的研究方向间的关系,划分科学子研究领域并确定其研究结构;

(2)从横向和纵向角度揭示特定领域内研究主题之间以及同其他研究主题之间的关系;

(3)考察特定研究领域内研究主题发展的历史脉络及其子领域的演进态势; (4)通过词间关系的数据挖掘达到学科主题知识发现的目的。

三、软件操作——以分析文本文档为例

由于Bibexcel设计之初是专门用于文献计量分析、特别是引文分析的工具,该软件用于对文献的关键词、标题、摘要、期刊等进行提取和分析。所以,在进行介绍本文的用bibexcel软件进行中医药方剂和药物分析的方法之前,先大概介绍一下bibexcel软件正统的用法和意义。两种用法的差别在于,用于bibexcel分析的起始文本文档不同,其他的后续分析的操作方法,均一样。(有点长,着急者,可以略过不看,不影响使用本软件)

Bibexcel是瑞典科学家佩尔松(persson)开发的文献计量学研究软件,Bibexcel用于帮助用户分析文献数据或者是文本类型格式的数据,实现引文分析。Bibexcel处理的数据来自集成在ISIWeb of Knowledge平台上的数据库,包括Web of Science数据库、DerwentInnovation Index数据库和Medline数

据库等。Bibexcel除了对来源于上述数据库中数据的相关知识单元(作者、关键词、参考文献等)做频次分析和排序外,还实现了知识单元的共现关系矩阵。将产生的共现数据存入excel表格中,借助Ucinet、Netdraw可视化软件,做进一步的可视化分析。

在WOS(Web of Science),下载前需要对要下载的记录进行标记。然后开始下载所选择的论文,保证下载项目中包括论文的引文。可以通过“download for future analysis(为进一步分析而下载)”或者通过电子邮件发给自己,两种方式都生成纯文本文件。

这个纯文本文件是bibexcel进行分析的本体资料的开始。这个文本文档在Bibexcel或者文本编辑器中打开的原始数据文件应该是下面这个样子:

FN ISI Export Format VR 1.0 PT Journal AU Brown, S Blackmon, K

TI Aligning manufacturing strategy and business-level competitive strategy in new competitive environments: The case for strategic resonance

SO JOURNAL OF MANAGEMENT STUDIES NR 190

CR 1998, IND WEEK 1207, V247, P22

YOUNDT MA, 1996, ACAD MANAGE J, V39, P836 ZAJAC EJ, 2000, STRATEGIC MANAGE J, V21, P429 ZAJAC EJ, 1989, STRATEGIC MANAGE J, V10, P413 BP 793 EP 815 PG 23

JI J. Manage. Stud. PY 2005 PD JUN VL 42 IS 4

GA 929TJ

J9 J MANAGE STUD-OXFORD UT ISI:000229369000004 ER

PT Journal AU Brown, S Cousins, PD

TI Supply and operations: Parallel paths and integrated strategies SO BRITISH JOURNAL OF MANAGEMENT NR 105

CR ANDERSON JC, 1991, INT J OPER PROD MAN, V11, P86 BADRI MA, 2000, OMEGA, V2, P155

BEACH R, 2000, INT J OPER PROD MAN, V20, P7 WOMACK J, 1996, LEAN THINKING

WOMACK J, 1990, MACHINE CHANGED WORL ZAIRI M, 1992, INT J OPER PROD MAN, V12, P34 BP 303 EP 320 PG 18

JI BRIT. J. MANAGE. PY 2004 PD DEC VL 15 IS 4

GA 874LZ

J9 BRIT J MANAGE

UT ISI:000225353200002 ER

PT Journal AU Laycock, M

TI Transforming Rover, renewal against the odds 1981-1994 - Pilkington,A

SO LONG RANGE PLANNING NR 1

CR PILKINGTON A, 1994, T ROVER RENEWAL ODDS BP 738 EP 739 PG 2

JI Long Range Plan. PY 1996 PD OCT VL 29 IS 5

GA VW288

J9 LONG RANGE PLANN UT ISI:A1996VW28800021 ER

现在,你可以开始使用Bibexcel了... 注:每一个文档都必须有个固定的开头即: FN ISI Export Format

VR 1.0

每条记录以ER结束,所以上面这个文档有三条完整的记录。实际的文献量远不止这些,可以是几百条记录。其中PT,AU,SO,CD, PY等为标签,可以要也可以不要,视自己的所需而定,这些缩写词具体所指如下:

AU,author,【来源作者】

TI,title,【来源篇名】/【来源文献】 SO,source,【期刊】/【来源期刊】 DE,description,【标引词】

C1,unit,【机构名称】/【作者机构】 CR,reference NR,cout

PY,year,【年代卷期】

等等。上面的文本文档需要进行一定的处理,然后才能生成bibexcel可识别的文本文件。(如果是正统的用法,如进行引文分析之类的,则转换格式这方面内容在Bibexcel的帮助文件中有很多介绍,运行Bibexcel时按下F1进入帮助系统,查询索引和条目,如下载、转换到dialog和数据准备(downloading, convert to dialog, preparing the data)。在阅读分析步骤之前阅读介绍部分有益无害。)

让你的数据变成Bibexcel的正确格式的第一步是选择好你的数据文件然后点击“Misc--> Convert to dialog-->convert from Web of Science”菜单。

如果没有这样处理过文件,则需要通过在左上角选择原始数据(使用view file查看文件按钮来检查),然后利用菜单命令:Misc-->Convert to dialog-->convert from Web of Science。最后会得到一个.doc文件(与你原始文件同文件名,只不过是以.doc结尾)。

在抽取出你要进一步分析的字段之前,选择和查看这个文件,比如在每一行的开头是否有完好的标签(PT-, AU-, SO-, CD-, PY-等),这些标签表明记录的内容,是否有干净的行结束标识“|”和记录结束标志“ER ||”。注意Bibexcel如何把分号作为的字段中多个条目的分隔符,比如作者和引文。这些分隔符会有助于以后分析中把各个条目分割开来。转换结果如下:

PT- Journal|

AU- Brown S; Blackmon K|

TI- Aligning manufacturing strategy and business-level competitive strategy in new competitive environments: The case for strategic resonance| SO- JOURNAL OF MANAGEMENT STUDIES| NR- 190|

CD- 1998, IND WEEK 1207, P22, V247; YOUNDT MA, 1996, V39, P836, ACAD MANAGE J; ZAJAC EJ, 2000, V21, P429, STRATEGIC MANAGE J; ZAJAC EJ, 1989, V10, P413, STRATEGIC MANAGE J|

BP- 793| EP- 815| PG- 23|

JI- J. Manage. Stud| PY- 2005| PD- JUN| VL- 42| IS- 4| GA- 929TJ|

J9- J MANAGE STUD-OXFORD|

JN- JOURNAL OF MANAGEMENT STUDIES, 2005, V42, N4, P793-815| UT- ISI:000229369000004 ER||

PT- Journal|

AU- Brown S; Cousins PD|

TI- Supply and operations: Parallel paths and integrated strategies| SO- BRITISH JOURNAL OF MANAGEMENT| NR- 105| CD- ANDERSON JC, 1991, V11, P86, INT J OPER PROD MAN; BADRI MA, 2000, V2, P155, OMEGA; BEACH R, 2000, V20, P7, INT J OPER PROD MAN; WOMACK J, 1996, LEAN THINKING; WOMACK J, 1990, MACHINE CHANGED WORL; ZAIRI M, 1992, V12, P34, INT J OPER PROD MAN| BP- 303| EP- 320| PG- 18|

JI- BRIT. J. MANAGE| PY- 2004| PD- DEC| VL- 15| IS- 4| GA- 874LZ|

J9- BRIT J MANAGE|

JN- BRITISH JOURNAL OF MANAGEMENT, 2004, V15, N4, P303-320| UT- ISI:000225353200002 ER||

PT- Journal|

AU- Laycock M|

TI- Transforming Rover renewal against the odds 1981-1994 -Pilkington,A| SO- LONG RANGE PLANNING| NR- 1|

CD- PILKINGTON A, 1994, T ROVER RENEWAL ODDS| BP- 738| EP- 739| PG- 2|

JI- Long Range Plan| PY- 1996| PD- OCT| VL- 29| IS- 5| GA- VW288|

J9- LONG RANGE PLANN|

JN- LONG RANGE PLANNING, 1996, V29, N5, P738-739| UT- ISI:A1996VW28800021 ER||

上面是bibexcel用于Web of Science之类文献分析的文档的转换。 据本人的试验,可被bibexcel识别的原始数据文件只要包括下面红线的三个部分即可,即:文档开头、来源文献和结束标志。其他标签代号,可有可无。

下面则介绍如何生成一个可以被bibexcel识别的中医方剂药物的文本文档。

1. 将数据转换成TXT格式

将数据输入成如下的格式,如图:

其中“TI-”是标签,本义是“标题”(也就是文章的篇名),在本方法中,此标签并无实际意义,只是作为一个标识符而已,相当于是一个伪冒的“标题”。“TI-”后面跟一个空格,然后输入具体药名,每个药名之间也用一个空格分开。(上面说的空格是英文的空格,即一个字符串,不是汉语的空格两个字符串)每一首方剂的最后一味药物后面跟一个“|”标记,表示该方剂结束。(也就是该行结束),然后摁回车键,另起下一行。此处仅举几例,实际上可以分析几百首以上的方剂。

2. 抽取“TI-”字段的内容——生成.out文件

在完成上述格式转换后,我们就可以创建OUT文件了。创建OUT文件是我们使用Bibexcel软件进行文献计量学分析的第一步。

第一步:在文件管理系统中选择上面的实例文本文档“新建文本文档.txt”,点击“view file”查看该文档。如图:

第二步:在“Old tag”文本框中键入字段标识符“TI” 标签。

第三步:在“Select field to be analysed”下拉框中,选择正确的数据格式(blank separated field to treat each word alone,字段由空格分隔使每一个单元独立计数)。

第四步:点击“prep”按钮,在出现的一系列对话框中,按下图所示选择各个提示框,完成OUT文件的创建,即:“确定”——“否”——“否”。

生成的.out文件(即将方剂中的每一味药单独提取出来,以便统计分析)。第一列的数字表示来源的方剂序号。

此处可按下F1查看进一步操作这个.out文件的数据的帮助内容(英文的)。

附:各标签代号的对话框选择(了解一下,以便日后备用) 根据你要分析的知识单元,在Old Tag中填写相应的标签代号。

① 作者、关键词、机构、参考文献、被引期刊的标签依次为AU、DE、C1、CD、CD。输入相应的标签后,在Select field to be analysed下拉列表框中选择“Any ; separated field”;

② 如果要分析标题,在输入TI标签后,在Select field to be analysed下拉列表框中选择“blank separated field to treat each word alone”;

③ 如果要分析被引期刊,在输入CD标签后,在Select field to be analysed下拉列表框中选择“JN-Journal”。

然后点Prep,在弹出的对话框中,点击“确定”,生成后缀名为.out文件。

与此对应的是:不同标签代号生成cit文件的对话框选择(后面详述) 选中.out,在Frequency distribution(频率分布)下拉列表框中选择相应的分析对象,

① 分析作者共现,选择“Author” ② 分析关键词共现,选择“whole string” ③ 分析机构共现,选择“whole string” ④ 分析参考文献共现,选中“Cited Reference”

⑤ 分析被引期刊共现,选择“whole string”。 ⑥ 分析标题词共现,选择“whole string”

选择相应的分析单元后,在下面的复选框中选择“Sorted descending(降序排列)”,点击Start按钮,在弹出的窗口中,点击“确定”,生成后缀名为.cit文件。

当然,你还可以用来自其他数据源(如数据库或者excel)生成自己的.out文件,然后用Bibexcel执行下面分析步骤。只要保证是同一格式并且是纯文本。

3. 计算频率分布——生成.cit文件

第一步:在文件管理系统中选择OUT文件。

第二步:在“Select type of Unit”下拉框中,选择计数单位,如“whole strings”。并在在下方的多选框中,选择排序方式,如选择“Sort descending”,即按降序排列。

第三步:点击“Start”按钮。在出现的对话框中,按下图所示选择提示框,完成*.cit文件的创建,即:“确定”。

生成的*.cit文件,显示各味药物在方剂中出现的频次,按降序排列,可以看出:生姜出现5次,甘草出现5次,半夏5次,防风4次。如图:

附注:在下方的多选框中,选择计算方法,默认的计算方法是“whole counts”,可以改变为“fractional counts”。(不过本人没有试验过)

4. 共现分析——生成. COC文件

了解了来源文献或者引文中的各个字段的频数之后,有一种有意义的探索即:“共现和网络”,该法是了解引文或者字词之间的关系和网络/地图。这种探索在Bibexcel中叫做共现,在帮助文件的生成矩阵部分有介绍。可以用你需要的任何数据建立共现矩阵。

下面说明如何利用Bibexcel软件进行最基本的文献计量学分析。Analyze菜单包括一系列特殊功能,使我们可以完成引文网络分析,以及其他共现分析。

书目记录中的一个共现关系意味着两个单元共同出现在同一个元数据字段中。很明显,两个单元只有一个共现关系是没有意义的,但如果两个单元的共现关系频繁出现在一定量的记录中,就是很有趣的了。

创建COC文件的步骤:

第一步:在“Select file here”中选中CIT文件,点击“View file”查看文档。 在“The List”框中显示cit文件的内容(选中与显示,两者有别,详后)。

第二步:从cit文件列表中标记将要分析的单元。

① 选择将要分析的单元,将要分析的单元在主窗口中涂蓝,加亮。 ② 从菜单条中选择“Analyze-->Co-occurrence-->Select units via listbox”

本案例,对频次在2以上的药物做一共现分析,作为示例,如上图。 ③ 在“Select file here”中选中OUT文件。

注意:不要在The List中显示OUT文件,即不要查看该文件(即不要点击“View file”按钮,)。因为,你要保持你刚刚选择的单元涂蓝,加亮中。

第三步:从菜单中选择“Analyze-->Co-occurrence-->Make pairs via listbox” 这个过程将会生成coc文件。

在出现的一系列对话框中,按下图所示选择各个提示框,完成coc文件的创建,即:“否”——“确定”。

入一个新的空列,再把顶部第一行拷贝下来,然后选择“edit(编辑): paste special(选择性粘贴): transpose(转置)”,点击“确定”后就把标签加到每一行的前面了。这就生成了一个带有完整标签的正方共现矩阵,更像一个四格表可以输入到SPSS中进行因子分析,对项目进行统计分组。

至此,文献数据知识单元共现关系矩阵构建完毕。Bibexcel可以构建作者共

现矩阵、关键词共现矩阵、机构共现矩阵、参考文献共现矩阵。为了直观理解各知识单元之间的共现关系,需要进一步借助可视化分析软件来实现。先使用Ucinet软件将.xls转化为后缀名为.##文件后,再借助Netdraw可视化软件将知识单元之间的共现情况清晰的描绘出来,并分析图谱中节点的中介中心性和边的关联强度等。

Bibexcel在共现分析中的优势与不足

Bibexcel的强大功能在于知识单元的共现关系分析,对英文文献数据或专利

数据的共现关系分析已经取得令人满意的结果。如栾春娟《专利计量研究国际前沿的计量分析》[7] ,对1995-2007年期间《科学计量学》出版的关于国际专利计量研究的论文和引文进行计量分析,通过Bibexecel处理,得到高被引作者共被引矩阵、高频关键词共现矩阵和高频次作者共现矩阵,再通过Ucinet绘制作者共被引网络图谱、高频关键词共现网络图谱和高产作者学术合作网络图谱。但是,在CSSCI文献数据库中,Bibexcel对中文献数据的分析存在着局限性,主要原因是在于Bibexcel不能直接处理CSSCI格式数据。

中文社会科学引文索引(CSSCI)作为我国社会人文科学主要文献信息查询

与评价的重要工具,CSSCI提供来源文献、被引文献、优化检索等多种信息检索。该项目成果填补了我国社会科学引文索引的空白,达到了国内领先水平。从CSSCI下载某一领域的相关文献,并对其进行分析,不但可以科学合理、客观公正地评价人文社会科学研究的成果,而且对了解国内的研究现状和研究热点,因此具有非常重要的现实意义。

附:各对话框中的英文及翻译:

You must eslect a pair file (freq+tab+unit+tab+unit)in order to make a matrix!but first, view

the cit-file and select the units that you wish to include in the matrix.

你必须选择一个准备做矩阵的文档,但首先要查看cit文件并选择制作矩阵的项目。 是

Do you wish to make a lower left matrix.你是否希望做一个左下矩阵 否

Do you wish to make a squared matrix. 你希望做一个方形矩阵。 是

If a squared matrix, should it be a transpose of the lower left part? 如果一个方形矩阵,它应该是左下部分的转置? 否

Do you wish to sort the matrix columns?if you answer ?No?, the order of the columns will be exactly as you have indicated in “The List”! 您是否想排序矩阵列?如果您回答?No?,表明列的顺序已经准确出现在“The List”中了! 是

If numerical values/units you should sort the numerically and ascending. Shall I do that? 假如数值或者项目已经按升序排列,如何选择? 是

Your matrix will have: 45 units, and the matrix will contain 990 cells for a lower left matrix! Do you wish to continue or would you rather want to reselect the units to be include?

你的矩阵包含:45个项目和990个单元格。你希望重新选择所包含的项目继续么? 是

不过,似乎这两种方法做出来的结果不一样。 (本人认为还是以第一种方法为主)

一般用户都需要一个含有.coc文件中项目的正方形矩阵。为了把.coc文件中数据列表转换为矩阵,像从前那样选择同样的单词加亮它们:使用“analyse: coocurrance: select units via listbox”,然后选择你的.cit文件,操作“analyse: make a matrix”,生成一个.ma2结果矩阵文件,由于它仍然是纯文本文件,可以用于其他程序中。

将这些矩阵文件输入到UCINET等其他程序中的一个问题是,矩阵中只有每一列的顶部带有标签而侧面行则没有,解决问题的办法就是重新构建矩阵。这就需要先把.ma2文件转换并且保存为到excel文件。即打开该excel文件,先插入一个新的空列,再把顶部第一行拷贝下来,然后选择“edit(编辑): paste special(选择性粘贴): transpose(转置)”,点击“确定”后就把标签加到每一行的前面了。这就生成了一个带有完整标签的正方共现矩阵,更像一个四格表可以输入到SPSS中进行因子分析,对项目进行统计分组。

至此,文献数据知识单元共现关系矩阵构建完毕。

我个人一般使用像UCINET之类的程序对这些数据进行进一步的网络分析,因为.coc文件与带有标记的.DL格式数据文件类似,但是把频数放在最左边而不是右边的一列,把数据转移到UCINET相对容易。如果你也想做这些分析,请阅读UCINET的帮助文件了解如何把数据输入到分析软件中去。

我采用的步骤包括把.coc文件输入到excel中去,剪切左侧一列的频数并复制到右边,把所有三列剪切粘贴到一个文本编辑器,给文件添加标题使其具有DL格式,比如:

从UCINET中获得的结果往往会提供有关数据矩阵状态的清晰视图,如下图,并且可以使用更多的分析工具。

Pilkington个体网的作者同被引图

6. 创建供pajek软件使用的文件——生成net、vec和c lu文件

1. 创建net文件 第一步 选择*.coc文件。 第二步 从菜单条中选择

Mapping-->Create net-file for pakek...

这个过程将会生成net文件。 2. 创建vec文件 3. 创建clu文件

在创建clu文件之前,首先要执行聚类分析,聚类分析的过程会产生*.per、*.pe2和*.pe3等三种类型文件。创建clu文件依赖的是*.pe2文件。

第一步 选择*.pe2文件。 第二步 从菜单条中选择 Mapping-->Create clu-file 这个过程将会生成clu文件。

引文耦合

对于引文共现和同被引分析在描绘文献之间关系上还有一些争议,有人推荐使用引文耦合(bibliometric coupling,书目对)。引文耦合不是分析不同被引文献之间的联系,而是显示和分析来源文献之间的联系,不用说,使用Bibexcel中的共现单元方法也可以实现这种分析。

Alan Pilkington 9.1.06 10

Alan Pilkington 【a.pilkington@rhul.ac.uk】 【翻译:zilu85@hotmail.com】

【中医方剂药物分析方法编辑:雨岩旧客、309300772@qq.com】

扩展阅读——bibexcel传统用法

——引文共现与分析软件Bibexcel

瑞典科学家佩尔松(persson)开发的文献计量学研究软件Bibexcel[7]用于帮助用户分析文献数据或者是文本类型格式的数据,实现引文分析。Bibexcel处理的数据来自集成在ISI Web of Knowledge平台上的数据库,包括Web of Science数据库、Derwent Innovation Index数据库和Medline数据库等。Bibexcel除了对来源于上述数据库中数据的相关知识单元(作者、关键词、参考文献等)做频次分析和排序外,还实现了知识单元的共现关系矩阵。将产生的共现数据存入excel表格中,借助Ucinet、Netdraw可视化软件,做进一步的可视化分析。Bibexcel界面如图1所示。

Bibexcel构建知识单元共现关系矩阵处理流程如下:

Step1:打开Bibexcel,出现上图所示的操作界面,在select file here这个框

口中选择数据源所在的文件夹,右边的窗口会显示出这个文件夹中的所有文件。选中合并后的文本文档,先点击“Edit doc file----Repalce line feed with carriage return”点击“Misc---convert to diologe format---convert from web of science”,会弹出一个对话框,点击“确定”,就会生成一个后缀名为.doc的文件;

Step2:选中.doc文件,点击View file按钮,The list窗口就会显示这个文件

的内容。根据你要分析的知识单元,在Old Tag中填写相应的标签代号。作者、关键词、机构、参考文献、被引期刊的标签依次为AU、DE、C1、CD、CD。输入相应的标签后,在Select field to be analysed下拉列表框中选择“Any ; separated field”;如果要分析被引期刊,在输入CD标签后,在Select field to be analysed

下拉列表框中选择“JN-Journal”,然后点Prep按钮,在弹出的对话框中,点击“确定”,生成后缀名为.out文件;

Step3:选中.out, 在Frequency distribution(频率分布)下拉列表框中选择

相应的分析对象,如果分析作者共现,选择“Author”;如果分析关键词共现,选择“whole string”;如果分析机构共现,选择“whole string”;如果分析参考文献共现,选中“Cited Reference”; 如果分析被引期刊共现,选择“whole string”;选择相应的分析单元后,在下面的复选框中选择“Sorted descending(降序排列)”,点击Start按钮,在弹出的窗口中,点击“确定”,生成后缀名为.cit文件;

Step4:选中.out文件,在Frequency distribution下面的复选框中选择“remove

duplicate(取消复制)”和“make new out-file(生成新的out文件)”,点击Start按钮,在弹出的窗口中,点击“确定”,生成后缀名为.oux文件;

Step5:选中.cit文件,点击“view file”, 在The List显示窗口中选择频次

较高的前多少位分析对象,然后点击“Analyze----co-occurrence----select units via listbox”,然后选中.oux文件, 点击“Analyze----co-occurrence----make pairs via listbox”,在弹出的窗口中,点击“否”,此时生成后缀名为.coc文件;

Step6:选中.cit文件,同样点击“view file”, 在The List显示窗口中选择

频次较高的前多少位分析对象,然后点击“Analyze----co-occurrence----select units via listbox”,然后选中.coc文件,点击“Analyze----make a matrix for MDS etc”, 在弹出的对话框中,按照提示,点“是”还是“否”,选择生成方阵还是下三角矩阵,生成的共现矩阵文件名为.ma2,将其打开,另存为后缀名为.xls文件。

一般用户都需要一个含有.coc文件中项目的正方形矩阵。为了把.coc文件中数据列表转换为矩阵,像从前那样选择同样的单元加亮它们:使用“analyse: coocurrance: select units via listbox”,然后选择你的.cit文件,操作“analyse: make a matrix”,生成一个.ma2结果矩阵文件,由于它仍然是纯文本文件,可以用于其他程序中。

将这些矩阵文件输入到UCINET等其他程序中的一个问题是,矩阵中只有每一列的顶部带有标签而侧面行则没有,解决问题的办法就是重新构建矩阵。这就需要先把.ma2文件转换并且保存为到excel文件。即打开该excel文件,先插

本文来源:https://www.bwwdw.com/article/dm7f.html

Top