SATI简介
更新时间:2024-04-07 00:11:01 阅读量: 综合文库 文档下载
- satisfied推荐度:
- 相关推荐
SATI定义
文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics, SATI),旨在通过对期刊全文数据库题录信息的处理,利用一般计量分析、共现分析、聚类分析、多维尺度分析、社会网络分析等数据分析方法,挖掘和呈现出美妙的可视化数据结果。通过免费、共享软件功能及开源、增进代码实现,旨在为学术研究提供期刊文献数据统计与分析的辅助工具。 软件界面如下图1所示:
图1 SATI软件主界面
技术方法
国外关于文献信息统计分析的技术方法和应用软件相对较为成熟,已有社会网络分析软件Ucinet(嵌入开源软件Pajek, Netdraw 和Mage)、科学计量学研究软件Bibexcel、文献可视化信息分析软件Citespace等,但这些软件都主要针对Web of Science (WoS)等国外数据库平台开发,需要专门的数据输入格式,对于国内期刊全文数据库题录数据不能直接处理。为兼顾处理国内期刊题录数据和国际WoS题录数据,本文尝试设计开发对国内外期刊数据库进行文献题录信息统计分析的统一软件。
技术方法的关键在于对国内和国际期刊全文数据库所导出题录数据的兼顾处理,设计思路是先将不同来源的数据格式统一转换为SATI处理的XML格式,抽取指定字段信息得出条目元素(即
词条,本文“词条(Term)”指语句元素的最小单元,可以是字、词或短语,包括关键词、主题词、文本预处理后的分词等受限词或自然词)的频次统计文档,再分析知识单元间的共现关系和频率分布,生成共现矩阵、分布矩阵和文档词条矩阵,继而实现对海量文献信息的定量分析和可视化呈现。
按此思路,我们首先对国内三大期刊全文数据库知网、万方和维普的题录数据格式进行细致的分析,找出了三大主流输出格式EndNote格式、NoteExpress格式和NoteFirst格式题录数据的字段信息特征;然后分别提取用于区别不同字段的标识符和词条的分隔符(如NoteExpress格式题录数据中,关键词字段的标识符是“{Keywords}:”,关键词之间的分隔符是“;”或“;;”,但不同数据库平台和期刊会稍有不同,需进行特殊处理),利用同样的方法再同时对WoS导出的HTML格式题录进行特征分析,通过编程实现抽取不同字段信息,转换生成为SATI软件专用的XML格式文件;在自动导入转换后的XML文件后,基于抽取出的相应字段信息,再利用频次统计算法得出词条频次统计文档;然后将频次降序排列表中相应数量的条目元素作为知识单元按照适当的算法模型构建出共现矩阵、分布矩阵和文档词条矩阵。设计思路如图2所示。
图2 SATI设计思路
为便于后期数据的进一步处理和可视化呈现的需要,软件可同时生成Excel格式矩阵和.txt文本格式全矩阵。只要将共现矩阵文档导入相应的数据分析软件(如Ucinet、SPSS等),即可构建出知识单元聚类图、多维尺度分析图、共现关系网络知识图谱和战略坐标图等。 功能实现
目前软件主要实现了以下四大功能: 1.
题录格式转换:支持输入WoS数据库平台导出的HTML格式、国内期刊全文数据库导
出的EndNote格式、NoteExpress格式和NoteFirst格式题录数据。对英文题录关键词、主题词、标题和摘要字段进行文本预处理(Tokenization, Stop Words & Stemming )操作,中文题录标题、摘要进行中文分词 和停用词 处理后,将其自动转化为XML格式SATI专用数据文件,以为后期题录数据的存储、交换和分析提供便利。SATI专用数据文件(XML格式)采用简洁的三层树状结构,实例如图2所示。用户可将期刊全文数据库导出的题录文件导入SATI自动生成XML格式专用文件,或根据实际需要将相关数据文件自行转换为SATI处理所需格式。
图3 SATI自动转换生成的专用数据格式实例
2.
字段信息抽取: 在“Options”面板可以选择抽取标题、作者、第一作者、文献来源、出版
年、关键词、主题词、摘要、机构、地址、文献类型、引文、语种、DOI和URL等字段信息,并可保存为.txt文本文件。还可利用“Refine”面板按照出版年和文献来源进行数据集合的限定,并在此基础之上进行下一步的统计分析。 3.
词条频次统计: 根据抽取到的字段信息对条目元素(包括:关键词、主题词、作者、引
文、机构、发表年、期刊、文献类型等)的频次进行统计和降序排列,同样可以按照时间和期刊对数据进行限定,生成相应频次统计文档,并可保存为.txt文本文件。 4. o
知识矩阵构建: 软件可生成三类共八种矩阵。
词条共现矩阵。可自行设定共现矩阵输出行列数,将频次降序排列表中的相应
数量条目元素作为知识单元进行运算,以构建知识单元共现关系矩阵(分相似矩阵、相异矩阵、
多值矩阵和二值矩阵四种,包括关键词共现矩阵、主题词共现矩阵、引文共现矩阵、作者共现矩阵和机构共现矩阵等);其中,为消除多值共现矩阵中频次悬殊对统计结果造成的影响,软件采用Equivalence系数 (公式一所示)将多值矩阵转化为 [0,1]区间取值的相似矩阵,在此基础之上再生成二值矩阵和相异矩阵。相似矩阵中的数字代表矩阵元素间的相似性,数值越大关联程度越强。又因相似矩阵中的0值过多,统计时容易造成误差过大,软件在此基础之上自动生成相异矩阵,即相似矩阵值与-1的和为相异矩阵元素的值。
o
频率分布矩阵。可自行设定条目元素(词条)数,生成词条的逐年分布矩阵(分
频次矩阵和频率矩阵两种)。分布矩阵的行与词条元素对应,列与发表年相对应。其中,频次矩阵元素值为词条在某年出现的频次,频率矩阵元素的值(公式二所示)为词条在某年的频次与当年所有词条频次总和的商);
o
文档词条矩阵(Document-Term Matrix):依据文本预处理结果,生成文档——
词条矩阵(分多值矩阵和二值矩阵两种,包括文档——标题词矩阵、文档——关键词矩阵、文档——主题词矩阵和文档——摘要词矩阵)。多值矩阵元素的值为词条在文档中出现的频次,二值矩阵元素的值为其布尔值。文档词条矩阵的行与文档ID相对应,列与词条相对应,文档词条矩阵可用于文本向量的构建,利用向量空间模型(VSM)做进一步数据挖掘。
待生成Excel格式和.txt文本格式的知识矩阵数据后,可将相应矩阵文档导入数据分析软件(如SPSS、Ucinet、Netdraw等)以生成各种基本图表、聚类图、多维尺度分析图、共现网络知识图谱等。
正在阅读:
SATI简介04-07
某某小学消防安全演练总结范文(2022年精选6篇)03-28
四年级第二学期科学第一二单元复习资料02-01
世界网络战部队的发展现状05-15
中小学校岗位安全责任工作细则03-13
小学亲子作文06-15
邓丽君日文歌《あなたと共に生きてゆく》罗马拼音注音09-02
镁铝合金应用状况08-16
某3—40米简支T梁荷载试验方案05-06
恒大集团财务报表分析05-11
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 简介
- SATI
- 材料配方培训
- 2014年国赛中职工程测量题库
- 鸟语教案+夏树娟
- 行政诉讼证据规则--题目
- 第一章思考题与习题
- 会计学本--财务报表分析综合练习 文档
- mapgis讲义
- 《C语言程序设计 II》设计性实验
- (转人人)以社会制约权力 - 达尔的多元主义民主理论与公民社会
- 潘德的预言G兵种
- mysql触发器实例附答案 - 图文
- 骨折病人的护理
- 小麦测试
- 2017-2018学年外研版七年级英语下册专项训练:句型
- 内科学 第七版 习题 总结
- 江苏省2017年“三支一扶”计划高校毕业生拟录用人员 - 图文
- 八上语文总复习
- 福建师范大学14春学期课程考试《组织行为学》作业考核试题
- 援建国外工程项目考察报告12.2 - 图文
- 初中语文教学论文:刍议初中语文教学中的作业设计