科学计量学的几个定律

更新时间:2024-03-19 13:15:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

科学计量学的几个基本定律

1.描述文献增长定律——普赖斯指数

文献增长定律是描述文献数量随时间而有规律地增长。令F表示文献数量,t表示时间,则文献增长定律的数学表达形式为: F?f(t)

式中f(t)的总趋势满足t增大时,F也应相应增大。描述文献增长规律的主要函数是:线性函数、指数函数、逻辑曲线函数等。其中以D.J.普赖斯(Price)建立的指数增长定律最为著名

F(t)?aebt

式中,F(t)为某年(t)的文献累积数量;t为时间(以年为单位);b为文献持续增长率,即每一年文献

的增长率。

图:科学期刊与文摘期刊按指数增长示意图(据普赖斯) (半对数坐标,直线实际上指数曲线经对数转换后的结果)

《化学文摘》年度文献累积曲线

图:

图:1600—1950年代科学发明的指数增长(据赵红洲)

指数增长规律只有在没有限制或干扰的情况下才会出现,如果受到智力的、物质的和经济的限制,普赖斯指出文献增长更趋于逻辑曲线。苏联学者弗勒杜茨和B.纳利莫夫提出了著名的逻辑曲线方程式

F?K1?ae?bt

式中,F(t)表示t年的文献累积量,K为F(t)增长的最大值,a与b为参数。

例:有A、B两个学科,研究其引用文献的情况。(假设研究时间为2004年底) A学科:假设全部引用文献共674篇,其中发表于近5年的文献为 409篇文献

B学科:假设全部引用文献共2419篇,其中发表于近5年的文献为 1796篇文献

则A学科的普赖斯老化指数为:409/674=60.68% B学科的普赖斯老化指数为:1796/2419=74.25%

3.论文作者分布规律──洛特卡定律

关于科技文献作者分布规律的描述方式很多,它们的主要目的是考察科技人员的著述能力与文献量之间的关系。其中最著名的是洛特卡定律。

1926年末,美国一家人寿保险公司的统计员A.J.洛特卡(Lotka),以《化学文摘》和《物理学史一览表》为来源资料,考察了1907—19l6这10年间的累积索引。他得出撰写x篇论文的作者相对频率y(x)的公式

Cy(x)?nx

格特卡指出“这两个例子表明的指数近似等于2.0。”于是,上式被C.K.齐普夫(zipf)称为“倒平方定律”。但是后人的继续研究表明,指数2仅是一个特例。1974年,J.维拉奇,对不同的学科而言,n可以从1.2浮动到3.5以上。

根据所得到的结果,洛特卡是这样描述科学工作者人数与其所著论文之间关系的:“??写两篇论文作者数量约为写一篇论文作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;而写一篇论文作者的数量约为所有作者数量的60%。”科学工作者对科学贡献量的差异是非常大的。大约有在其一生中仅发表过一篇论文,而发表论文数量在10篇以上者不足全部作者的1%。

此外,普赖斯的一项研究也支持了上述结果:

60&的人,

4.科技文献离散定律──布拉德福定律

科学论文在科技期刊中的分布是不均匀的,少数期刊中“拥挤”着大量的论文,大量的期刊中“稀释”着少量的论文。1934年英国文献学家S.C.布拉德福(Bradford)明确地指出这种倾向:“对某一主题而言,将科学期刊按刊登相关论文减少的顺序排列时,可以划分为对该主题最有贡献的核心区,以及含有与该区域论文数量相同的几个区域。每个区域里的期刊数量成1:n:n2”。(布拉德福定律) (n 是经验数据,布拉德福推算n=5)

根据多年的实际工作经验,他猜测,专业文献除密集地登裁于相应的专业期刊(约占1/3)外,还登载于大量的专业边缘(相关的)期刊(约占1/3)和更一般化的期刊(约占1/3)。

(图中:X:期刊累积量的对数;Y相应论文数量的累积量

α为第一区期刊数累积量β:为第一区和第二区期刊数累积量;

γ为一区二区三区期刊数累积量)

例:我们将某一年发表某学科(流媒体)的期刊论文全部收集齐全(只要有一篇就进行统计),然后按照各

期刊发文量的多少将期刊降序排列。假设全部论文数量为1504篇。

期刊1 期刊2 期刊3 期刊4 期刊5 期刊6 刊7?期刊8 期刊9 期刊10 ?? 期刊 期刊 期刊 ?? 期刊

102篇 84篇 79篇 74篇 70篇 50篇 43篇? 37篇 28篇 28篇 ?? 5篇 4篇 4篇 ?? 1篇

(502篇,约占1/3) (499篇:约占1/3) (503篇,约占1/3)

核心区 相关区 一般区

核心区:期刊数P1=7 (约占总期刊数的3.23%) 相关区:期刊数P2=35 (约占总期刊数的16.13%) 一般区:期刊数P3=175 (约占总期刊数的80.65%)

(总期刊数为217种)

5.词频分布规律──齐普夫定律

科技文献是由符号有规律地排列而形成的。符号主要是文字。齐普夫在1935年经过大量数据的验证得出:如果在一个足够长的文集中,f表示一个词汇出现的频率,r是按f大小而排列的顺序。那么,它们之积是一个常数

f?r?c

严格地说,上式仅仅对中频、中序的词才是有效的。

例:对下面的一段文字进行词频统计,得到结果如表所示

图:词频统计规律

6.文献引用规律──齐曼定律

一篇完整的科学论文一般是由作者的正文部分和附于其后的一篇篇引用文献所构成的。

普赖斯说:每一篇引用文献对于引征者(论文作者)说来,就是有了一篇参考文献(reference),而对于被引征者(被引用文献作者)说来,却是有了一篇引文

(citation)。例如本书引用了普赖斯的一篇文章中这一段话,那么我们便有了一篇参考文献;而对于普赖斯说来,就是有了一篇引文。

英国学者J.N.齐曼(ziman)说:“没有一篇科学论文是孤立存在的,它是被深嵌在某学科的文献系列之中.”因此,文献之中依照出版的先后,出现引用与被引用的关系。这里堪称为规律的是:大量的论文在施

引,所受引的论文只是一小部分,而那些高受引的论文,表征着引文集中规律。由此而派生出的一些概念,常常象人体分泌物可探测人的正常生理状态那样,也可以反映出科技文献所代表的事物规律。常常被采用的、可计量的因素是:引文数、平均引用数、自引率、被引用率、被引数与引用数的比率、影响因素、衰减系数、当年指标、引文偶、同被引以及各种文献引用网络图等。

引文数、平均引用数

表:被引数与引用数的比率

图:引文网络图(箭头指向被引文献,箭尾指向引用文献)

其中的文献2,由于多次被引用,显然在该网络中占有突出的位置。而文献7、9则可能在专业内容或方法上有较大的相似之

处,因为它们不约而同地引用了许多相同的文献。

文献5、3也可能具有文献7、9那样的关系,因为它们被一些文献分别共同引用。这被称为“同被

引”。

“同被引”,意两篇独立的论文,客观地被引用它们的著文作者结成了一对(或多于两篇被引论文)。研究同被引的目的是讨论文献的聚类,也就是利用论文间的同被引关系,来把本来无人为关系的论文聚在一起,形成一个“类”。这里,同被引强度是具有同被引关系的论文可否有资格聚为一类的标准。聚类必须有一个人为标准,也就是要规定同被引的阈值,一般称之为聚类级(Cluster level),聚类级通常规定同被引强度在3以上。这样人们可以不必通过繁琐的主题分析,只通过同被引强度,依据规定聚类标准,便可把有相关关系的论文归并成类,并展开分析。

引文分析的作用:

例:科研人才的评价

客观地评价科技工作者的成就从来就不是一件容易的事情,近年来,引文分析已被证明是一种可以信赖的行之有效的方法之一。

加菲尔德等人曾利用SCIl968年所提供的数据成功地预测了1969年诺贝尔奖获得者。

下表是根据SCI数据得到的1967年被引次数最多的前50名科学家的被引次数及相应的名次排队表。

非常有趣的是,果然在这

里面便有两名科学家(列下表第41位和第6位者)双双榜上有名。要知道当时全世界科学工作者的数量当以百万计,加菲尔德等人仅用简单的引文计数法便在预测的50名预选人中言中两人,的确不能不算是一件不小的成就。

本文来源:https://www.bwwdw.com/article/4tt8.html

Top