Stata 14新功能介绍

更新时间:2024-01-16 19:03:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Stata14新功能介绍

StataCorp LP每2年左右都会发布一个新的版本,每次都给用户带来惊艳的感觉。本文由中国科学软件网翻译,供大家参考。

Stata 14新功能亮点

Stata 14带来了令人印象深刻的更新。我们为大家送上了有大有小共102个新功能。我们将指导您完成14个新特性。 1.Unicode支持

2.新的语言下的Stata 3.贝叶斯分析 4.IRT模型

5.Stata/MP现在支持超过21.4亿个观察值 6.扩展效果

7. 更多级mixed-effects模型 8. 新的扩展面板数据估计 9.新的SEM和广义SEM特性 10.新的时间序列

11. 生存分析的动力分析和应急表 12. 新的生存分析命令 13.icd - 10编码 14. 阶段的权重 15. 更多新功能!

1. Unicode支持

Stata现在支持Unicode utf - 8格式的字符串。这是互联网上使用最广泛的用来跨应用程序存储文本的方法。

目标用户

需要用除英语之外的其他语言来处理数据的用户,编写Stata命令一般分布的程序员。 任何使用非英语来处理数据的用户都将会这种变化感兴趣。程序员编写Stata命令一般分布也会想了解如何切换到utf - 8。一般来说,所有用户应该意识到这种变化。一些用户可能之前使用扩展ASCII克服纯ASCII在他们的局限性。dta文件、do-files ado-files。这些文件需要从扩展ASCII翻译为 Unicode。

综述

现在支持Unicode字符的有: 变量名 标签变量、值等 数据和其他

因为Unicode的变化,一切都显示正确,不必担心文件时选择正确的字体在电脑之间共享或程序可能默认不同扩展ASCII字符集。同时,许多其他软件包(例如,字处理 器)期望Unicode文本,从而输出结果将得到改善。

我们还添加了一些新的功能专门设计用于处理包含Unicode文本。当用户需要使用这些新功能和现有功能就足够了的时候,我们为他们提供了全面的文档来解释。我们还添加了一些新的Unicode实用程序命令,例如Unicode分析和Unicode转换,来实现Stata 13和Stata 14之间的平稳过渡。

2. 新的语言下的Stata

Stata的用户界面现在支持西班牙语和日语了! 目标用户: 日语用户

西班牙语系的用户

综述

我们已经完成了菜单对话框等的翻译,这个过程称为Stata为西班牙语和日语做的本地化。PDF文档和帮助文件依然还是英语。

如果一个用户的电脑设置为西班牙语或日语,Stata会自动识别从英语到适当的语言。用户也可以手动选择语言:

Edit > Preferences > User-interface language... (Windows/Unix) Stata 14 > Preferences > User-interface language... (Mac)

我们要感谢我们的日本经销商LightStone Corp.在日语翻译上提供的帮助。 如果你们对将Stata翻译为当地语言请联系Sarah Marrs。

3.贝叶斯分析

贝叶斯分析是利用概率统计来解答未知参数的统计模型的统计分析。它基于这样一个假设:所有模型参数是随机量,从而先验知识的主体。这种假设与传统的频率论的统计推断形成了鲜明对比,它将考虑了所有未知但固定数量的参数。

目标用户

健康、医学和相关领域 经济学领域 其他社会科学

我们预料对贝叶斯分析命令感兴趣的研究者们来自广泛的学科,主要是那些在健康/医药及相关领域和经济学。我们同时也看到了其他社会科学学科对贝叶斯分析的兴趣。

综述 描述模型

线性回归模型

单变量常规线性模型 多元正态线性模型 非线性回归模型

单变量广义非线性模型 多元正态非线性模型 Multiple-equation模型 其他

?特性

12个内置可能性模型 22个内置的先验分布

连续、二进制、命令和计算结果 之前连续和离散分布

自适应Metropolis-Hastings和吉布斯方法 编写自己的贝叶斯模型的工具 图形融合诊断 MCMC效率

后,中位数、可信区间和更多 贝叶斯信息准则和贝叶斯因子 区间假设检验 模型的后验概率 其他

贝叶斯分析是全新的261页Stata贝叶斯分析参考手册的主题。

技术说明

贝叶斯分析是回答研究问题,利用概率统计模型的未知参数声明的统计分析。它基于这样一个假设:所有模型参数是随机量,从而先验知识的主体。这种假设与传统形成了鲜明对比,频率论的统计推断,所有参数视为未知但固定数量。

贝叶斯分析使用所谓的推理关于模型参数的后验分布。后验分布的结果更新之前知识模型参数(前分布)观测数据的证据(可能性模型)。贝叶斯推理使用后验分布形式不同模型参数的总结,包括点估计如后,中位数,和百分位数,区间估计称为可信的间隔。此外,所有关于模型参数可以表示为概率的统计测试语句的基础上估计的后验分布。 叶斯分析的主要优势在标准频率论的分析包括合并前信息分析的能力,一个直观的解释置信区间)作为固定参数已知所属范围指定概率,以及一个实际的概率分配给任何假设的能力。

Stata 14为贝叶斯统计分析提供了新的bayesmh命令和相应的套件的功能。mhbayesmh代表Metropolis-Hastings结束。用户可以使用一个合适的模型自适应Metropolis-Hastings算法,或者完整的吉布斯算法,两种算法的结合。

我们为连续可能性,二进制,序数,计数结果提供了12 个内置模型。这些是结合了22

个内置分布,它可能是连续的,一元,连续多变量、离散等等。这意味着bayesmh可以支持单变量、多变量和multiple-equation模型,是否线性或非线性。

用户不仅可以访问我们的预定程序的可能性模型套件,他们甚至可以编写自己的。 如果他们写自己的模型,他们仍然可以使用内置的优先功能。Postestimation特性也是相同的。

评估后,用户可以诊断融合和分析结果。bayesgraph诊断让用户直观地检查集合。新的bayesstatsess命令是用来检查采样效率。

可能感兴趣的其他特性是能够获得后验平均值及其模型参数和模型参数功能的MCMC标准错误,利用贝叶斯信息准则比较模型的能力,执行间隔的能力参数的假设检验,一组参数,甚至函数的参数以及能力模型假设检验通过后验概率模型。

4.项目反应理论(IRT)模型

IRT模型探索潜在的(未被注意的)特征和项测量方面的特征之间的关系。这通常出现在标准化测试中感兴趣的特征的能力。一组物品(问题)设计和测量的响应不可见的特征,例如,数学能力

目标用户 教育研究者 心理计量学家 心理学家 健康研究人员

健康服务和健康政策研究人员

我们预计,IRT模型将会成为教育研究人员、心理计量学家、心理学家、健康研究人员等注重生活质量,并在较小程度上,那些在卫生服务研究或卫生政策研究研究质量改进感兴趣的对象。

综述

Stata可以配合以下模型: 二项:1PL, 2PL, 3PL 分类项:标称响应

序数项目:递级反应,等级量表,局部信用 以及混合以上所有模型的混合模型 特性

分类和顺序的结果

在输出控制项分组和排序

完整的套件postestimation图表 项目特征曲线(ICCs) 类别特性曲线(CCCs)

项目信息函数(IIFs) 试验特性曲线(TCC) 测验信息函数(TIF)

指导用户通过分析控制面板

IRT主题的介绍见全新Stata项目反应理论参考手册199页。

技术说明

IRT代表项目反应理论.IRT模型探索潜在的(未被注意的)特征和项测量方面的特征之间的关系。这通常出现在标准化测试中感兴趣的特征的能力。一组项目(问题)的设计和测量来响应不可见的特征,例如,数学能力。

问题也可以用来测量难以察觉的人格特质,态度、健康状况、生活质量,等等。项目可以是我们认为测量特征的任何可观察到的变量。也就是说,虽然可观察到的物品通常可以反应问题,他们并不需要做到。例如,卫生服务研究人员目前会使用IRT来检查医疗质量指标的设定从而最佳捕获全面质量。

Stata可以兼容模型项目,序数物品,或分类项。这些包括了for binary items,

one-parameter logistic (1PL), two-parameter logistic (2PL), and three-parameter logistic (3PL); for ordinal items, graded-response模型,rating-scale模型以及

partial-credit模型。还有for categorical items, nominal response模型。Stata也适合混合模型在不同的项目使用不同的模型。

补充模型的作用是用来控制的结果的显示功能。不同的学科有一系列项目物品的分类和分组。

Stata能够定制输出到用户的特定需求,排序的错误,困难,或项目。也可以通过项目或参数分组。还有一个全系列的postestimation图表用来评估项目和测试。项目特征曲线(ICCs),类别特性曲线(CCCs)和测试特性曲线(TCC)在一个项目或测试描述“成功”的可能性。项目信息函数(IIFs)和测试信息功能(TIF)描述了可以获得不同级别的潜在特质的信息量。

Stata包括一个控制面板来指导用户通过IRT模型进行拟合和分析。

5. Stata/MP现在支持超过21.4亿个观察值 目标用户:

有非常大的数据集的用户

我们预期对这种变化感兴趣的用户主要是需要非常大的数据集和计算机硬件支持的人。 综述

允许的最大数量的观察在Stata / MP从21.4亿增长到21.4亿的理论上限。观测的具体处理数量也会依赖于计算机上的可用内存和数据集的宽度。

Sample calculations计算样本

Scenario 1: width = 43 bytes (same as auto.dta) Scenario 2: width = 64 bytes Scenario 3: width = 96 bytes Billions of Observations

Computer's Memory Scenario Memory Used (1) (2) (3)

------------------------------------------- 128GB 112GB 1.8 1.4 1.0 256GB 240GB 3.8 2.9 2.1 512GB 496GB 7.9 6.1 4.4

1024GB 1008GB 16.2 12.3 9.8 1536GB 1520GB 24.4 18.5 13.6 ------------------------------------------- ?

工作变量独有的宽度数据

使用内存是用于存储数据的总量

假设Stata消耗几乎所有计算机的资源(单机) 观察树叶额外的三个工作空间变量

实践证明,鉴于当前的硬件限制,Stata / MP可以分析10至最大200亿个观察的电脑,但这是为随着硬件功能的提高而随着时间的推移而增长。

6. 扩展效果 目标用户: 经济学家

社会学家和其他社会学科的用户 健康学家

新的treatment-effects命令将引起许多用户的极大兴趣。经济学背景的用户和那些已经熟悉Statateffects的命令将认识到“treatment-effects”的术语。其他用户,特别是健康科学和社会科学(例如,社会学),可能更熟悉使用估计量本身的名称这个概念 (例如,IPW)。

现有的teffects用户经常要求新平衡统计。

综述: 新的评估量 生存处理效果 回归调整

加权回归调整 回归调整IPW 内生的处理效果

etregress现在允许使用控制函数来估算

检查治疗和控制组织之间的平衡 过分识别测试 诊断组汇总统计 诊断图

其他新功能

概率权重对许多命令

etregress估计潜在后果模型

新的生存治疗效果的命令见Stata Treatment-Effects Reference Manual 163页

技术说明

治疗效果寻求从观测数据中提取experimental-style因果效应。

现有teffects命令,我们增加了stteffects,一套治疗效果评估人员的生存模式。像teffects一样,新的stteffects命令允许您估计平均治疗效果(ATEs),平均治疗对治疗的影响(ATETs)和潜在后果(POMs)。

stteffects命令让用户模型的组合结果,治疗任务,和审查。IPW stteffectsips估计处理效果。stteffectsra和stteffects包装材料使用不同regression-adjustment估计处理效果的方法。最后,stteffectsipwra之间提供了一个选择两双稳健估计。

内源性处理时出现两个治疗模型和结果模型时会共享难以察觉的校正。在Stata 13里面,我们通过etregress和etpoisson计数结果提供了连续模型,。Stata 14 eteffects补充了这个功能,评估了ATEs, ATETs和POMs和不断探索,统计,和二进制结果的处理任务与结果。etregress也已经被扩展可以估算POMs和选择使用一个控制功能的方法。

平衡测试和相关诊断统计数据以及图表Stata用户长期以来一直要求的功能。新的tebalance命令介绍了这些特性。

最后,我们添加了支持概率(抽样)权重teffectsipwra,teffectsipw,和teffectsra。所有上面讨论的新估算也支持概率权重。

7. 更多级mixed-effects模型

我们添加了一些新的有关多级mixed-effects的命令和功能模型

目标用户 生物统计学家 医疗从事人员 流行病学家 计量经济学家

我们期待新的mixed-effects参数生存命令会得到大多数生物统计学院,医疗从事人员,流行病学家和计量经济学家等研究人员的认可。(参考第8项,新的和扩展面板数据估计量)

执行完成推理的能力在线性mixed-effects模型可能是最感兴趣的那些使用小型数据集进行分析。这是一个经常要求实现的功能,用来执行那些这种类型的分析,所以我们预计这一变化会引起用户极大的兴趣。

综述:

新的多级估计:参数生存模型 支持5种发行版本

指数函数,Loglogistic,威布尔,正态分布,伽玛函数 两个参数化:比例风险(PH),加速失效时间(AFT) 允许单个或多个记录st数据

新特性:

Graph survivor,累积和风险函数后多级mixed-effects生存模型 线性mixed-effects模型与小分母的自由度(DDF)

Kenward-Roger,Satterthwaite,方差分析,重复测量方差分析,残差 测试、testparm和应用允许混合后完成推理 现在支持所有多级mixed-effects GLM调查功能 重量可能指定为每个级别的层次结构

技术说明

新mestreg命令适应参数mixed-effects生存模型符合单一或多个记录st数据。这些模型被用来解释不同层次水平的生存数据。通常使用两级随机生存生存分析模型与分布式随机效应的研究人员可能会对模型特别感兴趣。这些模型常用的生存脆弱模型扩展到允许弱点有更灵活的比传统的伽马分布正态分布。

用户可以选择从各种各样的分布:指数,loglogistic,威布尔,对数正态和伽马。PH和AFT参数化都是支持的。例如,指数和威布尔模型可以参数化为PH或AFT。除了这些新模型,我们还修正了mestreg工作postestimation命令stcurve。

从Stata 9开始,我们通过混合多级线性mixed-effects命令提供大样本推断固定的影响 (称为xtmixed) 。多年来,我们有多个请求来实现地区指定基金调整完成推理的方法。这些方法使用t和F统计来取代渐进z和卡方。使用新的dfmethod()选项,用户可以从Kenward-Roger方差分析、Satterthwaite,重复测量方差分析,方差分析以及中进行选择。

通过添加完成混合推理,我们还添加了estat地区指定基金报告每个系数的estatddf。我们还修改测试和应用,允许相同的小样本调整假设检验和线性组合混合后的固定效果。

最后,所有现在除了mixed之外的混合多级mixed-effects命令都提供全面调查的支持,包括使用重量在每个级别的层次结构。所有postestimation特性调查评估后也可用。 用户还可以在评估时为每个级别的多级模型指定重量而不使用调查的功能。

8. 新的扩展面板数据估计

目标用户:经济学家

随机生存估计实现xtstreg是上面所讨论的mixed-effects生存估计的 “小兄弟”。然而,一些用户更习惯思维在随机或random-coefficients框架中的mixed-effects模型。尤其是当经济学家处理面板数据时。经济学家经常使用术语“持续时间”来代替“生存”,所以你可以考虑指xtstreg命令来作为面板数据随机估计持续时间。备注: Random-coefficient模型只适用于mestreg。 综述

新随机生存估计 参数生存模型

支持5种发行版本:指数函数,Loglogistic,威布尔,正态分布,伽玛函数 两个参数化:比例风险(PH),加速失效时间(AFT) 允许单个或多个记录st数据

可以使用Robust和cluster-robust标准错误用于: 新的估计量

现有的随机Poisson估计量

现有的Hausman-Taylor error-components模型

技术说明

Xtstreg既是xt也是st命令。xtset面板数据的特点和stset生存特征。因此,单个和多个记录st数据以及生存数据特性都是支持的。还有用图表表示的幸存者,累积和风险函数可以使用stcurve。一些xtstreg用户将有多个记录的用户数据。

现有的默认伽玛残差的命令xtpoisson, re以及xthtaylor现在接受vce(robust) 和vce(cluster clustvar)选项

9. 新的SEM和广义SEM特性 目标用户:

现有的gsem用户 健康研究人员 生物统计学家 社会科学家 工程师

我们已经为gsem添加了相关的五个新的生存分析。除了现有的gsem用户。我们也期待生存分析的用户如健康研究人员和生物统计学家会对这个改进感兴趣。我们

还为gsem添加了贝塔分布,社会学家和工程师应该会对这个功能感兴趣。许多从现有sem用户的请求后,我们现在有能力执行Satorra-Bentler模型试验。许多现有的sem用户会非常喜欢这个新增功能的。

综述

新版本的gsem允许更广泛的结果 生存时间

Fractional对策、比例等

可以估计的意义: 多元的生存模式

生存与未被注意的组件模型 生存模型结合其他类型的结果 分数反应与未被注意的组件模型 部分响应模型结合其他类型的结果

其他新功能

Satorra-Bentler调整模型试验 调查数据支持 多层重量

新的预测之后可用的预测和利润

技术说明

Gsem新添加五个家族:exponential, loglogistic, lognormal, Weibull以及gamma。在分析生存时间里,添加选项用于指定right-censoring和left-truncation是很常见的(必要的) 。这允许您估计一系列新的生存模式。除了已经讨论过的新的多级模型,用户还将能够估计多元模型,估计生存模型与观察到的组件(潜变量),并合并生存模型与其他模型。

我们还添加了β家族,这是特别适合分级响应,比例,利率等

当新选项vce(sbentler)指定时,sem现在提供了Satorra-Bentler扩展卡方和

model-versus-saturated测试。此外,相应的稳健标准误差(SEs)已有生成和报告。这个测试和SEs对非正态的分布很重要。这是前面提到的SEs之外另一种选择。基于模型卡方拟合优度统计数据也有所调整。这是我们最想要完成的一个有关sem的功能,所以我们非常高兴地宣布其可用于sem社区。

10. 新的时间序列 目标用户 经济学 金融学 政治学 公共卫生学

本文来源:https://www.bwwdw.com/article/h1fo.html

Top