统计自然语言处理-刘挺 NLP_4

更新时间:2023-05-19 05:41:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

隐马尔科夫模型和词性标注刘挺 哈工大信息检索研究室 2004年春

大纲 隐马尔科夫模型– 隐马尔科夫模型概述 – 任务1:计算观察序列的概率 – 任务2:计算能够解释观察序列的最大可能 的状态序列 – 任务3:根据观察序列寻找最佳参数模型 词性标注

隐马尔科夫模型概述

马尔科夫链 状态序列: X1, X2, X3, …– 常常是“时序”的 从Xt-1到Xt的转换只依赖于Xt-1X1 X2 X3 X4

转移概率 Transition Probabilities 假设一个状态Xt有N个可能的值– Xt=s1, Xt=s2,….., Xt=sN. 转移概率的数量为:N2– P(Xt=si|Xt-1=sj), 1≤ i, j ≤N 转移概率可以表示为N×N的矩阵或者有 向图

MM Bigram MM(一阶MM)

MM Trigram MM(二阶MM)

有限状态自动机 状态:输入输出字母表中的符号 弧:状态的转移 仍然是VMM (Visible MM)

HMM HMM,从状态产生输出

HMM HMM,不同状态可能产生相同输出

HMM HMM,从弧产生输出

HMM HMM,输出带有概率

HMM HMM,两个状态间有多条弧,具有不 同的概率

隐马尔可夫模型 Hidden Markov Model 估算隐藏于表面事件背后的事件的概率– 观察到一个人每天带雨伞的情况,反过来 推测天气情况

Hidden Markov Model HMM是一个五元组(S, S0,Y, Ps, PY ).– – – – S : {s1…sT }是状态集,S0是初始状态 Y : {y1…yV }是输出字母表 PS(sj|si):转移(transition)概率的分布,也表示为aij PY(yk|si,sj): 发射(emission)概率的分布,也表示为bijk 给定一个HMM和一个输出序列Y={y1,y2,…,yk)– 任务1:计算观察序列的概率 – 任务2:计算能够解释观察序列的最大可能的状态序列 – 任务3:根据观察序列寻找最佳参数模型

任务1:计算观察序列的概率

计算观察序列的概率 前提:HMM模型的参数已经训练完毕 想知道:根据该模型输出某一个观察序 列的概率是多少 应用:基于类的语言模型,将词进行归 类,变计算词与词之间的转移概率为类 与类之间的转移概率,由于类的数量比 词少得多,因此一定程度避免了数据稀 疏问题

Trellis or Lattice(栅格)

发射概率为1的情况 Y=“toe” P(Y)=0.6×0.88×1+0.4×0.1×1=0.568

算法描述 从初始状态开始扩展 在时间点t扩展得到的状态必须能够产生于观 察序列在t时刻相同的输出– 比如在t=1时,观察序列输出‘t’,因此只有状态A 和C得到了扩展 在t+1时刻,只能对在t时刻保留下来的状态节 点进行扩展– 比如在t=2时,只能对t=1时刻的A和C两个状态进 行扩展 每条路径上的概率做累乘,不同路径的概率 做累加 直到观察序列全部考察完毕,算法结束

发射概率不为1的情况 0.236608就是在上述模型下“toe”出现的 概率

本文来源:https://www.bwwdw.com/article/sun4.html

Top