233搞懂HMM(隐马尔可夫)
创始人
2024-03-16 04:56:47

文章目录

  • 2条性质
  • 3个参数
  • 3个问题
    • 维特比算法
  • 参考资料

有向图模型,主要用于时序数据建模,在语音识别,自然语言处理等领域,以及在知识图谱命名实体识别中的序列标注,有广泛应用。

HMM模型由两部分组成, 观测变量x状态变量y。其中状态变量又称为隐变量,常常被作为序列标注结果

2条性质

马尔可夫链性质:

  1. t时刻的状态变量y只由t-1时刻的状态决定,而与t-2及之前的无关
  2. t时刻的观测变量仅由t时刻的状态变量决定

3个参数

  1. 状态转移概率矩阵:
    NxN的矩阵,矩阵里的每个值记录从当前状态转移到其它状态的概率
  2. 输出观测概率矩阵:
    NxM的矩阵,M为观测值结果的个数
    矩阵记录从当前状态到每一个观测值的概率
  3. 初始状态概率
    在t=1初始时刻,各状态出现的概率。

给定隐马尔可夫模型λ\mathbf{\lambda}λ,生成观测序列的过程:

  1. 设置t=1,根据初始状态概率参数,选择初始状态
  2. 根据输出观测概率矩阵,得出当前状态变量的观测变量
  3. 根据状态转移概率矩阵,得出当前状态变量的下一个状态变量
  4. 重复2-3过程,直到结束

3个问题

  1. 概率计算问题。给定模型λ=(A,B,π)\lambda=\left(A,B,\pi\right)λ=(A,B,π)和观测序列O=o1,o2,…,oTO=o_1,o_2,…,o_TO=o1​,o2​,…,oT​,计算在模型λ\lambdaλ下观测序列OOO出现的概率P(O|λ)P\left(O\middle|\lambda\right)P(O∣λ)。前向-后向算法是通过递推地计算前向-后向概率可以高效地进行隐马尔可夫模型的概率计算。

  2. 学习问题。已知观测序列O=o1,o2,…,oTO=o_1,o_2,…,o_TO=o1​,o2​,…,oT​,估计模型λ=(A,B,π)\lambda=\left(A,B,\pi\right)λ=(A,B,π)参数,使得在该模型下观测序列概率P(O|λ)P\left(O\middle|\lambda\right)P(O∣λ)最大。即用极大似然估计的方法估计参数。EM算法可以高效地对隐马尔可夫模型进行训练。它是一种非监督学习算法。

  3. 预测问题。已知模型λ=(A,B,π)\lambda=\left(A,B,\pi\right)λ=(A,B,π)和观测序列O=o1,o2,…,oTO=o_1,o_2,…,o_TO=o1​,o2​,…,oT​,求对给定观测序列条件概率P(I|O)P\left(I\middle| O\right)P(I∣O)最大的状态序列I=i1,i2,…,iTI=i_1,i_2,…,i_TI=i1​,i2​,…,iT​。维特比算法应用动态规划高效地求解最优路径,即概率最大的状态序列。

维特比算法

输入:HMM模型参数,观测序列
输出:状态序列
算法流程:
时刻由观测序列长度决定
δ\deltaδ用于记录每一时刻各状态的概率
ψ\psiψ用于记录前一个时刻的状态,便于回溯

  1. 初始化,δ\deltaδ和ψ\psiψ,ψ\psiψ置为0
  2. 递归(动态规则,状态转移矩阵),
    现有t-1时刻,各状态出现的概率。
    根据状态转移矩阵,分别计算其转移到各个状态的概率,取最大值乘以输出观测概率
  3. 取累乘概率的最大值,并进行回溯,得到状态序列
class HiddenMarkov:def __self__(self):self.alphas = Noneself.forward_P = Noneself.betas = Noneself.backward_P = Nonedef viterbi(self, Q, V, A, B, O, PI):# 状态集合的大小N = len(Q)# 观测序列的大小M = len(O)deltas = np.zeros((N, M))psi = np.zeros((N, M))I = np.zeros((1, M))# 遍历预测序列,即遍历全部时刻for t in range(M):# 得到这个观测序列值在观测集合里的索引 idxO= V.index(O[t])# 每一个时刻遍历所有状态for i in range(N):if t == 0:deltas[i][t] = PI[0][i] * B[i][idxO]psi[i][t] = 0else:# t-1时刻所有的状态 与 转移到第i个状态的概率 对应相乘取最大值# 再与输出预测相乘deltas[i][t] = np.max(np.multiply([delta[t-1] for delta in deltas], [a[i] for a in A])) * B[i][idxO]psi[i][t] = np.argmax(np.multiply([delta[t-1] for delta in deltas], [a[i] for a in A]))# 得到最后一时刻的最大概率的下标I[0][M-1] = np.argmax([delta[M-1] for delta in deltas])# 由后向前递归得到其它结点for t in range(M - 2, -1, -1):I[0][t] = psi[int(I[0][t+1])][t+1]# 输出最优路径print('最优路径是:', "->".join([str(int(i + 1)) for i in I[0]]))
Q = [1, 2, 3]  # 状态序列
V = ['红', '白']
A = [[0.5, 0.2, 0.3], [0.3, 0.5, 0.2], [0.2, 0.3, 0.5]] # 状态转移
B = [[0.5, 0.5], [0.4, 0.6], [0.7, 0.3]]  # 输出观测
O = ['红', '白', '红']  # 观测序列
PI = [[0.2, 0.4, 0.4]]  # 初始概率分布HMM = HiddenMarkov()
HMM.viterbi(Q, V, A, B, O, PI)

参考资料

  1. 《机器学习》周志华
  2. 《统计学习方法》李航
  3. 统计学习方法代码实现

相关内容

热门资讯

埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...