如何用简单易懂的例子解释条件随机森林 matlab 例子场模型

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>编程 >>如何用简单易懂的例子解释条件随机森林 matlab 例子场模型

如何用简单易懂的例子解释条件随机森林 matlab 例子场模型

来源：蜘蛛抓取(WebSpider) 时间：2017-02-28 09:32 标签：简单随机抽样的例子

条件随机场（conditional random field，以下简称CRF）是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场（HMM 是状态序列的 Markov Chain）。CRF 可以用于不同的预测问题，在 Machine Learning 领域里 CRF 一般用作处理标注问题。常用的就是线性链（linear-chain) 条件随机场了，这时，问题变成了由输入序列对输出序列预测的判别模型，形式为对数线性模型，其学习方法通常是极大似然估计或正则化的极大似然估计。线性链条件随机场应用于标注问题是由 Lafferty 等人于2001年提出的。
概率无向图模型
概率无向图模型又称为马尔可夫随机场（Markov random field)，是一个可以由无向图表示的联合概率分布。本节首先叙述概率无向图模型的定义，然后介绍概率无向图模型的因子分解。
图是由结点及连接结点的边组成的集合。结点和边分别记作 v 和 e ，结点和边的集合分别记作 V 和 E ，图记作 G=(V,E) ，无向图是指边没有方向的图。概率图模型（PGM）是由图表示的概率分布。设有联合概率分布 $P(Y)$ ，$Y \in \mathcal{Y}$ 是一组随机变量。由无向图 G 表示概率分布，即在图 G 中，结点 $v \in V$ 表示一个随机变量 $Y_v$， $Y = Y_v|_{v \in V}$；边 $e \in E$ 表示随机变量之间的概率依赖关系。
给定一个联合概率分布 $P(Y)$ 和表示它的无向图 G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性局、部马尔可夫性和全局马尔可夫性。分别介绍一下三个概念：
成对马尔可夫性：设 u 和 v 是无向图G中任意两个没有边连接的结点，结点u和v分别对应随机变量 $Y_u$ 和 $Y_v$。其他所有结点为 O（集合），对应的随机变量组是 $Y_O$。成对马尔可夫性是指给定随机变量组 $Y_O$ 的条件下随机变量 $Y_u$ 和 $Y_v$ 是条件独立的，其实意思就是说没有直连边的任意两个节点是独立的，即
\[P(Y_u,Y_v |Y_O) = P(Y_u|Y_O)P(Y_v|Y_O)\]
局部马尔可夫性：设 v \in V 是无向图 G 中任意一个结点，W 是与 v 有边连接的所有结点，O 是 v,W 以外的其他所有结点。v 表示的随机变量是 $Y_v$ ,W 表示的随机变量组是 Y_w，O 表示的随机变量组是 Y_O。局部马尔可夫性是指在给定随机变量组 Y_W 的条件下随机变量 v 与随机变量组& Y_O 是独立的，即
\[P(Y_v,Y_O |Y_W) = P(Y_v|Y_W)P(Y_O|Y_W)\]
在 $P(Y_O|Y_W) &0$ 时，等价地，
\[p(Y_v |Y_W) = P(Y_v|Y_W,Y_O)\]
下图表示了局部马尔可夫性。
全局马尔可夫性：设结点集合 A,B 是在无向图 G 中被结点集合 C 分开的任意结点集合，如图所示。结点集合 A,B 和 C 所对应的随机变量组分别是 $Y_A,Y_B$ 和 $Y_C$。全局马尔可夫性是指给定随机变量组条件下随机变量组 $Y_A$ 和 $Y_B$ 是条件独立的，即
\[P(Y_A,Y_B|Y_C) = P(Y_A|Y_C)P(Y_B|Y_C)\]
概率无向图模型: 设有联合概率分布 P(Y) ，由无向图 G=(V,E) 表示，在图 G 中，结点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布 P(Y) 满足成对、局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型或马尔可夫随机场。
以上是概率无向图模型的定义，实际上，我们更关心的是如何求其联合概率分布。对给定的概率无向图模型，我们希望将整体的联合概率写成若干子联合概率的乘积的形式，也就是将联合概率进行因子分解，这样便于模型的学习与计算。事实上，概率无向图模型的最大特点就是易于因子分解。下面介绍这一结果。
概率无向图模型的因子分解
首先给出无向图中的团与最大团的定义，无向图 G 中任何两个结点均有边连接的结点子集称为团（clique)。若 C 是无向图 G 的一个团，并且不能再加进任何一个 G 的结点使其成为一个更大的团，则称此 C 为最大团（maximal clique)。
下图 (a) 表示由4个结点组成的无向图。图中由2个结点组成的团有5个: {$Y_1,Y_2$}，{$Y_2,Y_3$}，{$Y_3,Y_4$} 和 {$Y_4,Y_2$}，{$Y_1,Y_3$} 。有2个最大团：{$Y_1,Y_2,Y_3$} 和 {$Y_2,Y_3,Y_4$}。而 {$Y_1,Y_2,Y_3,Y_4$} 不是一个团，因为 $Y_1$ 和 $Y_4$ 没有边连接。
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解，譬如在解高次方程的时候，我们非常希望方程能够分解为多个低次方程的乘积。那么，对于概率分布函数而言，我们也希望能够这样做，即给定概率无向图模型，设无向图为 G ， C 为 G 上的最大团， $Y_C$& 表示 C 对应的随机变量。那么概率无向图模型的联合概率分布 $P(Y)$ 可分解为图中所有最大团 C 上的函数 $\Psi_C(Y_C)$ 的乘积形式，分解后的因子图如 (b) 所示，每个黑色的正方形便代表一个函数，图中将无向图拆分为两个最大团上势函数的乘积，具体的拆分公式为：
\[P(Y) = \frac{1}{Z} \prod_C \Psi_C(Y_C)\]
其中，Z 是规范化因子（normalization factor)，形式如下：
\[Z = \sum_Y\prod_C \Psi_C(Y_C)\]
规范化因子保证 $P(Y)$ 构成一个概率分布。$\Psi_C(Y_C) \rightarrow \mathbb{R}$& 称为势函数 (potential function)。这里要求势函数 $\Psi_C(Y_C)$ 是严格正的，通常定义为指数函数：
\[\Psi_C(Y_C) = \exp \left \{-E(Y_C) \right \}\]
总结一下,便得到 Hammersley-Clifford定理，概率无向图模型的联合概率分布可以表示为如下形式：
\begin{aligned}P(Y) &= \frac{1}{Z} \prod_C \Psi_C(Y_C) \\Z &= \sum_Y\prod_C \Psi_C(Y_C)\end{aligned}
其中，C 是无向图的最大团， $Y_C$ 是 C 的结点对应的随机变量， $\Psi_C(Y_C)$& 是 C 上定义的严格正函数，乘积是在无向图所有的最大团上进行的。
阅读(...) 评论()本节讨论给定训练数据集估计条件随机场模型参数的问题，即条件随机场的学习问题。条件随机场模型实际上是定义在时序数据上的对数线形模型，其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及 L-BFGS 算法。（crf++ 采用了 L-BFGS 优化的方式，所以着重看这种训练方法即可） L-BFGS算法对于条件随机场模型： \[P_w(y|x) = \frac{\exp \left \{ \sum_{k=1}^K w_kf_k(x,y)\right \}}{ \sum_y& \left \{ \exp \sum_{i=1}^n w_if_i(x,y)\right \}}\]
已知训练数据集，由此可知经验概率分布 $\widetilde{P}(X,Y)$ 可以通过极大化训练数据的对数似然函数来求模型参数，训练数据的对数似然函数为: \[L(w) = L_{\widetilde{P}}(P_w) = \log \prod_{x,y}P_w(y|x)^{\widetilde{P}(x,y)} = \sum_{x,y}\widetilde{P}(x,y) \log P_w(y|x)\] 接下来给出 $\log$ 似然函数： \begin{aligned} L(w) &= \sum_{x,y} \widetilde{P}(x,y) \log P_w(y|x) \\&= \sum_{x,y} \left \{ \widetilde{P}(x,y)\sum_{k=1}^Kw_kf_k(y,x)-\widetilde{P}(x,y) \log Z_w(x) \right \} \\&= \sum_{x,y} \widetilde{P}(x,y) \sum_{k=1}^K w_kf_k(x,y) - \sum_x\widetilde{P}(x)\log\sum_y\exp\left \{ \sum_{i=1} ^nw_if_i(x,y)\right \} \end{aligned} 对目标进行 MLE 等价于极小化以下优化目标函数： \[\min_w f(w)& = \sum_x\widetilde{P}(x) \log \sum_y \exp \left \{& \sum_{i=1}^n w_if_i(x,y)\right \} -\sum_{x,y}\widetilde{P}(x,y)\sum_{i=1}^nw_i f_i(x,y)\] 其一阶梯度函数在 BFGS 算法的过程中有用到，形式如下： \[g(w) = \left \{ \frac{\partial f(w)}{\partial w_1},\frac{\partial f(w)}{\partial w_2},…,\frac{\partial f(w)}{\partial w_n} \right \}\] 具体其形式如下： \[g(w) = \sum_{x,y}\widetilde{P}(x)P_w(y|x)f(x,y)-E_{\widetilde{P}}(f) = E_P(f) - E_{\widetilde{P}}(f)\] 可以看到，这是要使得真实期望与经验期望的差值尽可能小，也正是我们的初衷，还可以为目标函数加上一个权重为 $1/ \delta^2$ 的 $L_2$ 正则项(贝叶斯先验)，因此 $g(w)$ 的形式变为: \[ g(w) = E_P(f) - E_{\widetilde{P}}(f) + \frac{w}{\delta^2}\] 总结一下便得到求解 CRF 的 BFGS 算法：
输入：特征函数 $f_1,f_2,…,f_n$；经验分布 $\widetilde{P}(X,Y)$；输出：最优参数值 $\hat{w}$；最优模型 $P_{\hat{w}}(y|x)$。 (1) 选定初始点 $w^{(0)}$，取 $B_0$ 为正定对称矩阵，置 $k = 0$； (2) 计算 $g_k = g(w^{(k)})$。若 $g_k = 0$ ,则停止计算；否则转(3) (3) 由拟牛顿条件 $B_kp_k = –g_k$ 求出 $p_k$ (4) 线性搜索：求 $\lambda_k$ 使得： \[f(w^{(k)} + \lambda_kp_k) = \min_{\lambda \ge 0}f(w^{(k)} + \lambda p_k)\] (5) 置 $w^{(k+1)} = w^{(k)} + \lambda_k p_k$ (6) 计算 $g_{k+1} = g(w^{(k+1)})$，若 $g_k = 0$ ,则停止计算；否则，按下式求出 $B_{k+1}$: \[B_{k+1} = B_k + \frac{y_ky_k^T}{y_k^T \delta_k} – \frac{B_k \delta_k \delta_k^TB_k}{\delta_k^TB_k\delta_k}\] 其中：\[y_k = g_{k+1}-g_k , \& \& \delta_k = w^{(k+1)} - w^{(k)}\] (7)& 置 k = k+1，转(3) 这便是 BFGS 求解 CRF 的过程。
阅读(...) 评论()linear-chain 条件随机场
条件随机场（conditional random field）是给定随机变量 X 条件下，随机变量 Y 的马尔可夫随机场。本文主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场（linear-chain CRF)。线性链条件随机场可以用于机器学习里的标注问题。这时，在条件概率模型 $P(Y|X)$ 中，Y 是输出变量，表示标记序列，也把标记序列称为状态序列（同 HMM 中的状态序列)；X 是输入变量，表示观测序。学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 $\hat{P}(Y|X)$ ；然后使用该模型预测即可。
CRF 的定义
设 X 与 Y 是随机变量，$P(Y|X)$ 是在给定 X 的条件下 Y 的条件概率分布。若随机变量 Y 构成一个由无向图 G = (V,E) 表示的马尔可夫随机场，即：
\[P(Y_v|X,Y_w,w \ne v) =P(Y_v|X,Y_w,w \sim v) \]
对任意结点 v 成立，则称条件概率分布 $P(Y|X)$ 为条件随机场。式中 $w \sim v$ 表示在图 G = (V,E) 中与结点 v 有边连接的所有结点 w， $w \ne v$ 表示结点 v 以外的所有结点，$Y_u,Y_v,Y_w$ 为结点 $u,v,w$ 对应的随机变量，从定义来看，左边到右边点的数量大大减小，$w \ne v$ 的点有 $|V|-1$ 个，而 $w \sim v$ 就少了，其实就是说当前变量只跟与之相邻的变量有关系，而独立于没有直接连接的变量。
在定义中并没有要求 X 和 Y 具有相同的结构。现实中，一般假设 X 和 Y 有相同的图结构。本书主要考虑无向图为线性链的情况，即对于节点 1 到 n，边的情为： $E = \left \{ (i,i+1) \right \}_{i=1}^{n-1}$ ，在此情况下 $X =\left \{ X_i \right \}_{i=1}^{n} ,Y =\left \{ Y_i \right \}_{i=1}^{n}$ ，最大团是相邻两个结点的集合,下图即为 liner-chain CRF：
线性链条件随机场的定义：设 $X =\left \{ X_i \right \}_{i=1}^{n} , \ Y =\left \{ Y_i \right \}_{i=1}^{n}$ 均为线性链表示的随机变量序列，若在给定随机变量序列 X 的条件下，随机变量序列 Y 的条件概率分布 P(Y|X)构成条件随机场，即满足马尔可夫性
\[P(Y_i | X,Y_1,&,Y_{i-1},Y_{i+1},&,Y_n) = P(Y_i | X,Y_{i-1},Y_{i+1})\]
则称 $P(Y|X)$ 为线性链条件随机场。注意当 $i = 1$ 或 $i = n$ 时只考虑一侧，在标注问题中，X 表示输入观测序列，Y 表示对应的输出标记序列或状态序列。
CRF 的参数化形式
根据 Hammersley-Clifford 定理,可以给出线性链条件随机场 $P(Y|X)$的因子分解式，各因子是定义在相邻两个结点上的函数。在随机变量 X 取值为 x 的条件下，随机变量 Y 取值为 y 的条件概率具有如下形式：
\[P(y|x) = \frac{1}{Z(x)}\exp \left \{ \sum_{i,k}\lambda_k t_k (y_{i-1},y_i,x,i)+ \sum_{i,l}\mu_l s_l(y_i,x,i) \right \}\]
其中 Z(x) 为归一化项：
\[Z(x) = \sum_y \left \{ \sum_{i,k}\lambda_k t_k (y_{i-1},y_i,x,i)+ \sum_{i,l}\mu_l s_l(y_i,x,i) \right \}\]
式中， $t_k$ 和 $s_l$ 是特征函数，$\lambda_k$ 和 $\mu_l$ 是对应的权值。 $Z(x)$ 是规范化因子，求和是在所有可能的输出序列上进行的。以上两个式子是线性链条件随机场模型的基本形式，表示给定输入序列 x ,对输出序列 y 预测的条件概率。其中 $t_k$ 是定义在边上的特征函数，称为转移特征（ t 是transition的缩写），依赖于当前和前一个位置， $s_l$ 是定义在结点上的特征函数，称为状态特征（s 是status的缩写），依赖于当前位置（无论哪种特征函数，都将当前可能的 $y_i$ 作为数）。 $t_k$ 和 $s_l$ 都依赖于位置，是局部特征函数。通常，特征函数 $t_k$ 和 $s_l$ 取值为 1 或 0 ；当满足特征条件时取值为 1 ,否则为 0 。CRF 完全由特征函数和对应的权值 $\lambda_k,\mu_l$ 确定,线性链条件随机场也是对数线性模型（loglinear model)。
CRF 的简化形式
CRF 还可以由简化形式表示。注意到条件随机场式中同一特征在各个位置都有定义，可以对同一个特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式，即条件随机场的简化形式，为简便起见，首先将转移特征和状态特征及其权值用统一的符号表示。设有 $K_1$ 个转移特征，$K_2$ 个状态特征,记
\[f_k(y_{i-1},y_i,x,i) = \left \{ \begin{aligned} &t_k(y_{i-1},y_i,x,i), \ \ k = 1,2,...,K_1 \\&s_t(y_i,x,i), \ \ \& \ \ \ \ \& \ \& k = K_1 + l = 1,2,...,K_2\end{aligned}\right.\]
上式其实是对特征函数进行编码，编号的前 $K_1$ 个属于转移特征，后 $K_2$ 个属于状态特征。记 $K = K_1 + K_2$ ，编号统一了，后面就可以放到同一个矩阵里了。
然后，对转移与状态特征在各个位置 i 求和，记作
\[f_k(y,x) = \sum_{i=1}^nf_k(y_{i-1},y_i,x,i), \ \ \ k = 1,2,&,K\]
上式的特征函数虽然都写成接受 4 个参数的形式，但对状态特征函数而言，$y_{i-1}$ 是会被忽略掉的，用 $w_k$ 表示特征$f_k(y,x)$ 的权值，即： \[w_k = \left \{ \begin{aligned} &\lambda_k, \ \ k = 1,2,...,K_1 \\&\mu_l, \ \ k = K_1 + l = 1,2,...,K_2\end{aligned}\right.\]
于是，条件随机场可表示为：
\begin{aligned}P(y|x) &= \frac{1}{Z(x)} \exp \left \{ \sum_{k=1}^K w_k f_k(y,x) \right \}\\Z(x)&& &= \sum_y \exp \left \{&\sum_{k=1}^Kw_kf_k(y,x)\right \}\end{aligned}
若 w 表示权值向量，即
\[w= (w_1,w_2,&,w_K)^T\]
以 F(y,x) 表示全局特征向量，即：
\[F(y,x) = \left \{ f_1(y,x), f_2(y,x),&,f_K(y,x) \right \}^T\]
则条件随机场可以写成向量 w 与 F(y,x) 的内积的形式:
\[P_w(y|x) = \frac{\exp\left \{w \cdot F(y,x)\right \} }{Z_w(x)}\]
\[Z_w(x) = \sum_y \exp \left \{ w& \cdot F(y,x) \right \}\]
条件随机场的矩阵形式
条件随机场还可以由矩阵表示。假设 $P_w(y|x)$ 是由内积形式给出的线性链条件随机场，表示对给定观测序列 x ，相应的标记序列 y 的条件概率。引进特殊的起点和终点状态标记 $y_0 = start , y_{n+1} = stop$，这时 $P_w(y|x)$ 可以通过矩阵形式表示。
对观测序列 x 的每一个位置 $i=1,2,&，n+1$，定义一个 m 阶矩阵（m 是标记 $y_i$ 取值的个数，因为 x 是给定的，$ i-1 和位置 i 各有 m 种可能，所以是 m 阶矩阵）：
\begin{aligned} M_i(x) &= \left \{& M_i(y_{i-1},y_i|x)\right \} \\M_i(y_{i-1},y_i|x)&= \exp& \left \{ W_i(y_{i-1} ,y_i|x)\right \}\\M_i(y_{i-1},y_i|x)&= \sum_{k=1}^Kw_k \cdot f_k(y_{i-1},y_i,x,i)\end{aligned}
其实矩阵定义了一个状态 $y_{i-1}$ 的 m 种状态到 $y_i$ 的 m 种状态的转移的概率：
\begin{aligned}M_i(y_{i-1} ,y_i|x) &= \exp\left\{ \sum_k\lambda_kf_k(y_{i-1},y_i,x,i)\right\} \\&=\exp\left\{ \sum_k\lambda_kt_k(y_{i-1},y_i,x,i) + \sum_l\mu_l s_l(y_i,x,i) \right\}\end{aligned}
举例来说，当 m = 3 时，除了 i =1 或者 i = n-1 ，每个矩阵 $M_i(x) \in\mathbb{R}^{3 \times 3}$，如下图所示：
矩阵的形式类似于 HMM 中的转移矩阵，代表了状态之间转移的概率，其形式是这样的:
\begin{aligned}M_1(x) &= \begin{bmatrix} M_1(y_0,y_1|x) & M_1(y_0,y_3|x)& &M_1(y_0,y_3|x)& \end{bmatrix} \\\\M_2(x) &=\begin{bmatrix}M_2(y_1,y_1|x) & M_2(y_1,y_2|x) & M_2(y_1,y_3|x)\\ M_2(y_2,y_1|x) & M_2(y_2,y_2|x) & M_2(y_2,y_3|x)\\ M_2(y_3,y_1|x) & M_2(y_3,y_2|x) & M_2(y_3,y_3|x)\end{bmatrix} \\\\M_i(x) \ &\mathbf{has \ the \ same \ form \& with} \ M_2(X), \ i = 3,...,n\\\\M_{n+1}(x) &=\begin{bmatrix} M_{n+1}(y_1,y_n|x)& \\
M_{n+1}(y_2,y_n|x) && \\
M_{n+1}(y_3,y_n|x)& \end{bmatrix} \\\end{aligned}
这样，给定观测序列x,标记序列 y 的非规范化概率可以通过 n+1 个矩阵的乘积 $\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 表示，于是，条件概率 $P_w(y|x)$ 是：
\[P_w(y|x) = \frac{1}{Z_w(x)} \prod_{i=1}^{n+1} M_i(y_{i-1},y_i|x)\]
其中，$Z_w(x)$ 为规范化因子，是 n+1 个矩阵的乘积的 (start,stop) 元素：
\[Z_w(x) =& \left \{M_1(x),M_2(x)&M_{n+1}(x) \right \} _{start}^{stop}\]
注意，$y_0 = start$ 与 $y_{n+1} = stop$ 表示开始状态与终止状态，规范化因子 $Z_w(x)$ 是以 start 为起点 stop 为终点通过状态的所有路径的非规范化概率 $y_1,y_2,&,y_n$ 之和。
这里的 M 矩阵像极了 HMM 中的转移概率矩阵，因为链式 CRF 中只有相邻两个节点间才有连接边。
crf 做分词
条件随机场理论综述 paper
统计学习方法 book
阅读(...) 评论()

如何用简单易懂的例子解释条件随机森林 matlab 例子场模型

我要回帖

更多关于简单随机抽样的例子的文章

随机推荐

如何用简单易懂的例子解释条件随机森林 matlab 例子场模型

我要回帖

更多关于 简单随机抽样的例子 的文章

随机推荐

更多关于简单随机抽样的例子的文章