【Recurrent Attentional Topic Model】
借鉴了RNN之中的思想的主题模型算法,还是挺有意思的。可能也是在深度学习横行的现在对于PGM这类算法还是有一些别样的感情吧。PGM之中的物理意义总是可以让自己觉得非常的优雅,那主题模型是什么我也不在这里多介绍了。直接进正题
Model
Recurrent Attentional Topic Model,顾名思义和普通的Topic Model的区别出现在两点,第一点就是Recurrent ,而第二点呢,自然就是Attention机制。
Recurrent Attentional Bayesian Process
在这种概率图模型之中一般都会定义一个什么过程,比如大家可能知道的上面中国餐馆过程,印度餐馆过程都是这种过程。
生成word的过程记作是Recurrent Attentional Bayesian Process(RABP)我们将这个过程记作是$RABP(G_0,\pi)$,其中的$G_0$是Base Measure而$pi$是中心化参数,具体的流程对于每一个$t$,从狄利克雷分布$Dir(\pi)$其中抽样得到$\epsilon = (\epsilon_1,\cdots,\epsilon_C)^{T}$.而以概率$\epsilon_{i}$ 从$\delta_{\theta^{t-1}} , i = 1,\cdots, C-1$之中分别得到一个$\theta^{i}$,而以概率$\epsilon_C$从$G_0$之中得到一个$\theta_t$.
其中的$G_0$是一个Base Distribution 而$C$是一个时间窗口的长度。其中的$\epsilon_i$就是所谓的Attention Signal了。通过这个Attention Signal对于之前的参数$\theta_i$分配权重
$$\theta^{T} | \theta^{t-C+1: t-1} , G_0,\pi\sim \sum_{i=1}^{C-1}\epsilon_{i}\cdot \theta^{t-i} + \epsilon_C \cdot G_0$$
Recurrent Attentional Topic Model
上面就是RABP的过程,对于上面的过程有一定的了解之后再来看看RATP,也就是我们的模型的主题的不笨。假设语料库之中存在$M$篇文档,记作是$D = \{d^1 , \cdots, d^M \}$,每一个文档$d^i$其中有$S^i$条句子,而句子由$w_i$所组成。
很明显一个句子的主题是和其之前的句子的主题有关的,令$\theta^{s_j}$表示第$j$个句子的主题分布,这个分布是服从上面我们所介绍的RABP的,上面的$G_0$在这里是个$K$维度的Dirichlet分布。而对于每一个主题$k\in \{1,\cdots,K\}$,从Dirichlet分布$Dir(\eta) $之中采样一个参数$\beta_{k}$。
之后呢对于每一篇文档$d^{i} , i \in \{1,\cdots , M\}$,首先从狄利克雷分布$Dir(\alpha)$之中抽取一个参数$\vartheta^{d}$,之后就开始生成句子了。对于句子$s_{j}$,按照上面的$RABP(\delta_{\vartheta^{d}},\pi )$过程生成一个$\theta^{s_{j}}$,这个是句子的调节的参数,而对于句子里面的每一个单词的生成呢?则通过多项式分布$Mult(\theta^{s_j})$之中产生一个$z_{n}$单词所属的主题,再从多项式分布$Mult(\beta_{z_{n}})$之中生成单词。
也就是说,认为上帝丢骰子在生成当前主题的句子的时候不仅仅是一个随机的过程,而是一个参考了前面的一个句子的主题再丢骰子的过程。
模型的更新的过程当然是使用的就是Variational Update的过程啦。变分法在概率图里面撑起了半边天吧。具体的数学推导有点复杂,也没有什么值得写的,大家如果有兴趣的话可以去看看原文之中的数学推导(关键写公式比较麻烦我就偷个懒吧。)
Comments
这篇文章是自己找主题模型相关的时候找到的内容,怎么说呢还是非常有意思的一个文章,特别是有VAE之后,这种概率的方法也越来越受到的关注,自己还是一直感觉模型的优雅并不是锦上添花的问题,而是决定模型真正的功效的必要条件。世界一定是以一种优雅的方式所运行的,这种优雅的方式可能以人类现有的智力和观念较难理解其中的运行的细节,但一定是优雅和直观的。
(今天找了两篇论文看到一半觉得写得自己看不懂,所以又找一篇原来看过的文章来写,找些漂亮的论文来看也是一个技术活。)
Comments
Leave a Comment