Press enter to see results or esc to cancel.

【Document Modeling with External Attention for Sentence Extraction】

如果大家看过我之前写的笔记,抽取句子这个任务大家可能都知道其重要性了,不管是在ChatBot里面还是在Summary的编写的方面,一个很重要的方法就是从原来的文章之中直接抽取句子。
但是如果要从原文之中抽取句子的话,必要的一点就是对于原文要有很清晰的理解,知道原文所要表达的意思是什么,所以对于长文档的建模就显得至关重要,诸如LSTM或者是GRU甚至是形成Hierarchical的结构,都是为了可以更好的捕获长距离的依赖关系。但是作者认为仅仅是从文档之中获得理解是有一些苦难的,所以作者尝试通过外部的信息帮助其进行理解文章,其实这种方式似乎也是正在走红的,比如将知识图谱的应用,但是本文给了一种简单的思路以帮助抽取句子。

Models

上面算是涵盖了一些Introduction的内容,那就直接进入主题,模型的构造上。

首先明确任务:假设给定含有$n$个句子$(s_{1},s_{2},\cdots,s_{n})$文档$D$ ,如果是抽取句子的话就是一个Label的任务,为每个句子赋予值0或者是1,如果是0就代表不抽取,而如果是1就代表抽取。

模型主要有这几个Components组成,Sentence Encoder,Document Encoder,Sentence Extractor. 其中的Sentence Encoder就是一个CNN用来对于输入的句子进行编码,而Document Encoder则是一个LSTM接受刚刚CNN的输出的结果,并且对于其进行建模。而Sentence Extractor才是本模型的重点

那么Sentence Extractor是什么呢?其所执行的是一个序列标注(Sequentially Labeling)的任务,基本的架构是LSTM+Attention后接Softmax(其实二分类Softmax和Sigmoid好像还是有区别的),在文后我附一份解释。

但是这里的Attention与其他的Standard的Attention机制有所不同。首先其引入了External Information$E:(e_{1},\cdots,e_{p})$,这些信息都与文章的任务是相关的,比如说是Summarization任务之中的Title之类可以提供非Contents本身信息的内容。

在每一个时间$t_{i}$的时候,其阅读句子$s_{i}$,并且基于Document Representation,之前的标注了的Sentences,以及External Information,做出一个二元预测,从而达到使用了Global的信息和Local的信息的目的。那么是怎么将这几者结合起来的呢?

假设在时间步$t$的时候给定一个句子$s_{i}$,其返回的是一个概率分布

$$\begin{split}p(y_{t}|s_{t},D,E) & = softmax(g(h_{t},h_{t}’))\\g(h_{t},h_{t}’) & = U_{0}(V_{h}h_{t}+W_{h}’h_{t}’)\\h_{t} & = LSTM(s_{t},h_{t-1}) \\h_{t}’ & = \sum_{i = 1}^{p} \alpha_{(t,i)} e_{ij} \end{split}$$

其中的

$$\alpha_{(i,j)} = \frac{\exp(h_{t}e_{i})}{\sum_{j}\exp(h_{t}e_{j})}$$

而$g(\cdot)$可以看成是一个单层的神经网络,而$h_{t}$是LSTM的中间层的状态。其中的$h_{t}’$则是对于External 信息的一种组合,而组合的权重来自于当前状态与External信息的Match程度。

至此就可以融合所有的信息了。

后面则是说明模型的效果怎么样。

Comments

文章还是一个蛮直接的思路,这个$e_{i}$的引入支撑起了全文的创新点,但是这个$e_{i}$可以不仅仅是Title这类的信息,或许可以是Document的Embedding,也就是说和全文的信息的Match程度,也可以是一些非NLP领域的信息,甚至可以是CV领域的CNN对于Image 的Representation,甚至可以是一些简单的Ratio,当然也可以不仅仅限于这几种Information,可以不断的套入其余的Effective的Information一起对于文本的最后的结果进行建模,甚至是可以用LSTM的Embedding和CNN的Embedding以这个Attention机制连接起来。

感觉Attention机制真的是构建起了一个非常强有力的体系啊。

Reference

Document Modeling with External Attention for Sentence Extraction

Comments

Leave a Comment