【Document Modeling with External Attention for Sentence Extraction】

如果大家看过我之前写的笔记，抽取句子这个任务大家可能都知道其重要性了，不管是在ChatBot里面还是在Summary的编写的方面，一个很重要的方法就是从原来的文章之中直接抽取句子。
但是如果要从原文之中抽取句子的话，必要的一点就是对于原文要有很清晰的理解，知道原文所要表达的意思是什么，所以对于长文档的建模就显得至关重要，诸如LSTM或者是GRU甚至是形成Hierarchical的结构，都是为了可以更好的捕获长距离的依赖关系。但是作者认为仅仅是从文档之中获得理解是有一些苦难的，所以作者尝试通过外部的信息帮助其进行理解文章，其实这种方式似乎也是正在走红的，比如将知识图谱的应用，但是本文给了一种简单的思路以帮助抽取句子。

Models

上面算是涵盖了一些Introduction的内容，那就直接进入主题，模型的构造上。

首先明确任务：假设给定含有$n$个句子$(s_{1},s_{2},\cdots,s_{n})$文档$D$ ，如果是抽取句子的话就是一个Label的任务，为每个句子赋予值0或者是1，如果是0就代表不抽取，而如果是1就代表抽取。

模型主要有这几个Components组成，Sentence Encoder,Document Encoder,Sentence Extractor. 其中的Sentence Encoder就是一个CNN用来对于输入的句子进行编码，而Document Encoder则是一个LSTM接受刚刚CNN的输出的结果，并且对于其进行建模。而Sentence Extractor才是本模型的重点

那么Sentence Extractor是什么呢？其所执行的是一个序列标注(Sequentially Labeling)的任务，基本的架构是LSTM+Attention后接Softmax(其实二分类Softmax和Sigmoid好像还是有区别的)，在文后我附一份解释。

但是这里的Attention与其他的Standard的Attention机制有所不同。首先其引入了External Information$E:(e_{1},\cdots,e_{p})$,这些信息都与文章的任务是相关的，比如说是Summarization任务之中的Title之类可以提供非Contents本身信息的内容。

在每一个时间$t_{i}$的时候，其阅读句子$s_{i}$，并且基于Document Representation，之前的标注了的Sentences，以及External Information,做出一个二元预测，从而达到使用了Global的信息和Local的信息的目的。那么是怎么将这几者结合起来的呢？

假设在时间步$t$的时候给定一个句子$s_{i}$，其返回的是一个概率分布

$$\begin{split}p(y_{t}|s_{t},D,E) & = softmax(g(h_{t},h_{t}’))\\g(h_{t},h_{t}’) & = U_{0}(V_{h}h_{t}+W_{h}’h_{t}’)\\h_{t} & = LSTM(s_{t},h_{t-1}) \\h_{t}’ & = \sum_{i = 1}^{p} \alpha_{(t,i)} e_{ij} \end{split}$$

其中的

$$\alpha_{(i,j)} = \frac{\exp(h_{t}e_{i})}{\sum_{j}\exp(h_{t}e_{j})}$$

而$g(\cdot)$可以看成是一个单层的神经网络，而$h_{t}$是LSTM的中间层的状态。其中的$h_{t}’$则是对于External 信息的一种组合，而组合的权重来自于当前状态与External信息的Match程度。

至此就可以融合所有的信息了。

后面则是说明模型的效果怎么样。

Comments

文章还是一个蛮直接的思路，这个$e_{i}$的引入支撑起了全文的创新点，但是这个$e_{i}$可以不仅仅是Title这类的信息，或许可以是Document的Embedding，也就是说和全文的信息的Match程度，也可以是一些非NLP领域的信息，甚至可以是CV领域的CNN对于Image 的Representation，甚至可以是一些简单的Ratio，当然也可以不仅仅限于这几种Information，可以不断的套入其余的Effective的Information一起对于文本的最后的结果进行建模，甚至是可以用LSTM的Embedding和CNN的Embedding以这个Attention机制连接起来。

感觉Attention机制真的是构建起了一个非常强有力的体系啊。

Reference

Document Modeling with External Attention for Sentence Extraction

【Document Modeling with External Attention for Sentence Extraction】

Models

Comments

Reference

Written By

XuxinLi

Comments

Leave a Comment

取消回复

MUST READ – 需知

Please Search you interested article

Recommend Reading

Classification-文章分类

Recent Article

Label Cloud

功能