Press enter to see results or esc to cancel.

【A Simple Theoretical Model of Importance for Summarization】

对于自动摘要类的任务,我们分成了两路,其中的一类方法叫做Extractive Method,其主要的方法是识别文中的那些重要的语句,然后直接进行Extraction,那么一个很直接的问题就是如何评判什么语句是重要的什么语句并不是重要的呢?

文中就通过建立理论模型以帮助研究者在设计实验上可以更加的得心应手,也更好的思考如何对于实证模型进行改进。

Framework

Terminology

文中使用Semantic Unit也就是语义单元作为信息的最小的级别的单位,而以$\Omega$作为所有的可能的语义单元的集合。文本$X$在作者的这篇文章之中叫做是Semantic Source,其中包含了各种各样的Semantic Units.所以可以认为$X$是一个语义单元的概率分布。

那么在后文之中,我们将Source Document $D$的分布记作是$P_D$而将Summary的分布记作是$P_S$.

Redundancy

摘要就算是摘要,在其中也包含了很多的信息,而根据信息论之中的数据,信息量(The Amount of Information)的度量是通过香农Shannon的信息熵进行的,而对于一个Summary $S$的信息分布而言,他的Entropy 可以被表示为

$$H(S) = -\sum_{w_i}P_S(w_{i})\cdot \log (P_S(w_{i}))$$

当其为均匀分布的时候香农的信息熵最大,因此我们就可以定义一个名词叫做Redundancy,也就是重复性,同样的语义信息重复的出现就是其重复性的体现,记作

$$Red(S) = H_{max} – H(S)$$

由于$H_{max} = \log|\Omega|$,所以其是一个常数,所以也就可以使用$Red(S) = -H(S)$进行简单的代替。

Relevance

一个好的摘要应该要在于原文尽可能的近似的同时减少原文之中的那些不确定性的信息。而如何度量与原文的近似的程度呢?我们就使用一个名词Relevance进行描述。而如何度量这种相关性呢?直接上交叉熵$Rel(S,D) = -CE(S,D)$.

$$Rel(S,D) = \sum_{w_{I}} P_{S}(w_{i})\cdot \log(P_{D}(w_{i}))$$

所以说度量相似性就已经变成了比较两个分布$P_{S}$以及$P_D$的问题,也就是说两个文章之中的语义的分布的相似程度越高越好。而作者还发现一个玩意就是KL散度可以写成下面的形式

$$KL(S||D) = CE(S,D) – H(S)$$

KL散度大家都非常熟悉了,是判断两个Distribution之间的相似的程度的,如果说两个分布很相似的话,KL散度也会变小,而KL散度的变小就等于是降低了Redundancy以及增大的Relevance.

Informativeness

Relevance的度量忽略了其他的那些信息,比如说之前的先验知识,就无法被考虑的,所以在本文之中考虑了一个因素就是,对于其自己的原有的知识的改变的程度,能对于自己的原有的信息改变的越多,我们就认为是含有的信息越丰富,所以

$$Inf(S,K) = CE(S,K) = – \sum_{w_{i} } P_S(w_{i })\cdot \log (P_{K} (w_{i})) $$

这里的$K$指的是我们的自有知识的分布。当然在这里,我们可以人为的设定想要的知识的分布,也就是说不一定是我们的现在的自有知识,也可以是对于那些信息更加的重视,如果对于某些知识更加重视,就可以在原有的知识$K$之中人为的降低一些。

Importance

在Informativeness之中,我们是希望在Summary之中出现某些特定的信息的,而在Relevance之中,我们倒仅仅是希望摘要和Document是相似的,前者需要Bias而后者并不希望与原文出现Bias,这似乎就出现了悖论,但是也并不是没有解决的方法,我们要做的就是通过使用在D之中的信息尽可能的使得与我们的知识K不同,其实也并不是难以实现。

我们定义$d_i = P_D(w_i)$为语义单元$w_{i}$在原文本$D$之中的概率,相似的,记$k_i = P_K(w_i)$为在知识之中的概率。使用一个函数$f(d_{i},k_{i})$将语义单元$w_{i}$的重要性进行表示,而这个函数必然是要满足下面的这些要求的

  • Informativeness:对于任意的$i\neq j$,如果$d_{i} = d_{j}$且$k_{i}>k_{j}$ 那么我们有$f(d_{i},k_{i} )<f(d_{j},k_{j})$
  • Relevance:对于任意的$i\neq j$,如果$d_{i} > d_{j}$且$k_{i}= k_{j}$ 那么我们有$f(d_{i},k_{i} )>f(d_{j},k_{j})$
  • Additivity:$I(f(d_{i},k_{i} ) = \alpha I(d_{i})+\beta I k(k_i)$
  • Normalization:$\sum_{i}f(d_{i},k_{I}) = 1$

那么我们的聪明的作者就构造了可以满足上面的要求的下面的这个函数

$$P_{\frac{D}{K}}(w_i) = \frac{1}{C}\cdot \frac{d_{i}^{\alpha}}{k_{i}^{\beta}}$$

其中的

$$C = \sum_{i}\frac{d_{i}^{\alpha}}{k_{i}^{\beta}}$$

也就是个Participation函数,而通过$\alpha,\beta$则可以控制两个性质的相对的强弱。通过上面的这个分布,我们就可以计算出一个Importance的值。

那么通过对于摘要与上面的这个分布的近似,我们就可以同时的考虑Importance 以及Relevance了。

**文中的实验部分所选择的Semantic Unit为Words**

 

Comments

文中的Framework非常的好,但是事实上,使用信息熵可能更像是在理论层面的一种定义的方式,真正的在实际之中似乎并不是这样,并不是说语义的分布是越均匀越好吧,我感觉这个题材发挥发挥又可以写一篇好的论文,通过对于不同的文本之中的信息进行比较,然后看其熵和某种因变量之间会不会有线性的关系,或者看在市场上的大多数公司的年报之中的信息熵都处于哪些Level.这个真的非常有潜力的研究吧,我感觉都能上JAR或者是JAE的这种水平的文章了。而本文所选择的Words水平其实也会有一些感觉稍微差点意思,毕竟说的是语义单元,个人感觉要更加抽象一些就好了,可能会使用神经网络进行Embedding之后再搞一下小小的聚类会好一些。

Reference

A Simple Theoretical Model of Importance for Summarization

 

 

Comments

Leave a Comment