【What are the Goals of Distributional Semantics?】
类似于对于Distribution Representation的一个回顾类的文章。
在处理语义相关的任务上面,有两种主要的Approach 一种方法叫做是Top-Down 还有一种方法叫做是Bottom – Up的方法。所谓的Top-Down的方法也就是从一个目标开始,然后通过建立相关的模型以实现这个目标。而Bottom-Up Approach则是以现有的模型开始,并且将他Extend向不同的目标,而Distributional Semantics可以看成是后者的一种Approach.
Distributional Semantics 的目标就是去学习语言表达之中的各种Meaning,其核心的观点自然是这个分布假设(Distributional Hypothesis),也就是说,具有相似的语义的单词往往出现在相似的上下文之中。而这个假设也贯彻了整个的NLP领域的预训练体系之中。
Meaning and the World
Language is always about something(原文,自己感觉翻译不出意思就保留了),在本节之中,作者叙述了将Semantic Model和现实的世界连接起来的可能的Challenges.
Grounding
Harnad之前有一个观点,就是说如果一个单词的Meaning是由其他的单词进行表示的话,那么他们的定义就形成了一个Circular。Semantic Model的一个目标就是Capture语言是如何Relates to the World的,而这个链接的过程,我们将其称为是Grounding。
一个纯粹的Distributional Model并不是Grounded,由于其是直接在Text之中进行训练的,所以和外部的世界并没有Direct Link。而我们解决这样的一个问题有下面的这些方法。最简单的一种方法是训练一个Distributional Moel然后将其与一个Grounded Model进行结合,比如说Bruni在2011年将Distributional Vector和Image Feature Vectors进行了一个简单的Concatenate的操作。而第二种方法是发现Distributional 以及Sensory Feature之间的关系,比如说Bruni在2014年使用了SVD在Concatenated的向量上面,Silberer以及Lapata在2014年在Concatenated向量上面训练了一个AutoEncoder。或者还有一种方法是将Distributional Vector映射到Visual Vectors上面(或者相反,有点Encoder – Decoder的意思了),但是在这里很可惜的一点是并不是所有的Distributional Feature可以很好的连接到一个Sensory Features上面。
而第三种方式是Joint Learning,我们定义一个Single Model,其参数都是基于Corpus Data以及Grounded Data进行得到的。比如说Feng and Lapata在Words和”Visual Words”(这里的Visual Words可以看成是一群Visual features的Cluster)上面都分别训练了一个LDA .Lazaridou在2015年使用了Skip-Gram Model去Jointly Predict Words和Images. Kiros 将Text以及Images都Embedding到一个单独的空间之中,训练RNN以处理Caption而CNN处理Images.
那些纯粹的Distributional Model寻找Word Co-occurrence Pattern,基于这个原因,作者线性Joint Learning是一个正确的Approach去Ground Corpus的数据,因为这些Semantic Representations是在学习的时候进行与外部世界的连接,而并非是在学习完毕之后再进行连接。而这就迎来了一个问题,一个Joint Architecture应该怎么被Designed以充分挖掘到Corpus之中的那些Data.所以作者接下来就是讨论这个问题
Concepts and Referents
一个单词的Meanings如何连接到World呢?在Truth-Conditional Semantics之中,答案是Meaning往往被Truth所定义的。如果一个Agent可以理解一个语言的话,那么在任何的给定的情境下,他们就知道如何去评估一个句子是正确或者是错误的。而一个Semantic theory的目标就是可以去Generalise到新的Situation之中。这对于传统的Truth-Conditional Semantics是非常困难的,因为Classical Theories在实证的角度以及在理论的角度都是非常难解决的事情。但是使用机器学习的方法看起来是可以解决相关的问题,因为机器学习之中含有大量的技巧以解决泛化能力的问题。
而对于一个Semantic Model可以应用在Truth-Conditional的问题之中的条件,其必须要满足可以区分Concept以及Referent这两种不同的概念。Concept是Word的Meaning而Referent则是An Entity the word can refer to.而对于Referents的集合,我们称之为是Extension。
就算我们可以处理Concept的Vectors但是和在之前所讨论一样,在这里仍然缺少一种方法将Concept的向量和其Referents相关联起来。一个可能的方法是吧Concepts以及Entities都同时映射到相同的空间之中,也就是将Entity看成是Concept的Extension, 但是不同的Entity和Concept之间的Distance是不同的,所以我们需要找到一种方法来确定他们之间的距离的远近。而第二种方法是将Concepts和Referents给Embedd在一个风格的空间之中,然后将这两个空间再连接起来。而不管是两个Cases之中的哪一种,我们都需要一种Additional Structure 以超越使用点来Representing Concepts和Referents,一个解决的方法是将Concept看成是Region of Space,而在这一块区域之中的Entity都是Referents.而一个相关的方法,则是表达这个Concept作为一种Binary Classifier,其中的Entity是Input,而输出有两类,一类是Concept的Extension还有另外的一类是其他。但是这种Region的处理可能也并不多似乎只有一些人在做着相关的工作,一个很大的掣肘就是Computational Cost还有一个困难就是模型的设置以充分的利用所有的数据。
Lexical Meaning
在本节之中,其讨论的是在表示Individual Words之中所可能遇见的困境。
Vagueness
Entity有一种特性就是,他是存在于两种不同的概念之中的连续态,而并非是一个Sharp Cutoff,这一点被称为是Vagueness , Labov在1973年的时候调查了概念之间的边界,比如说Cup,Mug这些词语,然后问一些人关于这些物体的影响。结果表明,一些Term在不同的人之间的概念是具有相似性的,但是对于一些比较含糊的概念之中,不同的人们所给出的回应也是不同的。而对于概念的边界,个人就可能会产生不同的Judgement.而一个Semnatic Model应该是可以Capture这些概念之间为什么会存在着Unclear的现象。
有一个方法就是使用Fuzzy Truth Value,大概的意思就是使用一个概率的值对于事物进行表示。而还有一种方式则是按照概率的在0或者1之间选择,两者的思想虽然是相同的,但是事实上在最后的结果方面还是存在各种细微的差别。
不确定性也可以被Incorporate到Distributional Vector Space Model之中,Vilnis以及Callum在2015年对于Mikolov的Skip-Gram进行了拓展,改造成为另一个Gaussian Embedding.而Barkan 在2017年使用Bayesian Inference将不确定性给放进了Skip-Gram模型之中,不是仅仅最优化词向量,其目标是在给定单词的情况下计算单词的后验分布,其后验分布也是使用高斯分布进行近似,所以上面的两种方法所产生的效果也非常的类似。这些处理Uncertainty的方法都有一个共同的目标就是使用他们Capture Vagueness,而对于这个事情有一个Basic的Problem是这个Distribution不允许我们生成Concept的Referents,所以我们可以改变攻势,也可以将Referents看成是一个Concept,似乎是可行的,但是当我们将General的Term和Specific的Term进行比较的时候,我们就可以发现问题了,一个更加General的Term可能其概率分布会Spread的更加的Thinly,有时候如果两个概念相比较的话,那个General的Term就会比较吃亏,虽然其也是正确的,这个概念和Local Bias这个概念有些类似。
Polysemy
单词的Meaning经常会有不同的概念,而这些概念我们可以称之为是Polysemous , Semantic Model的一个目标就是处理多义词的问题。其中的一种的解决的方案就是对于不同的Sense都学习一种单独的Representation,但是对于同一个单词确定一个Discrete set of senses是一个非常困难的事情。所以有的学者创建了两个Datasets分别叫做WSsim和Usim,数据的标注者判断单词的Senses的相关性,并判断是否是不同的Senses.
当然还有更加优雅的解决的方法,就是学习完单词的含义之后并非是固定住了,根据上下文的不同而调整相关的Representation具体的表现的形式。当然也可以借鉴之前的处理Uncertainty的方法,使用一个概率分布的形式表示单词,比如说Athiwaratkun and Wilson 就使用高斯混合模型(GMM)处理Multiple Sense的问题。
Hyponymy
在之前的Section之中所讨论的问题都是对于单个的单词的表示,但是很多时候单词往往并非是Exist on their own 的,Semantic Model的一个目标及随后去表达不同的单词之间的关系,而在本文之中我们称为是Hyponymy,代表着一个单词(Hyperonym)的含义包含着另外的一个单词(Hyponym),共享了Hyponym单词的两个单词称为是Co-Hyponyms.
在向量空间之中,上述的这种情况是非常难进行处理的,因为在向量之间非常难说哪个比另一个更加General.一个想法就是说Hyperonym应该在他的Hyponyms之间都出现,而这也被称为是Distributional Inclusion Hypothesis,基于这种方法和在Information Retrieval之中的相关的技术,Kotlerman在2010年定义了一种叫做balAPinc的度量方法, Herbelot and Ganesalingam 将向量看成是词语的分布的形式,然后使用KL散度来度量这种Hyponymy的关系。
当然还有其他的方式,比如说在向量空间之中内含这种Hyponymy的关系,比如说 Vendrov在2016年的时候使用了一个非负向量来表示单词,如果一个单词在所有的维度上都高于另外的一个单词,那么这个单词就是另外的一个单词的Hyponymy.当然正如我们之前阅读过的将单词嵌入庞加莱半空间的方法,很多人也尝试将单词都嵌入双曲空间之中而并非是欧几里得空间之中以获得更好的表达能力。
而抛开向量的束缚的话,使用之前的Region的概念,那么我们就可以更容易的处理这种关系了,我们可以认为P是Q的Hyponym如果P被Q的Region所包含了。而概率分布的方法也同样可以让我们更好的处理Hyponymy的现象,和Region可以说是一脉同源的方法。
作者认为处理这种包含关系的最好也是最直接的方法就是使用Region的方法,也的确,这种方法相比于其他的方式在处理包含和相交这种关系的时候会更加的自然,但是不得不说可能应用在其他的领域处理起来就会没有向量那么的自然了。
Sentence Meaning
在之前的处理的方法之中都是处理Word Level的词语,但是我们很多时候并不是仅仅处理Word相关的信息,我们也要处理更高的Level也就是Sentence的信息,而在Sentence的处理水平又有什么样的方法和挑战呢?
Compositionality
语言是具有创造性的,掌握了某一个语言的人可以理解其之前没有见过的句子,这里的掌握指的是知道单词的含义以及相关的句法的结构.而Semantic Model理应可以从Sentence的Meaning之中Derive出其相关的Meaning,这个过程称为是Compositionality.
如果是基于传统的向量模型,其挑战是如何将不同的单词进行组合以获得Phrases的表示。如果将Word和Phrases都放在同一个空间之中,那么我们则需要寻找到一个composition 函数以将不同的Vector都映射到一个新的Vector之中,对于映射的方法也有很多的文章可以做了。或者我们可以单独的开辟一个Sentence空间,这种想法一般是基于某些特定的任务而开辟的特定空间。比如说将Word传入神经网络之后,使用最后一层作为句子的表示就可以看成是开辟了一个特定的句子的空间。当然为了更加的精确的表示,我们也可以设置一些树结构或者是Latent的树结构。
但是上面的这些的方式都是Embedding到了一个既定的Finite空间之中,如果我们增加了Sentence的长度的话,句子的可能的含义是通过指数级的增长的。如果为了保持语义的唯一性有两个选择。一个就是指数级的增加向量的维度,还有一个方法就是对于每一个维度尽可能的精简以使得其可以表达更多的语义。
Context Dependence
这个假设就是说认为一个单词的含义往往是由其周围的单词的含义所决定的,我们的Semantic Model理应是可以挖掘得到这样的一种Dependency的关系的。根据上述的假设,我们还可以做出两个分歧,分别是Standing Meaning,也就是上下文无关的表达形式,或者是Occasion Meaning,也就是上下文相关的表达形式。 ELMo和BERT可以分别看成是Standing Meaning和Occasion Meaning的表达形式的一种代表。
Comments
本文是一篇对于整个预训练的进展的回顾性的文章,其中的概念的分类的相关的叙述循序渐进的非常合适。属于自己看过写预训练模型的进程里讲的最好的一篇之一吧。
Reference
What are the Goals of Distributional Semantics?
Comments
Leave a Comment