CS224n学习笔记 Research Highlight2 Linear Algebraic Structure of Word Senses, with Applications to Polysemy

这是一篇最终收录在 TACL2018 上面的文章,讲的是词向量中一词多义的问题。

如何表示一词多义

我们知道预训练好的词向量是固定的,对于词表中的每个词它都有一个固定的向量表示,我们如果把这些词向量投影到二维空间里去,就可以发现相关的词的欧几里得距离会较小,即他们会聚集在一块。

1532423042432

这种固定的词向量表示虽然能够表征出单词的意思,但是也带来了另一个问题,即当一个词有多个意思的时候,那它在向量层面到底是怎么表示的?

1532423108176

课上以这个 “tie” 为例,它可以表示足球比赛中的平局,也能够表示服饰范畴内的领带,还能够表示绳子打结。那么如果在投影 “tie” 这个词的时候,它应该落在上图中的哪个位置呢?006Fmjmcly1fge1i3od75j30lw0i2q4b

论文里头给出了答案,它的向量实际上是各个意思的平均值,也就是说词向量可以包含了它各个意思的信息。

如何复原各个意思

那么这样又带来了一个问题,既然它已经被求平均了,那么我们可以把它的各个意思都给复原出来吗?

论文指出单词的意思是由下式来进行稀疏编码的:

006Fmjmcly1fge1lnccclj317a0f6gom

其中的上下文向量 $A_i$ 大概包括 2000 个词,而 $\alpha_i$ 则表示特定上下文向量的系数,一般选择 5 个上下文向量来做相加,最后加上一个无关紧要的噪声项。

论文里头说这些参数可以由标准 k-SVD 算法求出,所以不同的词义就可以通过这种稀疏编码的方式复原回来了,复原结果如下:

006Fmjmcly1fge1qydkjjj31fc0ia117

最后拉上一帮各国的研究生来“人工标注”,即问他们下图左方的一类词是否同某个词相关,再来同复原的结果做对比。下图右方的结果表明这种方法大概可以达到非土著的区分水平,说明效果还是挺不错的。

1532425803386

总结

最后 TA 作了个总结:

  1. 词向量是可以捕获一词多义的信息的
  2. 词向量是由该词的不同意思的向量做线性叠加而得到的
  3. 一词多义可以通过稀疏编码的方式复原出来
  4. 这种复原方法可以达到 non-native English speaker 的水平。

参考文献

  1. Linear Algebraic Structure of Word Senses, with Applications to Polysemy
  2. CS224n研究热点2 词语义项的线性代数结构与词义消歧

×

Buy Me a Coffee

扫码支持
Thanks

Open Alipay and Scan QR Code.

Archives
  1. 1. 如何表示一词多义
  2. 2. 如何复原各个意思
  3. 3. 总结
  4. 4. 参考文献
,