词向量-LRWE模型

我们尝试基于CBOW模型,将知识库中抽取的知识融合共同训练,提出LRWE模型。模型的结构图如下:

词向量-LRWE模型

,,下面详细介绍该模型的思想和求解方法。

1。LWE模型

,在才能Word2vec的CBOW模型中,通过上下文的词预测目标词,目标是让目标词在其给定上下文出现的概率最大,所以词向量训练的结果是与其上下文的词相关联的。然而CBOW模型只考虑了词语的局部上下文信息,无法很好的表达同义词和反义词等信息,例如下面的几个例子:

词向量-LRWE模型

,为才能了解决上述问题,本文将同义词和反义词等词汇信息以外部知识的形式,作为词向量训练中的监督数据,让训练得到的词向量能学习到同义,反义等词汇信息,从而能更好地区分同义词和反义词。

1.1模型思想

,,记的同义词和反义词集合为(,),其中,SYN 表示同义词集合,ANT 表示反义词集合,我们的目标是已知目标词对应的同义词集合和反义词集合,预测目标词,使得目标词和它的同义词距离尽可能相近,与反义词距离尽可能远只

,,例如“猫坐在alt="词向量-LRWE模型">

,,对于一个词语,我们根据它的同义词和反义词预测目标词,最大化词语和它的同义词同时出现的概率,并降低词语和它反义词同时出现的概率。根据这个目标,定义以下的目标函数:,

词向量-LRWE模型

词向量-LRWE模型

,,我们目标是在基于上下文的CBOW语言模型训练过程中,加入同义词反义词信息作为监督,使得训练所得词向量能学习到同义和反义知识。基于该想法,我们提出基于词汇信息的词向量模型(词法信息字嵌入、LWE)目标函数为

词向量-LRWE模型

,,模型的结构图如下:

词向量-LRWE模型

,,需要注意的是,CBOW模型和词汇信息模型共用同一份词向量,这是为了通过共享表示来获得彼此的知识信息,使得词向量在训练的时候,能综合利用上下文信息和同义词反义词信息,从而得到更高质量的词向量只

1.2模型求解

,从才能模型结构图中可以看的出,LWE可以看成两个CBOW模型的叠加,因此优化求解方法和CBOW模型一样,本文采用的是负采样进行优化。

,使才能用消极的抽样的方法,目标词视为正样本,通过负采样的其它词称为负样本,而在我们的模型之中,对于词语的同义词集合来说,目标词是正样本,在同义词集合之外的词语都为负样本,记的同义词集合为,对于∈则有负样本集合为=| |,记指示函数

词向量-LRWE模型

其中正样本标签为1,负样本标签为0,则对于样本(,),训练目标函数(3 - 1)中,

词向量-LRWE模型

反义词同理,所以对于整个词表V来说,整体的目标函数是:,

词向量-LRWE模型

1.3参数更新

,,要最大化目标函数(3 - 6),我们使用随机梯度上升法。用随机梯度上升方法求解时,需要分别求目标函数关于欧盟和θw的导数,为了方便推导,记,

词向量-LRWE模型”>从上式可看出同义词和反义词的目标函数除了定义域不同,其函数表达式是一样的,因此只需对函数Ψ进行求导只函数Ψ对求导,可得:,</p> <p> <img src=

所以的更新公式为:,

词向量-LRWE模型

2。RWE模型

,词才能语之间具有很多复杂的语义关系,例如上下位关系,“音乐”是“mp3”的上位词,“鸟”是“动物”的下位词,这里“动物”的下位词除了“鸟”外,还有有“鱼”、“昆虫”等,具有相同上位词“鱼”、“昆虫”和“鸟”,某种意义上应该是相似或者说相关的,但Word2vec只利用大规模语料中的词语共现信息进行训练,所得的词向量只能学习到文本上下文信息,就无法学习到这种词语间的关系,所以其它复杂的语义关系也很难表达充分只

词向量-LRWE模型