第一节 词(字)向量
发布网友
发布时间:2022-11-15 05:31
我来回答
共1个回答
热心网友
时间:2024-11-19 21:46
这个就是数学的一个推理,注意细节,左边为 ,右边为 ,显然 还由 等等组成,需要分解,并且求 可能特别特别困难。这种情况下,由于 已无法分解了,或者很好求解了, 不好求解情况,就可以利用贝叶斯公式将分子分母进行颠倒
朴素假设,就是指特征之间是相互独立的,这样我们就有 ,也就是将联合概率进行分解。
向量的模
向量内积
余弦值
所以: 余弦值=每个向量进行归一化后的内积
词嵌入(Word Embedding)是将自然语言表示的字、单词转换为计算机能够理解的向量或矩阵形式的技术。
例如 为“你好”的词向量。从几何角度,就是把词语放置到 维空间中,这样一个词向量为该空间中的一个点,这个点代表该词语。
字 词蕴含了语义,好的词向量的互相之间的相似性是能表示词语义之间的相似性
我们希望近义词或者表示同类事物的单词之间的词向量距离可以理想地近,只有拿到很理想的单词表示形式,我们才更容易地去做翻译、问答、信息抽取等进一步的工作。
1、词向量之间的相关性
“单身”、“冻成”都跟“狗”很相关,相关的意思是它们一起出现的频率,频率越大,越相关
2、词向量之间的相似性
相似=近义词,相似词与同一周围词的相关性的分布是一致的,所以 一般都从相关性推理到相似性
1)概念
与 的相关度为:
这个本质可以为“两个词真实碰面的概率是它们随机相遇的概率的多少倍”,所以这个值越大,那么相关性越强
2)它代表词向量中有什么性质呢
接下来看看利用朴素贝叶斯后,这个相关度里面的深层性质:
第一步:
比如,考虑两个量 直接的相关度, 不是单个特征,而是多个特征的组合: , ,现在考虑它们的相关度,即
这个就是概率学的一个置换,即
第二步:
利用了朴素假设把Q,A内部的特征进行分解,上式得到:
这也看出朴素贝叶斯只能分解条件概率的分子部分,分母还没有分解到,所以可以用贝叶斯公式把分子分母进行颠倒
第三步:
将分子部分利用贝叶斯公式得到,贝叶斯的分母就是 ,这里没做展开
第四步,再次利用朴素假设将 进行展开
结论:在朴素假设下,两个多元变量的相关度,等于它们两两单变量的相关度的乘积!!!
1)概念
点互信息(Pointwise Mutual Information,PMI)
2)它代表词向量中有什么性质呢
第五步,在前面第四步的基础上,将两边都取对数,那么相乘符号就是变为相加
结论:是两个多元变量之间的互信息,等于两两单变量之间的互信息之和,换句话说,互信息是可加的!
机场-飞机+火车=火车站
那么它们的词向量应该有这样的属性:
具体来说,就是词义的可加性直接体现为词向量的可加性
问:为什么常用词向量的内积来代表词向量间的相关性,它与前面说到的相关度、词类比有什么关系与联系
答:词向量的内积为相关度与词类比的两重约束来得到的更方便求解、简易的结果
论证过程:
假设相关度为词向量内积的函数
这里的 是上下文任意一个词,由于机场、火车身边出现的词与飞机、火车站身边出现的词常常有雷同,所以他们相关度也是一样的
根据朴素假设化简得到,这里没有关心词序
化为内积函数形式为
所以
这里引入词类比的性质,得到
所以得到
由于 是任意的,所以上式等价为
这样数学求解可以得到
所以在词类比的属性约束下,相关度为
等价地,互信息在词类比的属性约束下,为:
结论:模长代表词的重要程度,模长越大,越重要,模长越小词语越高频越不重要
论证过程
每个向量都可以分解为模长和方向
这是一个参数,而 是 个参数 ,n是词向量维度,很大
前面论证得到点互信息为词向量内积
像“的”“了”这类词和所有词都可以搭配,所以它们和任意词的相关度约等于0
这种情况求解最方便就是将
结论:频数高但是互信息整体都小的词语(这部分词语通常没有特别的意义),模长会自动接近于0
由两个相似的词语他们的上下文分布是相近的
对于给定的两个词 以及对应的词向量 ,它们与预先指定的 个词的互信息【相关性】为, 是词表中词的总数:
如果这两个词是相似的,那么上面两个系列具有线性相关性,这里比较它们的皮尔逊积矩相关系数:
这里 是 的均值,所以
相关系数简化为:
分子部分用行向量的矩阵写法为:
方括号中间是 ,其中:
将 能更好的进行变换,这样皮尔逊积矩相关系数为:
这样得到 相似度还是用向量的余弦值来衡量,只不过要经过矩阵 的变换之后再求余弦值!!
苏剑林. (Nov. 19, 2017). 《更别致的词向量模型(二):对语言进行建模 》[Blog post]. Retrieved from https://kexue.fm/archives/4669
苏剑林. (Nov. 19, 2017). 《更别致的词向量模型(三):描述相关的模型 》[Blog post]. Retrieved from https://kexue.fm/archives/4671
苏剑林. (Nov. 19, 2017). 《更别致的词向量模型(五):有趣的结果 》[Blog post]. Retrieved from https://kexue.fm/archives/4677