问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

第一节 词(字)向量

发布网友 发布时间:2022-11-15 05:31

我来回答

1个回答

热心网友 时间:2024-11-19 21:46

这个就是数学的一个推理,注意细节,左边为 ,右边为 ,显然 还由 等等组成,需要分解,并且求 可能特别特别困难。这种情况下,由于 已无法分解了,或者很好求解了, 不好求解情况,就可以利用贝叶斯公式将分子分母进行颠倒

朴素假设,就是指特征之间是相互独立的,这样我们就有 ,也就是将联合概率进行分解。

向量的模

向量内积

余弦值

所以: 余弦值=每个向量进行归一化后的内积

词嵌入(Word Embedding)是将自然语言表示的字、单词转换为计算机能够理解的向量或矩阵形式的技术。

例如 为“你好”的词向量。从几何角度,就是把词语放置到 维空间中,这样一个词向量为该空间中的一个点,这个点代表该词语。

字 词蕴含了语义,好的词向量的互相之间的相似性是能表示词语义之间的相似性

我们希望近义词或者表示同类事物的单词之间的词向量距离可以理想地近,只有拿到很理想的单词表示形式,我们才更容易地去做翻译、问答、信息抽取等进一步的工作。

1、词向量之间的相关性

“单身”、“冻成”都跟“狗”很相关,相关的意思是它们一起出现的频率,频率越大,越相关

2、词向量之间的相似性

相似=近义词,相似词与同一周围词的相关性的分布是一致的,所以 一般都从相关性推理到相似性

1)概念

与 的相关度为:

这个本质可以为“两个词真实碰面的概率是它们随机相遇的概率的多少倍”,所以这个值越大,那么相关性越强

2)它代表词向量中有什么性质呢

接下来看看利用朴素贝叶斯后,这个相关度里面的深层性质:

第一步:

比如,考虑两个量 直接的相关度, 不是单个特征,而是多个特征的组合: , ,现在考虑它们的相关度,即

这个就是概率学的一个置换,即

第二步:

利用了朴素假设把Q,A内部的特征进行分解,上式得到:

这也看出朴素贝叶斯只能分解条件概率的分子部分,分母还没有分解到,所以可以用贝叶斯公式把分子分母进行颠倒

第三步:

将分子部分利用贝叶斯公式得到,贝叶斯的分母就是 ,这里没做展开

第四步,再次利用朴素假设将 进行展开

结论:在朴素假设下,两个多元变量的相关度,等于它们两两单变量的相关度的乘积!!!

1)概念

点互信息(Pointwise Mutual Information,PMI)

2)它代表词向量中有什么性质呢

第五步,在前面第四步的基础上,将两边都取对数,那么相乘符号就是变为相加

结论:是两个多元变量之间的互信息,等于两两单变量之间的互信息之和,换句话说,互信息是可加的!

机场-飞机+火车=火车站

那么它们的词向量应该有这样的属性:

具体来说,就是词义的可加性直接体现为词向量的可加性

问:为什么常用词向量的内积来代表词向量间的相关性,它与前面说到的相关度、词类比有什么关系与联系

答:词向量的内积为相关度与词类比的两重约束来得到的更方便求解、简易的结果

论证过程:

假设相关度为词向量内积的函数

这里的 是上下文任意一个词,由于机场、火车身边出现的词与飞机、火车站身边出现的词常常有雷同,所以他们相关度也是一样的

根据朴素假设化简得到,这里没有关心词序

化为内积函数形式为

所以

这里引入词类比的性质,得到

所以得到

由于 是任意的,所以上式等价为

这样数学求解可以得到

所以在词类比的属性约束下,相关度为

等价地,互信息在词类比的属性约束下,为:

结论:模长代表词的重要程度,模长越大,越重要,模长越小词语越高频越不重要

论证过程

每个向量都可以分解为模长和方向

这是一个参数,而 是 个参数 ,n是词向量维度,很大

前面论证得到点互信息为词向量内积

像“的”“了”这类词和所有词都可以搭配,所以它们和任意词的相关度约等于0

这种情况求解最方便就是将

结论:频数高但是互信息整体都小的词语(这部分词语通常没有特别的意义),模长会自动接近于0

由两个相似的词语他们的上下文分布是相近的

对于给定的两个词 以及对应的词向量 ,它们与预先指定的 个词的互信息【相关性】为, 是词表中词的总数:

如果这两个词是相似的,那么上面两个系列具有线性相关性,这里比较它们的皮尔逊积矩相关系数:

这里 是 的均值,所以

相关系数简化为:

分子部分用行向量的矩阵写法为:

方括号中间是 ,其中:

将 能更好的进行变换,这样皮尔逊积矩相关系数为:

这样得到 相似度还是用向量的余弦值来衡量,只不过要经过矩阵 的变换之后再求余弦值!!

苏剑林. (Nov. 19, 2017). 《更别致的词向量模型(二):对语言进行建模 》[Blog post]. Retrieved from  https://kexue.fm/archives/4669

苏剑林. (Nov. 19, 2017). 《更别致的词向量模型(三):描述相关的模型 》[Blog post]. Retrieved from  https://kexue.fm/archives/4671

苏剑林. (Nov. 19, 2017). 《更别致的词向量模型(五):有趣的结果 》[Blog post]. Retrieved from  https://kexue.fm/archives/4677
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
历史要怎么读,有啥诀窍 高中历史诀窍 年终会活动策划方案 深度解析:第一财经回放,探索财经新风向 逆水寒手游庄园怎么邀请好友同住 逆水寒手游 逆水寒不同区可以一起组队吗? 逆水寒手游 逆水寒怎么进入好友世界? 逆水寒手游 逆水寒怎么去别人的庄园? 使用puppeteer实现将htmll转成pdf 内卷时代下的前端技术-使用JavaScript在浏览器中生成PDF文档 词向量原理 文本向量和词向量区别 用电融锡炉怎样给BVR线烫锡?是线与线鼻子处!直接把线鼻子放进锡锅怎么... 如何培养小学生的写作兴趣 91 如何培养小学生的习作兴趣 车辆安全带的正确戴法是什么? 京东微信红包怎么领取 智能温控水电暖气显示屏进水了可不可以用 液晶显示器可以长时间贴在暖气旁烤吗? 电暖气打开电源开关显示器不工作怎么回事 我的显示器平时正常,但一旦家里用了微波炉或是电暖器显示器屏幕就颤动... 盛世江山刚开始送的门客是哪几个? 盛世江山里的理事官怎么拿到? 盛世江山义子资质等级 新款宝马7系钥匙怎么换电池? 请问乌兰察布有机场吗 2016年7月份到2019年11月份一共是几年? 你是几年级的小孩? 法律中的作为与不作为什么意思 用英文给男友写信怎么称呼 Embedding层和word2vec的区别 词向量中数值大小的含义 怎么连接MW600哦? 为什么我的MW600播放X10手机上的音乐时没有声音? 西安泡馍排名前十 镧怎么读 镧的读音 镧怎么读 镧的拼音 庞统祠墓的地理概况 “将进酒,白马亭”是什么意思? 镧字怎么读拼音 三国中“凤雏”怎么一下就挂了? 太原绿洲国际属于什么区 重庆绿洲国际旅行社有限公司怎么样? iqoo儿童模式在哪里下载 ppt怎样将文本转为图形 怎样申请 怎么申请新的? 怎样申请 怎样申请