问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

『IR 信息检索入门必看』#3 向量空间模型(简明)

发布网友 发布时间:2022-11-09 01:04

我来回答

1个回答

热心网友 时间:2023-11-14 15:12

回忆前两个模型,我们发现统计语言模型在布尔模型上,做出了最佳匹配和排序结果的改进。但是,仍然没有考虑到「词项的权重」。

在向量空间模型中,我们容易联想到用向量来表示文档和查询,再通过计算余弦来得到两个向量的距离,从而得到相似性度量。

那么,如何选取向量空间 basis vector (基向量)?如何将目标转化为向量?如何为各个维度选取 magnitide (幅值),从而考虑权重?如何在高维空间计算向量距离?

通常地,我们选择用 linearly independent (线性独立) 或 orthogonal (正交) 的基向量来张成向量空间,这样可以使得维度最少。那么,如何选取基向量?

这是一个特征选择问题,在 IR 中,通常有两种方式:

以下我们采用第二种方式。一个 Doc 或 Query 的向量表示就是:所有出现在文档中的 term 的向量之和。

当一个 term 在文档中不断出现时,在这个方向上的向量幅值就会很大。这样比起布尔模型的 0/1 二值,更能反映了这个 term 的重要性。这便是决定权重的 tf (term frequency,词项频率) 方法。

然而,原始的 tf 值会面临这样一个严重的问题:即在和查询进行相关度计算时,所有 term 都被认为是同等重要的。

实际上,某些 term 对于相关度计算来说几乎没有或很少有区分能力。一个很直接的想法就是给包含在较多文档中的词项赋予较低的权重。为此,引入变量 df (document frequency,文档集频率),即有多少文档包含了该 term。df 值越大,说明该 term 越不重要。

为了计算的方便,将其标准化得到 idf (inverse document frequency,逆文档频率):


观察该式发现, idf 虽然可以使得在较多文档中的词项权值降低,但与 tf 相反的是,这样做的缺点是:对那些极少出现的词极度敏感。

为此,我们将二者结合在一起,诞生了 tf·idf 方法——在文本处理领域中使用最广泛的数值权重计算方法。方法基于的思想和构造的统计量都很简单,但是在实际中却表现了很好的性能。

在 VSM 中,我们会将词项的 tf·idf 存储在词典表(词项-文档)矩阵中,作为向量的幅值,用于后续的计算。

当我们已经把文档表示成 上的向量,从而可以计算文档与文档之间的相似度(根据向量内积或者余弦夹角)。

设 和 表示 VSM 中的两个向量:

可以借助于 N 维空间中两个向量之间的某种距离来表示文档之间的相似度,常用的方法是使用向量之间的内积来计算:

考虑到向量的归一化,则可以使用两个向量的余弦值来表示相似系数:

要注意,这里使用向量内积,是基于对所有向量相互独立、相互正交的假设,否则计算内积也就失去了意义。对于相关的基向量,应该评估 Term 之间的相关度 ,再把向量当成多项式计算,最后代入 。

此外,在其他的考虑权重的模型中,如 Lucene,在计算相似度时引入了更多的因子,如 tf·idf , , overlap(q,d) 等,对应用情形、平滑度加以考量。

在 IR 中应用 VSM 模型时,相似度在检索结果中有两种体现:

而 VSM 模型也有着致命的缺点

潜层语义索引,也被称为 LSA (Latent Semantic Analysis,潜在语义分析),是针对向量空间的「高维稀疏」问题提出的解决方法,利用线性代数中的奇异值分解降低维度(去除噪音),同时尽量减少信息的损失。

参考: https://www.cnblogs.com/pinard/p/6251584.html

对于一个 矩阵 ,可以分解为下面三个矩阵:

其中 和 都是酉矩阵,即满足 。 一个 矩阵,除了主对角线上的元素以外全为 0,主对角线上的每个元素都称为奇异值

利用酉矩阵性质得:

可以看出 的特征向量组成的矩阵,就是我们 SVD 中的 矩阵。进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方。

利用以上原理,我们可以得出 SVD 分解步骤

对于奇异值,它跟我们特征分解中的特征值类似,在奇异值矩阵中也是按照从大到小排列。通常,奇异值的衰减得特别快,在很多情况下,前 10% 甚至 1% 的奇异值之和就占了全部的奇异值之和的 99% 以上的比例。

也就是说,我们也可以用最大的 k 个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说:

其中 k 要比 t 小很多,也就是一个大的矩阵可以用三个小的矩阵,此时存储空间可以大量节省。通常 k 的值即为我们假设的主题数

SVD 分解后, 对应第 i 个词和第 l 个词义的相关度。 对应第 j 个文档和第 m 个主题的相关度。 对应第 l 个词义和第 m 个主题的相关度。

这样我们通过一次 SVD,就可以得到词和词义的相关度,词义和主题的相关度,以及文档和主题的相关度。

通过计算后,我们关注新的矩阵 ,所有的文档已经简化成了和 k 个主题的相关度。假设此时的查询为 ,其中 q 取 0 或 1,则

可将 t 维的查询转化成 k 维的「与主题的相关度」,此时就可以与文档进行相似度计算了。

『IR 信息检索入门必看』#8 倒排索引模型(简明)

文件组织架构,也称 index (索引),常用于提升一个检索系统的性能。回顾向量空间模型,我们知道在查询时,命中的 doc 应该是与 query 最为相近的几个向量。当查询时,若只在所有 可能相似的文档 (至少含有一个 query 中的关键词)中查找,可以大大减少资源浪费。那么就需要先得到 query 中各个 term ...

非结构化数据如何可视化呈现?

通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据,它们可以某种标准...

『IR 信息检索入门必看』#10 查询相关反馈(简明)

相关反馈 (Relevance Feedback)的主要思想就是:在信息检索的过程中通过用户交互来优化查询,从而提高最终的检索效果。我们的目的是实现一个良好的 反馈机制 。为了使反馈能让 query 真正往「更好」的方向演变,需要定义评价 query 的一个指标。通常我们在 向量空间模型 中评价之,因为可以较好地表达相似...

导航ir是什么意思?

IR是信息恢复(Information Retrieval)的缩写。它是指从大量文档中,根据用户的需求通过计算机程序的方式检索出相关信息的过程。IR涉及到多学科交叉,包括计算机科学、信息学、数据挖掘、统计学、语言学和心理学等。IR主要应用于互联网搜索引擎、数字图书馆和电子商务等领域。IR的算法主要包括词袋模型、向量空...

信息检索向量空间模型 信息检索模型中神经网络模型属于 信息检索模型用以表明 pagerank信息检索模型 文本信息检索模型 信息检索概率模型 向量空间模型 向量空间模型例题 多维向量空间模型
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
求免费手机照片恢复软件 不要扫描到最后要花钱注册的 有不要花钱的能恢复照片的嘛 如何不花钱恢复存储卡上的照片 相机照片误删如何恢复而不花钱? 微星X470 GAMING PRO CARBON,这个主板京东买是不是还送970EVO固态?_百 ... 痛风饮食误区之水果篇 仙剑3窗口化为什么有一边的鼠标点不到 ...进本开怪就卡屏,有时候白屏并且鼠标失灵了,电脑重装游戏、插件重装... 轩辕剑3云和山的彼端 我的鼠标为什么不能用? 剑三游戏里鼠标不能滚屏画面大小,是怎么回事 手机和车蓝牙连接放音乐没声音的原因是什么? 蓝牙连接吉利汽车成功不播放音乐是怎么回事 我在听音乐的时候为什么我的手机顶层页面不出现东西?就没有这样的 播放音乐的时候为什么手机的通知中心没有显示,以前我的手机播放音乐通知中心 股市交易避免损失,需要遵循什么原则? 汽车怎么播放手机音乐? 好老板app怎么让员工注册 通联好老板闪退 法人签订免责合同有效吗 3ds max2009注册码急求 冠心病,狭窄约70%-90%,如何治疗呢 谢大夫,帮忙看一下我得视力检查单,谢谢 小天鹅Pd70-1402lpda洗衣机如何取出甩干垃圾 联想小新air14酷睿版能玩原神吗 卷叶吊兰用衫木植料行吗 阿猪哥聊海员第60期普通船员与高级海员的培训和晋升各需要花多少 神聊海吹倚马万言的意思 神聊海吹倚马万言的意思分别是什么 聊海外客户怎么聊 怎么让QQ宠物企鹅升级升的快? 深圳米兰柏羽好不好啊,是三甲的吗,评价怎么样呢 用502粘假指甲怎么去掉 用502胶粘假指甲怎么弄掉啊 我买的假指甲我怕假指甲上的胶不粘我就用502胶粘了现在弄不掉了怎么办啊 beamng怎么添加假人 我的电脑能带动beamng吗 63开头的短号是哪里的 邓志东的论文 办etc需要把车子开去吗? 苏州中心商场全国排名第几 青海海北藏族自治州各县各镇有哪些特产? 再见别走再见我的美丽是什么歌 西凉是哪里 西凉是现在哪里? 大二升大三可以转专业吗? 车上usb接手机放歌的方法是什么? opp0r7s手机怎么截屏 不能说的秘密是什么歌 不能说的秘密是哪首歌的歌词 02568320955是那里的电话? 二手房买卖合同已签,买家毁约,卖家可以要回中介服务费吗? 二手房买卖交房问题 林孝跃判多久