如何对百度网页搜索的检索满意度指标进行评估?

发布网友发布时间：2022-04-26 00:45

共2个回答

热心网友时间：2023-10-26 03:28

问到我的领域了。这个问题真心能写一本书，在百度有上百人从事和评估相关的工作
latent Z 说的七个维度，只是评估网页搜索效果的指标之一：Q-U相关性的评价标准中的一部分（直接从文档里抄下来的小标题啊！专业一点好不好……）
所谓检索满意度是个很虚的东西，但是可以从用户行为中看到端倪。通过分析用户点击顺序、停留时间，点击数量等，能够大概分析出一个用户是否满意，花了多长时间满意，被哪一个结果所满足。或者通过AB Test，Interleaving等方法，可以对比A、B搜索结果的好坏，得到一个相对值。举个简化了的栗子：
某用户搜了【知乎】，然后直接点击了首位的知乎网站，之后没有点别的。基本可以判断为满足了，而且满足程度非常高；某用户搜了【苍老师最新作品下载】，点了一个结果，过一会又来点另一个，过一会又来点……翻页点了十几个最后走了，他的满足程度可能就很低（都是无效资源啊，下载不了，只能一个一个换）这类方法的前提是你能够得到大量的用户行为统计，基于这些实际数据进行分析。但现实中并不是总有用户数据，比如新策略还没上线，或者你是竞争对手的人等等。
实际上还有五花八门的人工评估从各个角度判断搜索结果质量。人工评估就是将现实中用户的偏好抽象为几个考察点，比如上面说的七个维度，然后模拟这个过程。我说一点众所周知的思路吧：
对搜索结果中的前N条URL分别进行Query-URL相关性评估，并根据排名赋予权重，计算出一个值，名曰DCG，通过这个绝对数值反映单次搜索前N结果的质量将同一query下的百度搜索结果和竞品结果进行横向对比，判断好坏及程度，得出谁家搜索质量更好的结论，名曰Side-by-side。在评估中如果隐去两侧所有品牌标识，并左右环境顺序随机互换，即为盲测，盲测的结论一般都会非常客观反应搜索引擎质量差距。以上是仅关注搜索结果及其排序的评估方法举例。除此之外，摘要、飘红、sug等感知项目，也都会影响到结论，每种都有自己的评估方法。
贴一个参考资料地址，说得很详细了：
鉴于有人还是觉得这事太抽象，我就举个具体的栗子
第一步：明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者，想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论，但大家大多只是说自己的使用感受，而没有人能拿出信服的调研数据，现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为，即使有了不可控变量也太多，无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步：确定评估方法评估的基本方法是显而易见的：选定N个query，把每一个query在两边同时搜一下就可以对二者进行横向比较了，最后算一个平均指标。
1 对前N结果（一般都是3，有时还有5或10）逐个判断相关性，然后根据位置赋予权重，分别计算两侧搜索结果质量值（DCG）
2 对两侧结果进行综合比较，给出一个相对值（左边好？右边好？好的程度？）
第四步：数据准备1抽query：在本次评估的背景下，从数量上来说，使用1000个query作为样本是性价比比较高的选择。太少的话波动大，太多会标到吐血（熟练标注员每人每天可以标100Q左右）。Query必须随机抽取于近期用户自然产生的query，而不是自己凭空编出来的1000个词，这样能够确保Query类型（长短冷热中外...）的分布接近实际比例，进而才有可靠的结论
2 抓网页：query确定下来，就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠，应该进行盲测，即隐去两边品牌特征，再狠一点的，应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊，知识图谱啊这类特型展现，熟悉搜索引擎的人一眼就看出是谁家的，这个暂时就没办法了，评估时尽量保持客观中立吧。
第五步：评估最主要的部分来了，这里要对抓取的结果进行人工评估。你可以自己一个人连评10天；或者找几个人一起做，但是要先对他们进行统一培训，以免标准不一；也可以找一群人，每个人都做一遍，然后取他们平均数也好多数投票也好，当然也得培训了，还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步：统计这一步没啥好说的，按照之前想好的方式统计一下结果，做个总结就OK了。百度和谷歌谁更好，哪里好，好多少，一清二楚。
那些只知道往外扔一两个badcase来说明问题的人真是弱爆了……

热心网友时间：2023-10-26 03:29

第一步：明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者，想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论，但大家大多只是说自己的使用感受，而没有人能拿出信服的调研数据，现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为，即使有了不可控变量也太多，无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步：确定评估方法评估的基本方法是显而易见的：选定N个query，把每一个query在两边同时搜一下就可以对二者进行横向比较了，最后算一个平均指标。
1 对前N结果（一般都是3，有时还有5或10）逐个判断相关性，然后根据位置赋予权重，分别计算两侧搜索结果质量值（DCG）
2 对两侧结果进行综合比较，给出一个相对值（左边好？右边好？好的程度？）
第四步：数据准备1抽query：在本次评估的背景下，从数量上来说，使用1000个query作为样本是性价比比较高的选择。太少的话波动大，太多会标到吐血（熟练标注员每人每天可以标100Q左右）。Query必须随机抽取于近期用户自然产生的query，而不是自己凭空编出来的1000个词，这样能够确保Query类型（长短冷热中外...）的分布接近实际比例，进而才有可靠的结论
2 抓网页：query确定下来，就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠，应该进行盲测，即隐去两边品牌特征，再狠一点的，应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊，知识图谱啊这类特型展现，熟悉搜索引擎的人一眼就看出是谁家的，这个暂时就没办法了，评估时尽量保持客观中立吧。
第五步：评估最主要的部分来了，这里要对抓取的结果进行人工评估。你可以自己一个人连评10天；或者找几个人一起做，但是要先对他们进行统一培训，以免标准不一；也可以找一群人，每个人都做一遍，然后取他们平均数也好多数投票也好，当然也得培训了，还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步：统计这一步没啥好说的，按照之前想好的方式统计一下结果，做个总结就OK了。百度和谷歌谁更好，哪里好，好多少，一清二楚。

热心网友时间：2023-10-26 03:28

热心网友时间：2023-10-26 03:29