如何对百度网页搜索的检索满意度指标进行评估?
发布网友
发布时间:2022-04-26 00:45
我来回答
共2个回答
热心网友
时间:2023-10-26 03:28
问到我的领域了。这个问题真心能写一本书,在百度有上百人从事和评估相关的工作
latent Z 说的七个维度,只是评估网页搜索效果的指标之一:Q-U相关性的评价标准中的一部分(直接从文档里抄下来的小标题啊!专业一点好不好……)
所谓检索满意度是个很虚的东西,但是可以从用户行为中看到端倪。通过分析用户点击顺序、停留时间,点击数量等,能够大概分析出一个用户是否满意,花了多长时间满意,被哪一个结果所满足。或者通过AB Test,Interleaving等方法,可以对比A、B搜索结果的好坏,得到一个相对值。举个简化了的栗子:
某用户搜了【知乎】,然后直接点击了首位的知乎网站,之后没有点别的。基本可以判断为满足了,而且满足程度非常高;某用户搜了【苍老师最新作品下载】,点了一个结果,过一会又来点另一个,过一会又来点……翻页点了十几个最后走了,他的满足程度可能就很低(都是无效资源啊,下载不了,只能一个一个换)这类方法的前提是你能够得到大量的用户行为统计,基于这些实际数据进行分析。但现实中并不是总有用户数据,比如新策略还没上线,或者你是竞争对手的人等等。
实际上还有五花八门的人工评估从各个角度判断搜索结果质量。人工评估就是将现实中用户的偏好抽象为几个考察点,比如上面说的七个维度,然后模拟这个过程。我说一点众所周知的思路吧:
对搜索结果中的前N条URL分别进行Query-URL相关性评估,并根据排名赋予权重,计算出一个值,名曰DCG,通过这个绝对数值反映单次搜索前N结果的质量将同一query下的百度搜索结果和竞品结果进行横向对比,判断好坏及程度,得出谁家搜索质量更好的结论,名曰Side-by-side。 在评估中如果隐去两侧所有品牌标识,并左右环境顺序随机互换,即为盲测,盲测的结论一般都会非常客观反应搜索引擎质量差距。以上是仅关注搜索结果及其排序的评估方法举例。除此之外,摘要、飘红、sug等感知项目,也都会影响到结论,每种都有自己的评估方法。
贴一个参考资料地址,说得很详细了:
鉴于有人还是觉得这事太抽象,我就举个具体的栗子
第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。
那些只知道往外扔一两个badcase来说明问题的人真是弱爆了……
热心网友
时间:2023-10-26 03:29
第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。
热心网友
时间:2023-10-26 03:28
问到我的领域了。这个问题真心能写一本书,在百度有上百人从事和评估相关的工作
latent Z 说的七个维度,只是评估网页搜索效果的指标之一:Q-U相关性的评价标准中的一部分(直接从文档里抄下来的小标题啊!专业一点好不好……)
所谓检索满意度是个很虚的东西,但是可以从用户行为中看到端倪。通过分析用户点击顺序、停留时间,点击数量等,能够大概分析出一个用户是否满意,花了多长时间满意,被哪一个结果所满足。或者通过AB Test,Interleaving等方法,可以对比A、B搜索结果的好坏,得到一个相对值。举个简化了的栗子:
某用户搜了【知乎】,然后直接点击了首位的知乎网站,之后没有点别的。基本可以判断为满足了,而且满足程度非常高;某用户搜了【苍老师最新作品下载】,点了一个结果,过一会又来点另一个,过一会又来点……翻页点了十几个最后走了,他的满足程度可能就很低(都是无效资源啊,下载不了,只能一个一个换)这类方法的前提是你能够得到大量的用户行为统计,基于这些实际数据进行分析。但现实中并不是总有用户数据,比如新策略还没上线,或者你是竞争对手的人等等。
实际上还有五花八门的人工评估从各个角度判断搜索结果质量。人工评估就是将现实中用户的偏好抽象为几个考察点,比如上面说的七个维度,然后模拟这个过程。我说一点众所周知的思路吧:
对搜索结果中的前N条URL分别进行Query-URL相关性评估,并根据排名赋予权重,计算出一个值,名曰DCG,通过这个绝对数值反映单次搜索前N结果的质量将同一query下的百度搜索结果和竞品结果进行横向对比,判断好坏及程度,得出谁家搜索质量更好的结论,名曰Side-by-side。 在评估中如果隐去两侧所有品牌标识,并左右环境顺序随机互换,即为盲测,盲测的结论一般都会非常客观反应搜索引擎质量差距。以上是仅关注搜索结果及其排序的评估方法举例。除此之外,摘要、飘红、sug等感知项目,也都会影响到结论,每种都有自己的评估方法。
贴一个参考资料地址,说得很详细了:
鉴于有人还是觉得这事太抽象,我就举个具体的栗子
第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。
那些只知道往外扔一两个badcase来说明问题的人真是弱爆了……
热心网友
时间:2023-10-26 03:29
第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。