问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何对百度网页搜索的检索满意度指标进行评估?

发布网友 发布时间:2022-04-26 00:45

我来回答

2个回答

热心网友 时间:2023-10-26 03:28

问到我的领域了。这个问题真心能写一本书,在百度有上百人从事和评估相关的工作
latent Z 说的七个维度,只是评估网页搜索效果的指标之一:Q-U相关性的评价标准中的一部分(直接从文档里抄下来的小标题啊!专业一点好不好……)
所谓检索满意度是个很虚的东西,但是可以从用户行为中看到端倪。通过分析用户点击顺序、停留时间,点击数量等,能够大概分析出一个用户是否满意,花了多长时间满意,被哪一个结果所满足。或者通过AB Test,Interleaving等方法,可以对比A、B搜索结果的好坏,得到一个相对值。举个简化了的栗子:
某用户搜了【知乎】,然后直接点击了首位的知乎网站,之后没有点别的。基本可以判断为满足了,而且满足程度非常高;某用户搜了【苍老师最新作品下载】,点了一个结果,过一会又来点另一个,过一会又来点……翻页点了十几个最后走了,他的满足程度可能就很低(都是无效资源啊,下载不了,只能一个一个换)这类方法的前提是你能够得到大量的用户行为统计,基于这些实际数据进行分析。但现实中并不是总有用户数据,比如新策略还没上线,或者你是竞争对手的人等等。
实际上还有五花八门的人工评估从各个角度判断搜索结果质量。人工评估就是将现实中用户的偏好抽象为几个考察点,比如上面说的七个维度,然后模拟这个过程。我说一点众所周知的思路吧:
对搜索结果中的前N条URL分别进行Query-URL相关性评估,并根据排名赋予权重,计算出一个值,名曰DCG,通过这个绝对数值反映单次搜索前N结果的质量将同一query下的百度搜索结果和竞品结果进行横向对比,判断好坏及程度,得出谁家搜索质量更好的结论,名曰Side-by-side。 在评估中如果隐去两侧所有品牌标识,并左右环境顺序随机互换,即为盲测,盲测的结论一般都会非常客观反应搜索引擎质量差距。以上是仅关注搜索结果及其排序的评估方法举例。除此之外,摘要、飘红、sug等感知项目,也都会影响到结论,每种都有自己的评估方法。
贴一个参考资料地址,说得很详细了:
鉴于有人还是觉得这事太抽象,我就举个具体的栗子
第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。
那些只知道往外扔一两个badcase来说明问题的人真是弱爆了……

热心网友 时间:2023-10-26 03:29

第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。

热心网友 时间:2023-10-26 03:28

问到我的领域了。这个问题真心能写一本书,在百度有上百人从事和评估相关的工作
latent Z 说的七个维度,只是评估网页搜索效果的指标之一:Q-U相关性的评价标准中的一部分(直接从文档里抄下来的小标题啊!专业一点好不好……)
所谓检索满意度是个很虚的东西,但是可以从用户行为中看到端倪。通过分析用户点击顺序、停留时间,点击数量等,能够大概分析出一个用户是否满意,花了多长时间满意,被哪一个结果所满足。或者通过AB Test,Interleaving等方法,可以对比A、B搜索结果的好坏,得到一个相对值。举个简化了的栗子:
某用户搜了【知乎】,然后直接点击了首位的知乎网站,之后没有点别的。基本可以判断为满足了,而且满足程度非常高;某用户搜了【苍老师最新作品下载】,点了一个结果,过一会又来点另一个,过一会又来点……翻页点了十几个最后走了,他的满足程度可能就很低(都是无效资源啊,下载不了,只能一个一个换)这类方法的前提是你能够得到大量的用户行为统计,基于这些实际数据进行分析。但现实中并不是总有用户数据,比如新策略还没上线,或者你是竞争对手的人等等。
实际上还有五花八门的人工评估从各个角度判断搜索结果质量。人工评估就是将现实中用户的偏好抽象为几个考察点,比如上面说的七个维度,然后模拟这个过程。我说一点众所周知的思路吧:
对搜索结果中的前N条URL分别进行Query-URL相关性评估,并根据排名赋予权重,计算出一个值,名曰DCG,通过这个绝对数值反映单次搜索前N结果的质量将同一query下的百度搜索结果和竞品结果进行横向对比,判断好坏及程度,得出谁家搜索质量更好的结论,名曰Side-by-side。 在评估中如果隐去两侧所有品牌标识,并左右环境顺序随机互换,即为盲测,盲测的结论一般都会非常客观反应搜索引擎质量差距。以上是仅关注搜索结果及其排序的评估方法举例。除此之外,摘要、飘红、sug等感知项目,也都会影响到结论,每种都有自己的评估方法。
贴一个参考资料地址,说得很详细了:
鉴于有人还是觉得这事太抽象,我就举个具体的栗子
第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。
那些只知道往外扔一两个badcase来说明问题的人真是弱爆了……

热心网友 时间:2023-10-26 03:29

第一步:明确评估的背景、目的、你所掌握的资源在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的
第二步:确定评估方法评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)
第四步:数据准备1抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。
第五步:评估最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。
第六步:统计这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
王奇 这个名字好不好 城建税等计入什么科目 灭火器多久保养一次 灭火器保养周期是多久? 朋友在北京想开一家超市的,请问什么地方适合?还有前期要准备什么? 恐龙宝宝漫游记之我爱我家2内容提要 我爱我家艳红为什么离婚 Faudel演唱的法语歌曲mon pays 的中文歌词,哈哈哈哈,谁有 Shy'm的Le blues de toi 歌词意思 ...那个t后面省略了什么 还有,希望能帮我翻译一下以下的歌词_百度... 地下城堡2小米版安卓APK如何下载 如何对百度文档进行评价 怎么对百度别人的文档进行评价 对百度百科评价有什么好处 怎么对百度文档进行评价 大家对百度推广的评价是什么啊? 对百度的评价。。。急急急急急急 大家对于百度知道的评论有何看法 来说说你对百度的看法 说说你对百度的评价 怎样客观地评价百度? 对百度的评价 对百度搜索引擎的评价 函授本科可以考公务员本科以上学历的岗位吗?非全日制本科可以吗 没有健身基础的人,应该怎样开始锻炼? 在生活中应该怎么锻炼,才能让自己保持好的身材? 年轻人应该怎么锻炼身体 函授本科毕业能去考公务员吗? 我该如何锻炼身体 体质瘦弱的人应该怎么锻炼 根据身体情况来看,应该怎么锻炼呢? 百度评论区评价帮助我有九万二千多人,是什么原因会对我这样的评论? 怎么关闭对百度回答的评价? 怎样对百度文库的文章进行评价及以及查看评价内容 开过淘宝店铺,买家信用查询不到? 为什么在淘宝买家信用查询找不到我的淘宝账号 淘宝买家信用查询帐号等级是一般怎么办,该如何提升为安全! 131458买家信用查询怎么跟淘宝里的不一样 淘宝买家信用查询帐号安全等级是危险怎么办,该如何提升为安全! 淘宝账户购物那么多为何查询买家信誉为一心一下 如何查询国际买家信息? 我是淘宝买家,以前开过淘宝店铺,现在没开了,可一查信用就说我是卖家,怎么把身份变成买家 为什么淘宝上显示买家信用是4点,而查号网址上却显示3点呢 AION怎么查买家信息 买家退货了,卖家如何根据快递单号查询买家信息 后台查询买家订单可以依据哪两种信息查询 英雄联盟账号如何取消身份证绑定 现在有什么好看的短视频可以看,女性一些的? 求点好看的女...U..要视频里面好看的不是图片这俩个差距太大 海尔空调服务电话全国服务电话? 那里有好看的视频?