问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

信息“爆炸”时代,搜索引擎是如何工作的?

发布网友 发布时间:2022-04-29 16:25

我来回答

5个回答

热心网友 时间:2023-05-14 22:10

搜索引擎的工作过程大体分为四个步骤:爬行和抓取、建立索引、搜索词处理、展示排名,人们日常使用搜索引擎查找资料的过程只是搜索引擎工作过程中的一个环节。首先,搜索引擎会向万维网派出一个能够发现新网页并抓取网页文件的程序,这个程序通常被称为蜘蛛

其在工作的时候从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的页面都抓取完为止。如果把整个互联网当做一张大网,那么这个程序就像是蜘蛛一样抓取所有的网页内容。


在蜘蛛程序抓取了网页文件之后,通过对网页内容的分析和处理,对网页信息进行提取并组织建立索引库,即建立一定的搜索原则,也就是说当用户查找某一关键词时,搜索引擎能根据关键词在数据库中进行查找和搜索,找到相应的位置。当搜索引擎根据搜索词找到相关的网页之后输入关键字开始搜索,接下来就遇到了一个问题,

究竟把哪一个网页的链接呈现在前面,哪些链接放在后面呢?这就涉及到搜索引擎工作的最后一步——展示排名。在众多网页中,搜索引擎会根据算法计算得出,一个网站所提供信息的有效性,原创性和信息的认可度等指标,结合网站自身权重等综合算法给出相应的排名显示,同样的,会将一些质量较低的垃圾网站进行过滤,以提高用户检索的有效性。

热心网友 时间:2023-05-14 22:11

搜索引擎的整个工作过程视为三个部分:一是蜘蛛在互联网上爬行和抓取网页信息,并存入原始网页数据库;二是对原始网页数据库中的信息进行提取和组织,并建立索引库;三是根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,并将查询结果返回给用户。以下对其工作原理做进一步分析:
一、网页抓取
Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。搜索引擎使用多个蜘蛛分布爬行以提高爬行速度。搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页。如何做到一个页面只访问一次,从而提高搜索引擎的工作效率。在抓取网页时,搜索引擎会建立两张不同的表,一张表记录已经访问过的网站,一张表记录没有访问过的网站。当蜘蛛抓取某个外部链接页面URL的时候,需把该网站的URL下载回来分析,当蜘蛛全部分析完这个URL后,将这个URL存入相应的表中,这时当另外的蜘蛛从其他的网站或页面又发现了这个URL时,它会对比看看已访问列表有没有,如果有,蜘蛛会自动丢弃该URL,不再访问。
二、预处理,建立索引
为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)。Web页面分析有以下步骤:判断网页类型,衡量其重要程度,丰富程度,对超链接进行分析,分词,把重复网页去掉。经过搜索引擎分析处理后,web网页已经不再是原始的网页页面,而是浓缩成能反映页面主题内容的、以词为单位的文档。数据索引中结构最复杂的是建立索引库,索引又分为文档索引和关键词索引。每个网页唯一的docID号是有文档索引分配的,每个wordID出现的次数、位置、大小格式都可以根据docID号在网页中检索出来。最终形成wordID的数据列表。倒排索引形成过程是这样的:搜索引擎用分词系统将文档自动切分成单词序列-对每个单词赋予唯一的单词编号-记录包含这个单词的文档。倒排索引是最简单的,实用的倒排索引还需记载更多的信息。在单词对应的倒排列表除了记录文档编号之外,单词频率信息也被记录进去,便于以后计算查询和文档的相似度。
三、查询服务
在搜索引擎界面输入关键词,点击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出,而且对网页进行排序,最后按照一定格式返回到“搜索”页面。查询服务最核心的部分是搜索结果排序,其决定了搜索引擎的量好坏及用户满意度。实际搜索结果排序的因子很多,但最主要的因素之一是网页内容的相关度。影响相关性的主要因素包括如下五个方面。
(1)关键词常用程度。经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。常用词发展到一定极限就是停止词,对页面不产生任何影响。所以搜索引擎用的词加权系数高,常用词加权系数低,排名算法更多关注的是不常用的词。
(2)词频及密度。通常情况下,搜索词的密度和其在页面中出现的次数成正相关,次数越多,说明密度越大,页面与搜索词关系越密切。
(3)关键词位置及形式。关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关。在索引库的建立中提到的,页面关键词出现的格式和位置都被记录在索引库中。
(4)关键词距离。关键词被切分之后,如果匹配的出现,说明其与搜索词相关程度越大,当“搜索引擎”在页面上连续完整的出现或者“搜索”和“引擎”出现的时候距离比较近,都被认为其与搜索词相关。
(5)链接分析及页面权重。页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。链接分析还包括了链接源页面本身的主题、锚文字周围的文字等。

热心网友 时间:2023-05-14 22:11

搜索引擎的工作过程大体分为四个步骤:爬行和抓取、建立索引、搜索词处理、展示排名,人们日常使用搜索引擎查找资料的过程只是搜索引擎工作过程中的一个环节。

热心网友 时间:2023-05-14 22:12

搜索引擎主要是通过联通大数据系统来提供搜索信息的,所以比较方便快捷

热心网友 时间:2023-05-14 22:12

搜索引擎在这个时代是有着更大的作用的,所以各大公司都强化了他们的
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
少儿学什么舞蹈 青年学什么舞蹈好 成年人学什么舞蹈 福州企业最低工资标准 2013年厦门的底薪是多少 生产要素的需求有哪些性质 生产要素的需求有何特点? 什么是生产要素需求 微观经济学要素需求什么是条件要素需求?它和要素需求有什么不同?_百度... 养宠物的人遵守规则,是不是就能和别人平安相处呢? 如何把百度设置为搜索引擎? 哈登2的鞋带怎么穿最好 邮政储蓄卡开通网银能在网上购买火车票吗? 福州哪里有卖亚麻籽油和乳酸菌 去哪办年货好? 为什么海都购物网Emali填了显示未填 【高分】请大家一起搜集福州本地的门户网站,或者是大型门户中有福州频道的网站。 海都购物网怎么买东西?跟淘宝的一样吗?福建网上购物还有什么比较好的推荐下! 海都购物网是新办的吗?为什么付款不是用支付宝? 标致3008空调滤芯在什么位置怎么拆 【关于】968111,海都购物网 968111海都购物网的网站简介 海都购物网电子支付卡怎么用? 海都购物网的网站理念 海都购物网怎么样 海都购物网的企业文化 海都购物网的企业发展 海都购物网的经营业务 家用空调滤芯怎么拆 为什么华为荣耀20青春版插了OTG转接头传输没有显示u盘? 为什么我登陆不了广东移动手机营业厅。。 迅雷云播第三方搜索引擎能搜片为什么不能播放? 我登陆广东移动网上营业厅一直登不上去,无论是用服务密码,还是动态密码,是正确的,一直说我输入的验证_百度问一问 广东移动怎么登陆进去打不开其他东西看? 广东移动进不去!有什么办法能解决? 为什么广东移动点击登录时卡了,有时也出现加载失败? 手机号登不进广东移动APP? 为什么进不了广东移动掌上营业厅? 为什么广东移动APP短信登录不了,我收不到短信? 广东移动APP怎么登录不了,卸载重装还是登录不了,一登录就说加载失败... 广东移动今晚怎么登不上去了 广东移动登陆不了怎么办? 广东移动怎么登不了录? 广东移动 登陆不了 学习Oracle该如何开始 启信宝是做什么用的? 怎么用启信宝赚钱 启信宝月卡是什么 启信宝信息不是最新信息 为什么启信宝会发短信- 问一问