问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

对pagerank算法的整理

发布网友 发布时间:2022-11-08 23:11

我来回答

1个回答

热心网友 时间:2023-11-14 03:33

1、首先先大致介绍下pagerank,pagerank是Google排名算法法则的一部分,是用来标记网页的等级的一种方法,也是用来衡量一个网页好坏的唯一标准。pagerank他采用PR值来划分网页的受欢迎度,PR值越高,则表名受欢迎度越高,PR最高为10,最低为0,一般PR达到4,则表名网站已经不错了。PR为4的网站比PR为3的网站不是单纯的好一点来形容,他是一种里氏震级的形式来形容的,就好比地震的等级,是指数刻度增长的,因此可以想象PR为10的网站是一种什么程度。因为这个算法是Google提出的,因此Google将自己的网站PR值设置为10,所以想要自己的网站PR达到10,是非常难的,如果你的网站可以达到Google的水平。

2、介绍完了pagerank是一个什么东西后,我们就来介绍一下pagerank如何计算的。

2.1、用个例子来说明下PageRank算法

在网页A中有B、C、D三个链接,在网页B中有A、C两个个链接,在网页C中有D链接,网页D中有A、B两个链接。(可以看出这个图是强链接的,任何一个节点都可以到达另一个节点)。

我们假设每一个链接访问的概率是相同的,为了计算方便我们将每一个网页的PageRank设置为1。

先给出计算公式

PR(pj) 表示网页 pj 的 PageRank 得分,L(pj) 表示网页 pj 的出链接数量,1/L(pj) 就表示从网页 pj 跳转到 pi 的概率。

所以我们来计算第一次迭代后的PR值:

PR(A)=PR(B)/2+PR(D)/2

PR(B)=PR(A)/3+PR(D)/2

PR(C)=PR(A)/3+PR(B)/2

PR(D)=PR(A)/3+PR(C)/1

PR(A)+PR(B)+PR(C)+PR(D)=1

PR(A)=0.265, PR(B)=0.235, PR(C)=0.206, PR(D)=0.294

通过上面的公式在不断的进行迭代,可以得到一个收敛值,大概是在(0.265,0.235,2.206,0.294)附近。

2.2看完公式之后,我们来考虑俩种特殊的情况

2.2.1终止问题

上面过程要满足收敛性,需要具备一个条件:图是强连通的,即从任意网页可以到达其他任意网页。

互联网中存在网页不满足强连通的特性,因为有一些网页不指向任何网页,按照上面公式迭代计算下去,导致前面累计得到的转移概率被清零,最终得到的概率分布向量所有元素几乎都为0。

假设把上面图中C到D的链接丢掉,C变成了一个终止点,得到下面这个图:

转移矩阵M为:

不断迭代,最终得到所有元素都为0。

2.2.2 、陷阱问题

陷阱问题:是指有些网页不存在指向其他网页的链接,但存在指向自己的链接。比如下面这个图:

这种情况下,PageRank算法不断迭代会导致概率分布值全部转移到c网页上,这使得其他网页的概率分布值为0,从而整个网页排名就失去了意义。如果按照上面图则对应的转移矩阵M为:

不断迭代,最终得倒如下结果:

为了解决终止点问题和陷阱问题 ,下面需要对算法进行改进。假设选取下一个跳转页面时,既不选 当前页面 ,也不选 当前网页上的其他链接 ,而是以一定概率跳转到其他不相关网页,那么上面两个问题就能得到很好的解决,这就是 完整 PageRank 算法思想 。

N表示的时网页链接的个数,α表示不进行随机跳转的概率。

利用上面公式继续迭代下去,直到收敛,得到最终rank值。

PageRank 的计算是采样迭代法实现的:一开始所有网页结点的初始 PageRank 值都可以设置为某个相同的数,例如 1,然后我们通过上面这个公式,得到每个结点新的 PageRank 值。每当一张网页的 PageRank 发生了改变,它也会影响它的出链接所指向的网页,因此我们可以再次使用这个公式,循环地修正每个网页结点的值。由于这是一个马尔科夫过程,所以我们能从理论上证明,所有网页的 PageRank 最终会达到一个稳定的数值。整个证明过程很复杂,这里我们只需要知道这个迭代计算的过程就行了。

3、基于本文主题叫做数学建模之美,也是一篇读后感,所以我们还是写一下感受吧。

这个算法的优美之处,就在于巧妙地将网页内容的好坏,根据链接数的形式,用PR值进行了排名,它不仅激发网页越做越好,也促进了各个网页之间的联系。

同时在结构方面,他将一个复杂的问题,进行了简单的类比,用图结构的形式代替链接的形式,用户访问的顺序,也就是节点的走向。所以数学之美就在于他是非常的简单,用简单的原理,向我们展示了一个复杂的问题。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
长春小飞没有车没有房 碳钢的多久生锈 碳钢多久会生锈 碳钢多长时间会开始生锈 碳钢和铝哪个容易生锈 梦见天宫图是什么意思 光遇2023好友树解锁图鉴 光遇二级节点多少个 ...火柴小女孩》《词语手册》里有很多词语的意思的,求告知 暖融融解释 领淘通淘客助手这个软件怎么样? 2022德育课堂第十一期在哪里看 花呗借5万分24期还,每月多少钱 上面一个山下面一个今念什么 面一个山下面一个今是什么字 车内氛围灯什么意思 生命200字作文 作文《有趣的课外种殖活动》100字 老人与海人物形象分析(2) 夏天可以种土豆吗,土豆适合在3月/8月种植 怎样申请第二个 怎么申请第二个 如何申请第二个 微信怎么注册两个 怎么申请第二个 怎么注册第二个 注册第二个的方法 带宽很高,但是上网速度还是慢,什么原因? 怎样申请第二个 注册怎么注册第二个 劳动合同保密条款法律怎么规定? 支付宝红码多久消除 工商银行服务热线 肝癌做第二次介入治疗要隔多久 关于五子棋的日记300字 发微信时为何分身的微信是首选 一张卡可以绑定两个吗手机? 一个银行卡能不能绑两个? 一个银行卡能不能绑两个? 同一个银行卡可以同时绑定两个吗? 诚信是不是一个可贵的品质 为什么老实人在中国被看扁,在美国,诚实被认为是最可贵的品质 手机卡能绑定两个吗? 京东旗下跨境出口电商平台JOYBUY将升级为跨境B2B交易和服务平台 uu加速器官网连接已重置 凉拌小土豆怎么做好吃 拌小土豆的做法,拌小土豆怎么做好吃,拌小土豆 请问car wrap是什么意思? 奥迪车怎么调倒车镜怎么锁车后自功合上 突然停电了电表没跳闸 如何在两部手机同时登陆一个? 党员帮带目标和措施 打破(困难、限制)什么词语? 同一个日期啤酒两瓶的颜色不一样是怎么回事