发布网友 发布时间:2022-04-29 05:07
共1个回答
热心网友 时间:2022-06-19 02:56
这无疑是一件好事,因为爬虫只想帮你的网站提高流量。Google的爬虫叫做googlebot,相信如果你的网站统计能统计爬虫的流量,一定会见过不少googlebot。当然,你的站得被google关注才行。Google的目标是要将全世界的信息都收录起来,可见作为Google的先锋部队,Googlebot一定会不断地加强,或者有一天,它们真的会像Philipp写的科幻短文那样,会上门偷听你所说的话,或者把你家的垃圾桶全搬走调查呢。不过不用怕,就算真有那么一天,也要快则等个十年八年,慢则几十年后。 但是,如果有一天,你发现自己的网站里的所有内容都被googlebot删除掉了,你会有怎样的反应?我并不是说从Google索引里删掉,而真的从你的服务器里!下面就是这样一个离奇的例子。 在Digg上面找到的这个故事里,Googlebot被怀疑是删除掉整个网站的元凶!Josh Breackman在一间负责一个大型*网站的CMS系统开发工作的公间工作。这个CMS开发项目主要是为了让*员工能创建或维护他们自己的网站上的不断变化的内容。但由于之前他们已经有一个网站,并且网站上面有丰富的内容,所以客户要求在新的网站正式上线之前,将旧网站的内容重组并上传到新网站里。这是一个需时较长的过程,在几个月后,他们终于把所有的旧网站上的内容都转移到新的CMS系统里,并且把新网站正式放上线,公开浏览。 但就在网站正式上线的第六天,他们突然发现新网站上的所有内容都自己消失了!并且所有网页都指向了默认的“请输入内容”编辑页!很自然地,Josh被要求对这个事件进行彻查。在调查中,他发现了一个外部的IP曾经进入系统,并且删除了所有系统里的内容!这个IP并不是属于某些海外的黑客,或者目的是想破坏*网站的信息,而是属于googlebot.com的!也就是说,这个是一个googlebot爬虫! 那么Googlebot为什么会这么做呢?它怎么会偷偷地将一个网站的内容全部删掉了呢?难道Google与这个*网站有过节?都不是。经过多番调查,Josh找到了原因。原来在转移内容的过程中,有一个用户将内容从一个网页复制然后粘贴到另一个网页上,其中包括了“编辑”链接,而这个链接是可以编辑内容的。在正常情况下,这个链接是没有问题的,因为外部的用户即使点了这个链接,他还需要输入有效的用户名和密码才能通过身份验证,因此他不可能进行编辑。但是,这个CMS却有一个致命的漏洞,那就是它的认证系统并没有包括像Googlebot这类爬虫在内!也就是说,Googlebot可以轻松通过它的认证系统! 因为Googlebot没有使用cookies,所以它可以轻松地绕过cookies验证。它也不理会JS代码,所以也不会像普通用户那样点击了“编辑”链接后被自动转向到正常的未登录提示页上。因此,它大摇大摆地顺着网页上的链接把整个网站逛遍了,其中当然包括了标题为“删除网页”的网页! 整个事件的起因是这个CMS系统存在致命的漏洞,并且更倒霉的是,它刚好碰上了Google的爬虫。