网络爬虫必须遵守robot协议吗
发布网友
发布时间:2022-04-25 21:37
我来回答
共1个回答
热心网友
时间:2022-04-23 21:50
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。
你说的这个情况应该是网站对搜索引擎做了一定的*了。比如:*某个浏览器或者全部浏览器不能抓取整个网站,或者是*某个浏览器或者所有浏览器不能抓取某个特定的页面。