问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何让网页被爬虫抓取?

发布网友 发布时间:2022-04-20 01:29

我来回答

2个回答

热心网友 时间:2022-04-18 18:01

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。
比如,要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。
以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。
1、通过 robots.txt 文件屏蔽
可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:
User-agent: Baispider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通过 meta tag 屏蔽
在所有的网页头部文件添加,添加如下语句:
<meta name="robots" content="noindex, nofollow">
3、通过服务器(如:Linux/nginx )配置文件设置
直接过滤 spider/robots 的IP 段。
小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。

热心网友 时间:2022-04-18 19:19

爬虫就是自动提取网页的程序,如百度的蜘蛛等,要想让自己的网站更多页面被收录,首先就要让网页被爬虫抓取。
如果你的网站页面经常更新,爬虫就会更加频繁的访问页面,优质的内容更是爬虫喜欢抓取的目标,尤其是原创内容。
如果你做了许多努力仍没有被爬虫抓取,可以看一下老渔哥给出的两点建议:
1、不建议站点使用js生成主体内容,如过js渲染出错,很可能导致页面内容读取错误,页面则无法被爬虫抓取。
2、许多站点会针对爬虫做优化,建议页面长度在128k之内,不要过长。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
“笑指旧山归路长”的出处是哪里 PCB为什么要拼板,PCB拼板打样有哪些好处? 绘制紫外吸收光谱时,我发现最大吸收波长是333nm,此时吸光度为4.01 对吸光度测量值有何影响? 陆垚知马俐的歌词是什么? 玫瑰花水中的养殖方法 陈年柚子茶如何做 陈年柚子茶的制作方法 在答题卡上改题号是指那一道题扣分还是整个卷子都没? ...考试时我写到了卷子上,会怎么样?会不会按抄袭 高考时在卷子上不小心画了道怎么办? java写网络爬虫,如何爬取在同一个网页中,但是已... 地砖清洗剂常见问题 地砖清洗剂哪种好? 如果在一个网站开发程序里编写一段爬虫程序能不能... 瓷砖用什么清洁剂 现在做一个爬虫程序,希望把爬到的网页存进hadoop... 家里的瓷砖太脏了,用洁佬爷瓷砖清洁剂可以清理掉... 搜索引擎如何对网站进行爬行和抓取 新手求助:爬一个网页发现爬下来的网页源码 墙面瓷片很脏了,有什么办法清洗呀?好烦哦... 瓷片怎么清洁 求大神帮忙写一下正则表达式,我现在要做一个网络... 洗瓷砖用盐酸还是草酸 如何爬虫网页数据 瓷砖地面清洁剂有哪些 日常清洁瓷砖地面的小方法 做网页的步骤是什么? 怎么样做一个简单的网络爬虫程序,实现爬出一个网... 美缝剂清洗剂怎么用?瓷砖上的美缝剂咋清理&#160;? python 怎样爬去网页的内容 瓷砖用什么清洁剂好,如何清洗瓷砖,外墙瓷砖如何... 本人想用C#做一个WEB版的网络爬虫,具体实现给出新... Python爬网页 哪里能卖手表卡西欧 请问南京有哪些地方卖卡西欧手表的? 郑州哪里有卡西欧手表专卖店或专柜 无锡哪里有卖卡西欧手表的? 哪里有卖卡西欧手表?答得好的追加20分~!!! 找几个深圳卡西欧专柜的地址 天津哪里有卖卡西欧手表? 请问南京哪些地方有卡西欧手表专卖店? 请问广州哪里有卡西欧手表的专卖店? 哪里卖卡西欧手表好呢?给我一家品质好的店。最好... 请问岳阳哪里有卡西欧手表专卖店? 南充哪里有卖卡西欧手表的 我有一块手表,是卡西欧的,想卖但不知道去哪卖,请各... 上海浦东新区哪里有卖卡西欧手表的 哪里有卡西欧手表专卖店? 想买正品卡西欧手表!哪里有卖??? 深圳哪里有卖正品卡西欧手表呢? 鞍山哪里有卖卡西欧手表的呀? 北京市大兴区社保地址