问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

想让百度不再收录某些页面该怎么办?

发布网友 发布时间:2022-04-29 00:18

我来回答

2个回答

热心网友 时间:2022-06-26 06:30

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:http://www.seovip.cn/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.seovip.cn站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以*GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

热心网友 时间:2022-06-26 06:31

用robots控制一下, 这个会人性化一些. 过段时间, 再删调试目录.
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
...下图方式对折一分为二裁开成为A2纸(如图(2) 明信片怎么样固定 为什么我的高考录取通知书还没有到? 梦见我孙女光秃秃的躺在路上的预兆 师兄请按剧本来分集剧情介绍(第1-40全集)大结局,几点更新,在哪个台播出... 发挥什么优势 三合一烤肠机接煤气罐接口可以换方向吗 关于福睿斯4年,3万公里保养问题请教? 福睿斯水箱加水在哪里 福睿斯水箱加水在哪里加 CSGO武器箱怎么获得 CSGO武器箱钥匙在哪买便宜 不想被百度知道收录怎么办? 如何才能让我的网页不被百度收录? 有个目录不想让百度收录,除了robots文件,还有没有其它方法? 华为nove7 SE把保护膜撕了里面还有膜吗? 网站不想被百度收录和在百度有排名怎么办? 怎么设置不让百度收录该页面 如何不让百度收录自己的网站 二级域名太多,想屏蔽某些二级域名不被百度收录该怎么做 怎么取消百度收录 梦见男友打电话给出租车给我整理东西让我走 做梦梦见男朋友打电话说要跟我一生一世 梦见男友给我打电话时我和以前男友在一起我欺骗他 梦见男友打电话给我叫我出去玩的时候路上小心,声音好耳熟,仔细一听,是前男友。什么意思啊 梦见男友给别人打电话 梦见男友打电话给我,可是电话里有别的女人的声音,周公解梦的正解是... 怎么才能知道手机号有没有注册过QQ号 知道一个人的QQ大号怎么才能查出来她有没有其它的QQ小号呀 如何获取一个还没有被注册的qq号码? 一个手机注册过2个qq号可是我把第二个是qq号忘了那个谁也没有加过,还能找到那个号吗 怎么能知道一个人有几个QQ号 不想让百度收录我网站的图片,怎么办? 有个别网页不想被搜索引擎收录的应该怎么办? 不想让百度收录我的网站怎么办?是在每一个页面加代码还是怎样? 华为nova7手机后面摄像头有膜吗? 我不想百度收录我网站的某一个页面怎么做? 发的文章总是不被百度收录,怎么办? 新站不想让百度收录怎么弄 华为nova 7 se手机盒有塑料膜吗? SEO 实战 网站不被百度收录怎么办 怎么才能取消财富通? 财富通怎么关闭 五一胶囊在哪里可以买 怎样取消财富通啊? 51胶囊多少钱一盒?真的能治好高血压偏瘫吗? DNF五一经验胶囊在哪领取 怎么领取1000W经验胶囊 51胶囊国药准字真伪 怎么取消手机财富通 康宁神胶囊万安堂请问康宁神1号和2号胶囊现在在哪里能买到? 财富通怎么取消 请问米多芬胶囊哪里能买到?