问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

怎么在网络搜索到别人的信息

发布网友 发布时间:2022-04-22 11:00

我来回答

1个回答

热心网友 时间:2023-09-15 07:16

robot.txt 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
一、 什么是robots.txt文件
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜 索引擎只收录指定的内容。
二、 robots.txt文件放在哪里
robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt 这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范 围。如:
http://www.w3.org/ —— http://www.w3.org/robots.txt
http://www.w3.org:80/ —— http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ —— http://www.w3.org:1234/robots.txt
http://w3.org/ —— http://w3.org/robots.txt
三、 robots.txt文件的格式
“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>”
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录 通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在“robots.txt”文件中,如果有多条 User-agent记录说明有多个robot会受到该协议的*,对该文件来说,至少要有一条User- agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。
Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以 是部分的,任何以Disallow开头的URL均不会被robot访问到。例如:
“Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问, 而“Disallow: /help/”则允许robot访问/help.html,而不能访问/help/index.html。
任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在 “/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”是一个空文 件,则对于所有的搜索引擎robot,该网站都是开放的。
四、robots.tst文件存在的意义
有些人会问,即然robots文件没弄好,或出错了,会影响整个网站的收录,那为什么还要这个文件呢?
其实robots是为特定需的站长准备的,因为有些网站,有一些页面是站长不想被SE收录的,所以才有了这个robots文件。
五、 robots.txt文件用法举例
例1、禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2、允许所有的robot访问
User-agent: *
Disallow:
(或者也可以建一个空文件 "/robots.txt" file)
例3、禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例4、允许某个搜索引擎的访问
User-agent: spider
Disallow:
User-agent: *
Disallow: /
例5、一个简单例子
在这个例子中,该网站有三个目录对搜索引擎的访问做了*,即搜索引擎不会访问这三个目录。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /joe/
需要注意的是对每一个目录必须分开声明,而不要写成:“Disallow: /cgi-bin/ /tmp/”。
User-agent:后的* 具有特殊的含义,代表“any robot”,所以在该文件中不能有 “Disallow: /tmp/*” or “Disallow: *.gif”这样的记录出现。
五、robots.txt文件参考资料
robots.txt文件的更具体设置,请参看以下链接:
1、http://www.robotstxt.org/wc/faq.html
2、Web Server Administrator's Guide to the Robots Exclusion Protocol
3、HTML Author's Guide to the Robots Exclusion Protocol
4、The original 1994 protocol description, as currently deployed
5、The revised Internet-Draft specification, which is not yet pleted or implemented
Trackback: http://bbs.5ixb.com/read-htm-tid-4131.html
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
抖音弹幕怎么关掉?怎么关闭抖音弹幕? 惠普LaserJet P3005D是否支持B5纸的双面打印? word打印出图片总是缺一部分怎么办-word打印图片不完整怎么解决_百度... 理想one哪里产的车辆? 抚州抚州ONE在哪里? one地址在哪里? 如何在图片上写字(如何在图片上添加文字) 网商贷为什么钱没到账 高级经济师职称怎么评 高级经济师需要评审吗 肉皮冻是怎么做出来的? 怎么搜索别人的百度ID? 猪皮肉冻的做法 钉钉搜索别人,别人会知道是谁搜索了她吗? 怎么样用搜索的别人 全民K歌怎么搜索别人? 用猪皮怎样煮肉冻 猪皮肉冻的做法步骤图,猪皮肉冻怎么做好吃 wordtalk软件怎么搜索别人 做肉冻猪皮怎么做好吃窍门 怎么在百度知道搜索别人 入口即化的肉皮冻怎么做如何做 猪皮肉冻的正确做法 猪皮冻是由猪皮制作而成,猪皮冻的营养价值有哪些? 在百度提问怎么搜索别人? 怎么在手机版百度知道搜索别人 百度知道怎么搜索别人 ?怎么关注别人? 重阳节小报怎么画 404 Not Found 重阳节手抄报内容100字 怎么在贴吧里怎么搜索别人? 肉皮冻怎么做呀 柚子快上市了,红肉柚子和白肉柚子有什么差别 Win10如何解决桌面图标位置和排列方式无法保存 win10桌面图标顺序不能保存 win10系统排列好的图标可以保存吗? 蜜柚红肉白肉如何辨别 win10桌面图标位置和排列方式无法保存怎么解决 红肉柚子和白肉柚子要怎么从外观区分呢? Win10怎么设置记忆桌面图标原来的位置 404 Not Found win10桌面图标排列方式无法保存 win10 桌面文件夹内图标的查看方式无法保存 win10系统 更改桌面图标的存储路径是D盘后 D盘目录下的文件都显示到桌面了怎么改回来 win10如何去掉桌面图标的小盾牌 怎么提取Win10系统图标 win10桌面图标不见了怎么恢复 404 Not Found 淘宝sku怎么填写数量缺货 淘宝店货怎么设置永久不下架或下架后自动马上上架 手动好麻烦 谢谢帮忙