关键词不能为空

当前您在: 主页 > 英语 >

robots文件禁止蜘蛛方法大全

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-06 03:19
tags:

-

2021年2月6日发(作者:rollover)


robots


文件禁止蜘蛛



方法大全




有些时候我们会遇到这样的困难:


我们原本不想被搜索引擎收录的网站后台地址却被搜索 引擎


“无情”


的收录,


这样只要在


Google


里输入一个


“后


台、管理


site:



,自 己的后台地址就会显露无疑,因此网站安全性也无从谈起。遇到这样的情况时,我们如何阻止搜索引擎收录


我们不想被收录的文件呢?



一般在这个时候 ,我们常用的办法有两个,一个是编辑



文件,另外一个是在不想 被收录的页面头部放置


META NAME=


标签。



所谓的

< p>


文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,



是你对搜索引擎制定的一个如何索引你的网站的

规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引 的。



在很多网站中,站长们都忽略了使用


文件。因为很多站长都认为,自己的网站没有什么秘密可言,而且自己也不太会使用



的语


法,因此一旦写错了会带来更多的 麻烦,还不如干脆不用。



其实这样的做法是不对的。


在前面的文章中我们知道,


如果一个网站有大量文件找不到的时候



404




搜索引擎就会降低网站的权重。



< p>
作为蜘蛛访问网站的第一个文件,一旦搜索引擎要是找不到这个文件,也会在他的索引服务器上记录 下一条


404


信息。



虽然在百度的帮助文件中,有这样的一句话“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时 ,才需要使用



文件。如果您希


望搜索引 擎收录网站上所有内容,


请勿建立



文件 。



但是我个人还是认为建立



还是必须的,


哪怕这个



文件是一个空白


的文本文档都可以。因为我们的网站毕竟不是仅仅会被百度收录,同时也 会被其他搜索引擎收录的,所以,上传一个



文件还是没有什么< /p>


坏处的。



如何写一个合理的

< p>


文件?



首先我们需要了 解



文件的一些基本语法。




语法作用



允许所有搜索引擎访问网站的所有部分



或者建立一个空白的文本文档,命名为



写法



User-agent: *


Disallow:


或者



User-agent: *


Allow: /


禁止所有搜索引擎访问网站的所有部分



User-agent: *


Disallow: /


禁止百度索引你的网站



User- agent: Baiduspider


Disallow: /

< br>禁止


Google


索引你的网站



User-agent: Googlebot


Disallow: /


禁止除


Go ogle


外的一切搜索引擎索引你的网站



User-agent: Googlebot


Disallow:


User-agent: *


Disallow: /


禁止除百度外的一切搜索引擎索引你的网站



User-agent: Baiduspider


Disallow:


User-agent: *


Disallow: /


禁止蜘蛛访问某个目录



(例如禁止< /p>


admincssimages


被索引)



User-agent: *


Disallow: /css/


Disallow: /admin/


Disallow: /images/


允许访问某个目录中的某些特定网址



User-agent: *


Allow: /css/my


Allow: /admin/html


Allow: /images/index


Disallow: /css/


Disallow: /admin/


Disallow: /images/


使用“


*



,限制访问某个后缀的域名



例如索引访问< /p>


admin


目录下所有


ASP

< p>
的文件



使用“


$$


”仅允许访问某目录下某个后缀的文件



User-agent: *


Disallow: /admin/*.htm


User-agent: *


Allow: .asp$$


Disallow: /


禁止索引网站中所有的动态页面



(这 里限制的是有“


?


”的域名,例如


?i d=1




User-agent: *


Disallow: /*?*


有些时候,我们为了节省 服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“


D isallow: /images/


”这样的直接屏


蔽文件夹 的方式之外,还可以采取直接屏蔽图片后缀名的方式。具体办法如下。



语法作用



禁止


Google


搜索引擎抓取你网站上的所有图片


< p>
(


如果你的网站使用其他后缀的图片名称,在这里也可以直接添加


)


写法



User- agent: Googlebot


Disallow: .jpg$$


Disallow: .jpeg$$


Disallow: .gif$$


Disallow: .png$$


Disallow: .bmp$$


禁止百度搜索引擎抓取你网站上的所有图片



User-agent: Baiduspider


Disallow: .jpg$$


Disallow: .jpeg$$


Disallow: .gif$$


Disallow: .png$$


Disallow: .bmp$$


除了百度之外和


Google

之外,禁止其他搜索引擎抓取你网站的图片



User- agent: Baiduspider


(


注意,在这里为了 让各位看的更明白,因此使用一个比较笨的办法——对于


Allow: .jpeg$$


单个搜索引擎单独定义。


)


Allow: .gif$$


Allow: .png$$


Allow: .bmp$$


User-agent: Googlebot


Allow: .jpeg$$


Allow: .gif$$


Allow: .png$$


Allow: .bmp$$


User-agent: *


Disallow: .jpg$$


Disallow: .jpeg$$


Disallow: .gif$$


Disallow: .png$$


Disallow: .bmp$$


仅仅允许百度抓取网站上的“


JPG


”格式文件



User-agent: Baiduspider


(其他搜索引擎的办法也和这个一样,只是修改一下搜索引擎 的蜘蛛名称即


Allow: .jpg$$

-


-


-


-


-


-


-


-



本文更新与2021-02-06 03:19,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/605206.html

robots文件禁止蜘蛛方法大全的相关文章