-
robots
文件禁止蜘蛛
方法大全
有些时候我们会遇到这样的困难:
我们原本不想被搜索引擎收录的网站后台地址却被搜索
引擎
“无情”
的收录,
这样只要在
p>
Google
里输入一个
“后
台、管理
site:
”
,自
己的后台地址就会显露无疑,因此网站安全性也无从谈起。遇到这样的情况时,我们如何阻止搜索引擎收录
我们不想被收录的文件呢?
一般在这个时候
,我们常用的办法有两个,一个是编辑
文件,另外一个是在不想
被收录的页面头部放置
META
NAME=
标签。
所谓的
文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,
p>
是你对搜索引擎制定的一个如何索引你的网站的
规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引 的。
在很多网站中,站长们都忽略了使用
文件。因为很多站长都认为,自己的网站没有什么秘密可言,而且自己也不太会使用
的语
法,因此一旦写错了会带来更多的
麻烦,还不如干脆不用。
其实这样的做法是不对的。
在前面的文章中我们知道,
如果一个网站有大量文件找不到的时候
(
404
)
,
搜索引擎就会降低网站的权重。
而
作为蜘蛛访问网站的第一个文件,一旦搜索引擎要是找不到这个文件,也会在他的索引服务器上记录 下一条
404
信息。
虽然在百度的帮助文件中,有这样的一句话“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时
,才需要使用
文件。如果您希
望搜索引
擎收录网站上所有内容,
请勿建立
文件
。
”
但是我个人还是认为建立
还是必须的,
哪怕这个
文件是一个空白
的文本文档都可以。因为我们的网站毕竟不是仅仅会被百度收录,同时也
会被其他搜索引擎收录的,所以,上传一个
文件还是没有什么<
/p>
坏处的。
如何写一个合理的
文件?
首先我们需要了
解
文件的一些基本语法。
语法作用
允许所有搜索引擎访问网站的所有部分
或者建立一个空白的文本文档,命名为
写法
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /
禁止百度索引你的网站
User-
agent: Baiduspider
Disallow: /
< br>禁止
Google
索引你的网站
User-agent: Googlebot
Disallow: /
禁止除
Go
ogle
外的一切搜索引擎索引你的网站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
禁止蜘蛛访问某个目录
(例如禁止<
/p>
admincssimages
被索引)
User-agent: *
Disallow:
/css/
Disallow: /admin/
Disallow: /images/
允许访问某个目录中的某些特定网址
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow:
/images/index
Disallow: /css/
Disallow: /admin/
Disallow:
/images/
使用“
*
”
,限制访问某个后缀的域名
例如索引访问<
/p>
admin
目录下所有
ASP
的文件
使用“
$$
”仅允许访问某目录下某个后缀的文件
User-agent: *
Disallow:
/admin/*.htm
User-agent: *
Allow: .asp$$
Disallow: /
禁止索引网站中所有的动态页面
(这
里限制的是有“
?
”的域名,例如
?i
d=1
)
User-agent:
*
Disallow: /*?*
有些时候,我们为了节省
服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“
D
isallow: /images/
”这样的直接屏
蔽文件夹
的方式之外,还可以采取直接屏蔽图片后缀名的方式。具体办法如下。
语法作用
禁止
Google
搜索引擎抓取你网站上的所有图片
(
如果你的网站使用其他后缀的图片名称,在这里也可以直接添加
)
写法
User-
agent: Googlebot
Disallow: .jpg$$
Disallow: .jpeg$$
Disallow:
.gif$$
Disallow: .png$$
Disallow: .bmp$$
禁止百度搜索引擎抓取你网站上的所有图片
User-agent: Baiduspider
Disallow: .jpg$$
Disallow:
.jpeg$$
Disallow: .gif$$
Disallow: .png$$
Disallow:
.bmp$$
除了百度之外和
Google
之外,禁止其他搜索引擎抓取你网站的图片
User-
agent: Baiduspider
(
注意,在这里为了
让各位看的更明白,因此使用一个比较笨的办法——对于
Allow: .jpeg$$
单个搜索引擎单独定义。
)
Allow: .gif$$
Allow: .png$$
Allow: .bmp$$
User-agent:
Googlebot
Allow: .jpeg$$
Allow: .gif$$
Allow: .png$$
Allow: .bmp$$
User-agent: *
Disallow: .jpg$$
Disallow:
.jpeg$$
Disallow: .gif$$
Disallow: .png$$
Disallow:
.bmp$$
仅仅允许百度抓取网站上的“
JPG
”格式文件
User-agent:
Baiduspider
(其他搜索引擎的办法也和这个一样,只是修改一下搜索引擎
的蜘蛛名称即
Allow: .jpg$$
-
-
-
-
-
-
-
-
-
上一篇:口号标语之创意英文广告标语
下一篇:游戏中常用英语词汇