-
我们知道,搜索引擎都有自己的
“
搜索机器人<
/p>
”
(
ROBOTS
),并通过这些
ROBOTS
在网络上沿着网
页上的链接(一般是
http
和
src
链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说
,有时候会有一些站点内容,不希望被
ROBOTS
抓取而公开
。为
了解决这个问题,
ROBOTS
开
发界提供了两个办法:一个是
,另一个是
The
Robots
ME
TA<
/p>
标签。
一、
1
、
什么是
?
是一个纯
文本文件,通过在这个文件中声明该网站中不想被
robots
访问的部分,这样,该
网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索
引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在
,如果找到,
搜索机器人就会按照该文件中的内容来确定访
问的范围,
如果该文件不存在,
那么搜索机器人就沿着
链接抓取。
p>
必须放置在一个站点的根目录下,而且文件名必须全部小写。
网站
URL
相应的
的
URL
/
/
:80/
:80/
:1234/
:1234/
/
/
2
、
的语法
文件包含一条或更多的记录,
这些记录通过空行分开
(以
CR,CR/NL
,
or
NL
作为结束符)
,
每一条记录的格式如下所示:
。
在该文件中可以使用
#
进行注解,具体使用方法和
UNIX
中的惯例一样。该文件中的记录通常以一行
或多行
U
ser-agent
开始,后面加上若干
Disallow
p>
行
,
详细情况如下:
User-agent:
该项的
值用于描述搜索引擎
robot
的名字,
在
文件中,
如果有多条
User-agent
记录说明有
多个
robot
会受到该协议的限制,对该文件来说,至少要有一条
User-agent
记录。如果该项的值设
为
p>
*
,
则该协议对任何机器人均有效,
在
文件中,
:
*
这样的记录只能
有一条。
Disallow
:
该项的值用于描述不希望被访问到的一个
URL
,
这个
URL
可以是一条完整的路径,
也可以是部分的,
任何以<
/p>
Disallow
开头的
URL
均不会被
robot
访问到。例如
/help
对
/
和
/help/ind
都不允许搜索引擎访问,而
/help/
则允许
robot
访问
/
,而不能访问
/help/
。
任何一条
< br>Disallow
记录为空,说明该网站的所有部分都允许被访问,在
文件中,至少要
有一条
D
isallow
记录。如果
是一个空文件,则对于所有的搜索引擎
robot
,该网站都是
开放的。
下面是一些
基本的用法:
l
禁止所有搜索引擎访问网站的任何部分:
User-agent:
*
Disallow:
/
l
允许所有的
robot
访问
User-agent:
*
Disallow:
或者也可以建一个空文件
file
l
禁止所有搜索引擎访问网站的几个部分(下例中的
cgi-bi
n
、
tmp
、
private
目录)
User-
agent:
*
Disallow:
/cgi-bin/
Disallow:
/tmp/
Disallow:
/private/
l
禁止某个搜索引擎的访问(下例中的
BadBot
)
User-agent:
BadBot
Disallow:
/
l
只允许某个搜索引擎的访问(下例中的
WebCrawler<
/p>
)
User-agent:
WebCrawler
Disallow:
User-agent:
*
Disallow:
/
3
、
p>
常见搜索引擎机器人
Robots
名字
p>
名称
搜索引擎
Baiduspider
Scooter
ia_archiver
Googlebot
Inktomi
Slurp
FAST-WebCrawler
Slurp
MSNBOT
4
、
举例
p>
下面是一些著名站点的
:
< br>
/
/
/
/
/
5
、
常见
错误
l
颠倒了顺序:
错误写成
User-agent:
*
Disallow:
GoogleBot
正确的应该是:
User-
agent:
GoogleBot
Disallow:
*
l
把多个禁止命令放在一行中:
例如,错误地写成
Disallow:
/css/
/cgi-bin/
/images/
正确的应该是
Disallow:
/css/
Disallow:
/cgi-bin/
Disallow:
/images/
l
行前有大量空格
例如写成
Disallow:
/cgi-
bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
l
404
重定向到另外一个页面:
p>
当
Robot
访问很多没有设置
文件的站点时,会被自动
404
< br>重定向到另外一个
Html
页面。
这时
Robot
常常会以处理
文件的方式处理这个
Html
页面文件。虽然
一般这样没有什么问
题,但是最好能放一个空白的
文件在站点根目录下。
l
采用大写。例如
USER-
AGENT:
EX
CITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
l
语法中只有
Disallow
,没有<
/p>
Allow
!
错误的写法是:
User-
agent:
Baiduspider
Disallow:
/john/
allow:
/jane/
l
忘记了斜杠
/
错误的写做:
User-
agent:
Baiduspider
Disallow:
css
正确的应该是
User-
agent:
Baiduspider
Disallow:
/css/
下面一个小工具专门检查
文件的有效性:
< br>
/cgi-bin/
二、
Robots
META
标签
1
、什么是
Robots
META
标签
文件主要
是限制整个站点或者目录的搜索引擎访问情况,而
Robots
META
标签则主要是
针对一个个具体的页面。和其他的
p>
META
标签(如使用的语言、页面的描述、关键词等)一样,
p>
Ro
bots
META
< br>标签也是放在页面的
中,<
/p>
专门用来告诉搜索引擎
ROBOTS
如何
抓取该页
的内容。具体的形式类似(见黑体部分):
< br>
时代营销
--
网
络营销专业门户
name=
content=
http-equiv=
CONTENT=
charset=gb2312
name=
conten
t=
营销
…
-
-
-
-
-
-
-
-
-
上一篇:英语课外阅读详解
下一篇:Error Code发生原因及相关处理方法