屏蔽搜索引擎_高中生题库网|高考真题|高考试题-「密云二中」

屏蔽搜索引擎

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-09 15:41

tags:

-

2021年2月9日发(作者：soma)

我们知道，搜索引擎都有自己的

“

搜索机器人

”

（

ROBOTS

），并通过这些

ROBOTS

在网络上沿着网

页上的链接（一般是

http

和

src

链接）不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被

ROBOTS

抓取而公开。为

了解决这个问题，

ROBOTS

开发界提供了两个办法：一个是

，另一个是

The

Robots

TA

标签。

一、

、

什么是

？

是一个纯文本文件，通过在这个文件中声明该网站中不想被

robots

访问的部分，这样，该

网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在

，如果找到，

搜索机器人就会按照该文件中的内容来确定访问的范围，

如果该文件不存在，

那么搜索机器人就沿着

链接抓取。

必须放置在一个站点的根目录下，而且文件名必须全部小写。

网站

URL

相应的

的

URL

/

/

:80/

:80/

:1234/

:1234/

/

/

2

、

的语法

文件包含一条或更多的记录，

这些记录通过空行分开

（以

CR,CR/NL ,

or

NL

作为结束符）

，

每一条记录的格式如下所示：

。

在该文件中可以使用

#

进行注解，具体使用方法和

UNIX

中的惯例一样。该文件中的记录通常以一行

或多行

U ser-agent

开始，后面加上若干

Disallow

行

,

详细情况如下：

User-agent:

该项的值用于描述搜索引擎

robot

的名字，

在

文件中，

如果有多条

User-agent

记录说明有

多个

robot

会受到该协议的限制，对该文件来说，至少要有一条

User-agent

记录。如果该项的值设

为

*

，

则该协议对任何机器人均有效，

在

文件中，

：

*

这样的记录只能有一条。

Disallow

:

该项的值用于描述不希望被访问到的一个
URL

，

这个

URL

可以是一条完整的路径，

也可以是部分的，

任何以

Disallow

开头的

URL

均不会被

robot

访问到。例如


/help

对

/

和

/help/ind

都不允许搜索引擎访问，而

/help/
则允许

robot

访问

/

，而不能访问

/help/

。

任何一条
 Disallow

记录为空，说明该网站的所有部分都允许被访问，在


文件中，至少要

有一条

D isallow

记录。如果

是一个空文件，则对于所有的搜索引擎

robot

，该网站都是

开放的。

下面是一些

基本的用法：

l

禁止所有搜索引擎访问网站的任何部分：

User-agent:

*

Disallow:

/

l

允许所有的

robot

访问


User-agent:

*

Disallow:

或者也可以建一个空文件

file

l

禁止所有搜索引擎访问网站的几个部分（下例中的

cgi-bi n

、

tmp

、

private

目录）

User- agent:

*

Disallow:

/cgi-bin/

Disallow:

/tmp/

Disallow:

/private/

l

禁止某个搜索引擎的访问（下例中的

BadBot

）


User-agent:

BadBot

Disallow:

/

l

只允许某个搜索引擎的访问（下例中的

WebCrawler

）

User-agent:

WebCrawler

Disallow:

User-agent:

*

Disallow:

/

3

、

常见搜索引擎机器人

Robots

名字

名称

搜索引擎

Baiduspider

Scooter

ia_archiver

Googlebot

Inktomi

Slurp

FAST-WebCrawler

Slurp

MSNBOT

4

、

举例

下面是一些著名站点的

：
 

/

/

/

/

/

5

、

常见

错误

l

颠倒了顺序：

错误写成

User-agent:

*

Disallow:

GoogleBot

正确的应该是：

User- agent:

GoogleBot

Disallow:

*

l

把多个禁止命令放在一行中：

例如，错误地写成

Disallow:

/css/

/cgi-bin/

/images/

正确的应该是

Disallow:

/css/

Disallow:

/cgi-bin/

Disallow:

/images/

l

行前有大量空格

例如写成

Disallow:

/cgi- bin/

尽管在标准没有谈到这个，但是这种方式很容易出问题。

l

404

重定向到另外一个页面：

当

Robot

访问很多没有设置


文件的站点时，会被自动

404
 重定向到另外一个

Html

页面。

这时

Robot

常常会以处理

文件的方式处理这个

Html

页面文件。虽然一般这样没有什么问

题，但是最好能放一个空白的

文件在站点根目录下。

l

采用大写。例如

USER- AGENT:

EX

CITE

DISALLOW:

虽然标准是没有大小写的，但是目录和文件名应该小写：

user-agent:GoogleBot

disallow:

l

语法中只有

Disallow

，没有

Allow

！

错误的写法是：

User- agent:

Baiduspider

Disallow:

/john/

allow:

/jane/

l

忘记了斜杠

/

错误的写做：

User- agent:

Baiduspider

Disallow:

css

正确的应该是

User- agent:

Baiduspider

Disallow:

/css/

下面一个小工具专门检查

文件的有效性：
 

/cgi-bin/

二、

Robots

META

标签

1

、什么是

Robots

META

标签

文件主要是限制整个站点或者目录的搜索引擎访问情况，而

Robots

META

标签则主要是

针对一个个具体的页面。和其他的

META

标签（如使用的语言、页面的描述、关键词等）一样，

Ro

bots

META
 标签也是放在页面的

中，

专门用来告诉搜索引擎

ROBOTS

如何抓取该页

的内容。具体的形式类似（见黑体部分）：

 时代营销 -- 网络营销专业门户 

name=

content=

http-equiv=

CONTENT=

charset=gb2312

name=

conten t=

营销

…

-

-

-

-

-

-

-

-

本文更新与2021-02-09 15:41，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/622118.html

返回列表：英语

上一篇：英语课外阅读详解
下一篇：Error Code发生原因及相关处理方法

当前您在：主页 > 英语 >

屏蔽搜索引擎

-

-

-

-

-

-

-

-

-

返回列表：英语

屏蔽搜索引擎的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

屏蔽搜索引擎的相关文章

当前您在：主页 > 英语 >