关键词不能为空

当前您在: 主页 > 英语 >

屏蔽搜索引擎

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-09 15:41
tags:

-

2021年2月9日发(作者:soma)


我们知道,搜索引擎都有自己的



搜索机器人< /p>




ROBOTS


),并通过这些


ROBOTS


在网络上沿着网


页上的链接(一般是


http



src


链接)不断抓取资料建立自己的数据库。





对于网站管理者和内容提供者来说 ,有时候会有一些站点内容,不希望被


ROBOTS


抓取而公开 。为


了解决这个问题,


ROBOTS


开 发界提供了两个办法:一个是



,另一个是


The


Robots


ME


TA< /p>


标签。






一、






1




什么是








是一个纯 文本文件,通过在这个文件中声明该网站中不想被


robots


访问的部分,这样,该


网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索 引擎只收录指定的内容。





当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在


,如果找到,


搜索机器人就会按照该文件中的内容来确定访 问的范围,


如果该文件不存在,


那么搜索机器人就沿着


链接抓取。






必须放置在一个站点的根目录下,而且文件名必须全部小写。




网站



URL


相应的






URL



/



/




:80/



:80/




:1234/



:1234/




/



/




2





的语法






文件包含一条或更多的记录,


这些记录通过空行分开


(以


CR,CR/NL ,


or


NL


作为结束符)



每一条记录的格式如下所示:













在该文件中可以使用


#


进行注解,具体使用方法和


UNIX


中的惯例一样。该文件中的记录通常以一行


或多行


U ser-agent


开始,后面加上若干


Disallow



,


详细情况如下:





User-agent:





该项的 值用于描述搜索引擎


robot


的名字,




文件中,


如果有多条


User-agent


记录说明有


多个


robot


会受到该协议的限制,对该文件来说,至少要有一条


User-agent


记录。如果该项的值设



*



则该协议对任何机器人均有效,




文件中,





*


这样的记录只能 有一条。





Disallow


:




该项的值用于描述不希望被访问到的一个

URL



这个


URL


可以是一条完整的路径,


也可以是部分的,


任何以< /p>


Disallow


开头的


URL


均不会被


robot


访问到。例如

< p>


/help



/



/help/ind



都不允许搜索引擎访问,而



/help/

则允许


robot


访问


/


,而不能访问


/help/





任何一条

< br>Disallow


记录为空,说明该网站的所有部分都允许被访问,在

< p>


文件中,至少要


有一条


D isallow


记录。如果




是一个空文件,则对于所有的搜索引擎


robot


,该网站都是


开放的。






下面是一些



基本的用法:




l





禁止所有搜索引擎访问网站的任何部分:



User-agent:


*


Disallow:


/



l





允许所有的


robot


访问

< p>


User-agent:


*


Disallow:


或者也可以建一个空文件




file



l





禁止所有搜索引擎访问网站的几个部分(下例中的


cgi-bi n



tmp



private


目录)



User- agent:


*


Disallow:


/cgi-bin/


Disallow:


/tmp/


Disallow:


/private/



l





禁止某个搜索引擎的访问(下例中的


BadBot


< p>


User-agent:


BadBot


Disallow:


/



l





只允许某个搜索引擎的访问(下例中的


WebCrawler< /p>




User-agent:


WebCrawler


Disallow:



User-agent:


*


Disallow:


/




3




常见搜索引擎机器人


Robots


名字





名称










搜索引擎




Baiduspider








Scooter










ia_archiver








Googlebot









Inktomi


Slurp







FAST-WebCrawler







Slurp










MSNBOT











4





举例




下面是一些著名站点的



< br>



/




/




/




/





/





5




常见



错误





l





颠倒了顺序:



错误写成



User-agent:


*


Disallow:


GoogleBot



正确的应该是:



User- agent:


GoogleBot


Disallow:


*



l





把多个禁止命令放在一行中:



例如,错误地写成



Disallow:


/css/


/cgi-bin/


/images/



正确的应该是



Disallow:


/css/



Disallow:


/cgi-bin/



Disallow:


/images/



l





行前有大量空格



例如写成





Disallow:


/cgi- bin/


尽管在标准没有谈到这个,但是这种方式很容易出问题。




l





404


重定向到另外一个页面:




Robot


访问很多没有设置

< p>


文件的站点时,会被自动


404

< br>重定向到另外一个


Html


页面。


这时


Robot


常常会以处理



文件的方式处理这个


Html


页面文件。虽然 一般这样没有什么问


题,但是最好能放一个空白的



文件在站点根目录下。




l





采用大写。例如



USER- AGENT:


EX


CITE


DISALLOW:



虽然标准是没有大小写的,但是目录和文件名应该小写:



user-agent:GoogleBot


disallow:




l





语法中只有


Disallow


,没有< /p>


Allow




错误的写法是:



User- agent:


Baiduspider





Disallow:


/john/


allow:


/jane/



l





忘记了斜杠


/


错误的写做:



User- agent:


Baiduspider





Disallow:


css



正确的应该是



User- agent:


Baiduspider





Disallow:


/css/



下面一个小工具专门检查



文件的有效性:

< br>



/cgi-bin/




二、






Robots


META


标签





1


、什么是


Robots


META


标签






文件主要 是限制整个站点或者目录的搜索引擎访问情况,而


Robots


META


标签则主要是


针对一个个具体的页面。和其他的


META


标签(如使用的语言、页面的描述、关键词等)一样,


Ro


bots


META

< br>标签也是放在页面的



中,< /p>


专门用来告诉搜索引擎


ROBOTS


如何 抓取该页


的内容。具体的形式类似(见黑体部分):








< br></p><p><br>时代营销</p><p><br>--</p><p><br>网 络营销专业门户</p><p><br>




name=


content=




http-equiv=


CONTENT=


charset=gb2312




name=


conten t=


营销




-


-


-


-


-


-


-


-



本文更新与2021-02-09 15:41,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/622118.html

屏蔽搜索引擎的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文