关键词不能为空

当前您在: 主页 > 英语 >

屏蔽搜索引擎

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-09 15:41
tags:

-

2021年2月9日发(作者:soma)


我们知道,搜索引擎都有自己的



搜索机器人< /p>




ROBOTS


),并通过这些


ROBOTS


在网络上沿着网


页上的链接(一般是


http



src


链接)不断抓取资料建立自己的数据库。





对于网站管理者和内容提供者来说 ,有时候会有一些站点内容,不希望被


ROBOTS


抓取而公开 。为


了解决这个问题,


ROBOTS


开 发界提供了两个办法:一个是



,另一个是


The


Robots


ME


TA< /p>


标签。






一、






1




什么是








是一个纯 文本文件,通过在这个文件中声明该网站中不想被


robots


访问的部分,这样,该


网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索 引擎只收录指定的内容。





当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在


,如果找到,


搜索机器人就会按照该文件中的内容来确定访 问的范围,


如果该文件不存在,


那么搜索机器人就沿着


链接抓取。






必须放置在一个站点的根目录下,而且文件名必须全部小写。




网站



URL


相应的






URL



/



/




:80/



:80/




:1234/



:1234/




/



/




2





的语法






文件包含一条或更多的记录,


这些记录通过空行分开


(以


CR,CR/NL ,


or


NL


作为结束符)



每一条记录的格式如下所示:













在该文件中可以使用


#


进行注解,具体使用方法和


UNIX


中的惯例一样。该文件中的记录通常以一行


或多行


U ser-agent


开始,后面加上若干


Disallow



,


详细情况如下:





User-agent:





该项的 值用于描述搜索引擎


robot


的名字,




文件中,


如果有多条


User-agent


记录说明有


多个


robot


会受到该协议的限制,对该文件来说,至少要有一条


User-agent


记录。如果该项的值设



*



则该协议对任何机器人均有效,




文件中,





*


这样的记录只能 有一条。





Disallow


:




该项的值用于描述不希望被访问到的一个

URL



这个


URL


可以是一条完整的路径,


也可以是部分的,


任何以< /p>


Disallow


开头的


URL


均不会被


robot


访问到。例如

< p>


/help



/



/help/ind



都不允许搜索引擎访问,而



/help/

则允许


robot


访问


/


,而不能访问


/help/





任何一条

< br>Disallow


记录为空,说明该网站的所有部分都允许被访问,在

< p>


文件中,至少要


有一条


D isallow


记录。如果




是一个空文件,则对于所有的搜索引擎


robot


,该网站都是


开放的。






下面是一些



基本的用法:




l





禁止所有搜索引擎访问网站的任何部分:



User-agent:


*


Disallow:


/



l





允许所有的


robot


访问

< p>


User-agent:


*


Disallow:


或者也可以建一个空文件




file



l





禁止所有搜索引擎访问网站的几个部分(下例中的


cgi-bi n



tmp



private


目录)



User- agent:


*


Disallow:


/cgi-bin/


Disallow:


/tmp/


Disallow:


/private/



l





禁止某个搜索引擎的访问(下例中的


BadBot


< p>


User-agent:


BadBot


Disallow:


/



l





只允许某个搜索引擎的访问(下例中的


WebCrawler< /p>




User-agent:


WebCrawler


Disallow:



User-agent:


*


Disallow:


/




3




常见搜索引擎机器人


Robots


名字





名称










搜索引擎




Baiduspider








Scooter










ia_archiver








Googlebot









Inktomi


Slurp







FAST-WebCrawler







Slurp










MSNBOT











4





举例




下面是一些著名站点的



< br>



/




/




/




/





/





5




常见



错误





l





颠倒了顺序:



错误写成



User-agent:


*


Disallow:


GoogleBot



正确的应该是:



User- agent:


GoogleBot


Disallow:


*



l





把多个禁止命令放在一行中:



例如,错误地写成



Disallow:


/css/


/cgi-bin/


/images/



正确的应该是



Disallow:


/css/



Disallow:


/cgi-bin/



Disallow:


/images/



l





行前有大量空格



例如写成





Disallow:


/cgi- bin/


尽管在标准没有谈到这个,但是这种方式很容易出问题。




l





404


重定向到另外一个页面:




Robot


访问很多没有设置

< p>


文件的站点时,会被自动


404

< br>重定向到另外一个


Html


页面。


这时


Robot


常常会以处理



文件的方式处理这个


Html


页面文件。虽然 一般这样没有什么问


题,但是最好能放一个空白的



文件在站点根目录下。




l





采用大写。例如



USER- AGENT:


EX


CITE


DISALLOW:



虽然标准是没有大小写的,但是目录和文件名应该小写:



user-agent:GoogleBot


disallow:




l





语法中只有


Disallow


,没有< /p>


Allow




错误的写法是:



User- agent:


Baiduspider





Disallow:


/john/


allow:


/jane/



l





忘记了斜杠


/


错误的写做:



User- agent:


Baiduspider





Disallow:


css



正确的应该是



User- agent:


Baiduspider





Disallow:


/css/



下面一个小工具专门检查



文件的有效性:

< br>



/cgi-bin/




二、






Robots


META


标签





1


、什么是


Robots


META


标签






文件主要 是限制整个站点或者目录的搜索引擎访问情况,而


Robots


META


标签则主要是


针对一个个具体的页面。和其他的


META


标签(如使用的语言、页面的描述、关键词等)一样,


Ro


bots


META

< br>标签也是放在页面的



中,< /p>


专门用来告诉搜索引擎


ROBOTS


如何 抓取该页


的内容。具体的形式类似(见黑体部分):








< br></p><p><br>时代营销</p><p><br>--</p><p><br>网 络营销专业门户</p><p><br>




name=


content=




http-equiv=


CONTENT=


charset=gb2312




name=


conten t=


营销




-


-


-


-


-


-


-


-



本文更新与2021-02-09 15:41,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/622118.html

屏蔽搜索引擎的相关文章

  • 余华爱情经典语录,余华爱情句子

    余华的经典语录——余华《第七天》40、我不怕死,一点都不怕,只怕再也不能看见你——余华《第七天》4可是我再也没遇到一个像福贵这样令我难忘的人了,对自己的经历如此清楚,

    语文
  • 心情低落的图片压抑,心情低落的图片发朋友圈

    心情压抑的图片(心太累没人理解的说说带图片)1、有时候很想找个人倾诉一下,却又不知从何说起,最终是什么也不说,只想快点睡过去,告诉自己,明天就好了。有时候,突然会觉得

    语文
  • 经典古训100句图片大全,古训名言警句

    古代经典励志名言100句译:好的药物味苦但对治病有利;忠言劝诫的话听起来不顺耳却对人的行为有利。3良言一句三冬暖,恶语伤人六月寒。喷泉的高度不会超过它的源头;一个人的事

    语文
  • 关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

    鲁迅名言名句大全励志1、世上本没有路,走的人多了自然便成了路。下面是我整理的鲁迅先生的名言名句大全,希望对你有所帮助!当生存时,还是将遭践踏,将遭删刈,直至于死亡而

    语文
  • 三国群英单机版手游礼包码,三国群英手机单机版攻略

    三国群英传7五神兽洞有什么用那是多一个武将技能。青龙飞升召唤出东方的守护兽,神兽之一的青龙。玄武怒流召唤出北方的守护兽,神兽之一的玄武。白虎傲啸召唤出西方的守护兽,

    语文
  • 不收费的情感挽回专家电话,情感挽回免费咨询

    免费的情感挽回机构(揭秘情感挽回机构骗局)1、牛牛(化名)向上海市公安局金山分局报案,称自己为了挽回与女友的感情,被一家名为“实花教育咨询”的情感咨询机构诈骗4万余元。

    语文