关键词不能为空

当前您在: 主页 > 英语 >

第四章 检索式编制

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-19 11:26
tags:

-

2021年2月19日发(作者:tout)


第四章



检索式编制



【知识框架】



?



什么是检索式?



?



指搜索引擎理解和运算的查词串,


由关键词、


逻辑运算符、


搜索指


令(搜索语法)等构成。



?



主要逻辑算符



?



布尔逻辑算符:与或非



?



优先算符



?



邻接算符



?



字段算符



?



截词算符



?



加权算符



?



词组或短语



?



如何构建合理的检索式?



?



常用检索方法与策略【补充教材< /p>


2.4-4


章】




【主要内容】



1


、检索式和运算符



检索式:


用运算符将检索词连接起来构成的能让计算机识别的式子。

< p>


运算符:


又称逻辑算符,


是表达检索词之间逻辑关系和限制关系的运算符号,


它是复合


检索式中必不可缺的构件。




2


、布尔逻辑算符




1


)逻辑






逻辑< /p>





可用



AND





*



表示,检索 词用



AND





*



相 连,含义是检出的记录中


同时含有所有检索词。逻辑





运算符的基本作用是对检索词加以限定,逐 步缩小检索


范围,减少命中文献量,提高检索结果的查准率,适用于不同概念组面之间以 及同一组


面内不同含义的词之间的组配。


2


)逻辑





逻辑





可用



OR







表示,检索词用


< br>OR






相连,含义是检出的记录中,


至少含有检索词中的一个。



逻辑


“< /p>




算符的基本作用是扩大检索范围,增 加命中文献量,防止漏检,提高检索


结果的查全率。适用于同义词或同族概念的组配,如 同义词、近义词等。



3


)逻辑





< p>
逻辑






可用



NOT

< p>






表示,检索词用



NOT< /p>







相连,表示排除



NOT







算符后的词语,检出含有算符前检索词的所有记录。



逻辑





算符的基本作用是缩小检索范围,减少文献输出量的作用,但不一定能 提


高文献命中的准确率。同时应注意在有两个以上运算符的复杂逻辑式中,



NOT



出现次


数不能太多,否则检出结果极少,影响检出效果。




使用布尔检索需要注意问题:





1


)布尔 检索执行顺序:



布尔检索运算执行顺序通常是


NOT



AND


< p>
OR



有括号时,


先执行 括号内的逻辑运算。


有多层括号时,先执行最内层括号中的运算。




2


)绝大部分网络信息检索工具 都支持布尔检索功能,但不同的检索工具之间有差别。



第一, 不同的检索工具表示布尔逻辑关系时使用的符号不同,有的用







︳< /p>





!



分别表示布尔关系的


AND



OR



NOT


,有的用


+



-


分别表示布尔关系的


AND


< br>OR


,有


的则用表格、


文字、< /p>


空格或菜单来体现不同的布尔关系。


使用的时候要注意使用帮助系 统了


解代表某种逻辑关系的符号。



第 二,有的检索工具检索词之间默认关系为


AND


,有的检索工具 检索词之间默认关系



OR




第三,支持布尔逻辑的程度不同,有的完全支持三种运算,如



Infoseek


;有的仅在高级


检索 中完全支持,而简单检索中则部分支持,如



Lycos


;而


Yahoo


则不支持布尔关系

< p>
NOT





3


、优先处理算符


< br>优先处理算符用



()



表示,


含义是优先对


()

内的算符进行逻辑运算,


在实际检索中,


有时要调整逻辑运 算符的运算顺序,使某些算符优先进行逻辑匹配,或者是简化逻辑算式,


在这些情况下, 将使用算符



()


< br>。




4


、邻接算符




邻接算符又称词位置逻辑检索符、全文查找逻辑算符,相邻度 检索算符,原文检索符。



在检索中,会遇到如下一些情况:



某个概念需用词组形式表达;



两个或两个以上的词要紧密相邻;



在 这些情况下,需要用邻接算符限定检索词之间的间隔距离或是词语出现的顺序。



1




W

< p>




W


的含义是



With



,其用法为


A



W< /p>



B


,表示(


W


)前后所连接的


A


< br>B


两个检索词


在检出结果中必须紧密相邻,且词序不能颠 倒。



2




nW




< /p>


W


的含义是



W ord



,n


代表单词个数,用法为< /p>


A



nW



B


,表示


A



B


两词之间允许插


入最多为


n


个的其他词语,插入词可以是实词或系统禁用词,


同 时


A



B


两词 的前后顺序保


持不变。



3





N





N


的含义是



Near



,用法为


A



N


B


,表示在检出结果中


A



B


两词必须紧密相邻,


并允许词序发生颠倒。



4




nN




N


的含义仍是



Near



,用法为


A


nN



B


,表示

< br>A



B


两词之间允许插入最多为


n


个的


其他词语,插入词可以是实词或 系统禁用词,两词的前后顺序可以颠倒。



5

< br>、



X



,这是无间隔有序检索符。检索式为


A(X )B


,表示这个 算符两边的检索词必须完全


一致,并以指定的顺序相邻,中间不允许插入任何单词或字母 。



6



(< /p>


nX




这是有 间隔有序检索符。检索式为


A(nX)B


,表示两个检索词之间 最多可以插入


n


个单元词,两边的检索词必须完全一致。





5


、字段限制




在联机数据库或光盘数据库检索系统中,

都提供字段限制的检索功能,


其作用是检索范


围限定在某一 字段内如题目、作者等。以


DIALOG


检索系统,基本字段限 制为四个:


题目



TI



、叙词(


DE


< p>
、标引词(


ID



、文摘 (


AB





?




8


:检索式


COMPUTER/TI


?



表示在题目中查找含有

< p>
COMPUTER


一词的文献。



除了基本字段以外,


检索系统中的其它字段都可称为辅助字段,


其表达方式与基本字段


有所不同,它是在检索词前面加上字段代码和运算符



=





?




9


:检索式


CS=BEIJING UNIBERSITY


?



表示检索著者单位为北京大学的所有文献。




网络检索的字段限制



?



字段“


s ite



”表示检索应该在一定的站点上进行,



?



url



”表示检索词应该是网址的一部分,



?



< br>title



”表示检索词应在网页标题中出现,



?



< p>
alt



”表示检索词应在图像替代文字中。



?



在搜索引擎


Google


的检索框键入


link:


可以得到所有链接到


Google


主页 的网页。





6


、截词算法




?



截词检 索是利用检索词的词干或不完整的词形查找信息的一种检索方法。



?



用户可以在检索式中用截词符号( 如



*



、< /p>







$$



等等)表示检 索词的某


一部分允许有一定的词形变化,而不必输入完整的检索词。


?



检索时,

< br>检索工具将用户输入的检索式到数据库中进行查找,


凡是与检索式


相匹配的字符,不论其后或其前是什么字符都属命中内容。



?



截词检索可以降低输入次数,简化 检索程序,扩大检索范围,提高查全率。



?



一般情况下,

“?”代表一个字符,而“﹡”表示通配所有字符。




1


)按截断的字符数量划分



?



截词检索可以分为有限截词和无限截词。



?



有限截词,


又称有限截断,


指对词干以外可以出现的字母数量进行限定。


如:


studen??


,截词符



??



表示检索含有


studen



studen


后只跟 有两个字母的检


索词的文献。



?



无限截词,又称无限截断,指对词 干前后出现的字母数量不作限定,一切与


输入的词干相匹配的字符串,

< br>不论词干后或词干前是什么字符串、


有多少字


符串都属于 要检索的信息。




2


)按截断的位置划分



?



截词检索可以分为前截词、后截词、前后截词和中间截词。



?



前截词,又称左截词,前截断



?



允许检索词的前端有一定形式的变 化。


检索时将截词符放在一个字符串的左


方,

< br>表示其右的有限或无限个字符不影响该字符串的检索。


这实际上是一种

< p>
后方一致的检索,对汉语中的复合词组的检索非常方便。



?



后截词,又称右截词,后截断



?



允许检索词的尾部有若干形式的变 化。


检索时将截词符号放在一个字符串的


右方,


凡是有截词符左方所有字符串的文献都符合检索要求。


这实际上是一

< p>
种前方一致的检索。



?



目前大多数网络检索工具都支持截词检索,


但与联机和光盘数据 库检索系统


的截词功能相比仍存在一定距离,


数据库支持全部截 词功能,


而在网络检索


工具中,较多支持右截词,部分支持中间 截词,左截词较少。






7


、词组或短语检索




?



词组或短语检索是一般数据库中最常用的方法。



?



在网络信息检索工具中,如在检索 框中输入两个或两个以上的检索词,这两个检索


词之间又不加任何符号,


那么检索工具会将这两个检索词之间的关系设为默认值


(



的默认值为


AND



有的默认值为


OR)



如要 将这两个或多个检索词作为一个词组或


短语进行检索,中间不允许插入任何字符,就必须 使用一定的符号来表明这是词组


或短语,最常用的符号是双引号“”或括号(

< p>







8


、加权检索



?



加权检索的基本方法是:



?



在每个检索词后面给定一个数值, 表示其重要性程度,这个数值称为权值。



?



通过加权明确了各检索词的重要程 度,


使检索更有针对性,


并且能依据权值


的大小,对命中记录的重要性进行排序。



?



检索时,


先查找这些检索词在数据库记录中是否存在,


然后计算存在的检索


词的权值之和。



?



只有当数据库记录的权值之和达到或超过预先给定的阈值时,


该记录才算命< /p>


中。



?



最先支持加权检索的网络信息检索工具是


Excite


,它用符号“∧”表示给某个检索


词指定了权值。现在大多数网络信息检索工 具采用“


+





-


”来表示检索词在检索


提问中的 分量。




9


、构造检索提问式




?



在检索中,有两个最为关键的步骤,



?



一是概括检索提问,选择精确的检索词;



?



二是正确构造检索提问式,达到检出目的。



(一)灵活运用各种运算符号



要考虑 检索提问中的关键词是否有同义词、


近义词,


以及词形的各种变 化,


灵活运用各


种运算符号,如逻辑“或”算符、截词符号、邻 接算符等,扩大词语的检索范围,降低漏检


的可能性,提高检出效果。

< br>


(二)准确构造检索式



?



构造步骤:



?



1


、分析 检索词之间的逻辑关系,形成



子逻辑式




?



2


、根据检索提问中涉及的主要主题概念,构造检索提问式



?



3


、尽量 选专指词、特定概念或专业术语作关键词,避免普通词和太泛指的


词语。



?



4


、用双引号提高查找精度。



?



5


、用截 词符扩检。对于英语,有不同的单复数形式和时态变换,可使用截


词符号扩大检索范围, 但有些搜索引擎不支持该功能,如


Google




?



6

< br>、


使用邻接算符可以提高检索的准确性和灵活性,


例如,


Lycos



adj

< br>、


near



far

< p>


before


来限定词与词之间的关系




?



7



利用符号


< p>
+





-




在关键词前加上不同的 算符,


可表示词的重要程度,


大部分搜索引擎在关键词前使用符 号


+


,表示结果中一定含有该词,如输入


+CIA


,则返回的每篇文章中都含有


CIA


(即中央情报局)


;与之相反的是在


词前加

< p>
-


,表示检索结果一定不含该词




(三)制定合理的检索式



【构造原则】



1

、使用搜索引擎检索之前,应首先阅读搜索指南或帮助,熟悉搜索规则以及运算符号


的含义。



2


、引擎一般提供简单检索 和高级检索,在高级检索中,大多数都支持布尔逻辑检索。


准确使用布尔逻辑检索可提高 信息检索效果。一般同义词或近义词之间用



OR



连接,可避


免漏检;当信息需求包含几个不同组面 的概念时,一般用



AND



连接,可精确查出所需内


容;当不需要检出某些关键词时,用

< p>


NOT



< p>


3


、许多搜索引擎还提供了限定字段、限定网页 深度(即网页层次)


、限定日期、限定地


区或域名等限定检索的 功能,


这些检索功能可以缩小检索范围,


减少无关信息的输出,


提高


检索精确度。




(四)修改检索策略




要想达到搜索目的,


正确的方法是从 第一次搜索结果中不断进行修正,


可以尝试着使用


其它含义相近 的关键词,或者在原关键词前添加各种符号如“


+


< p>



-



,修改检索式(即布


尔逻辑式)


等等,还可以换其它搜 索引擎再进行搜索,这样重复多次以后,


就能搜索到满意


的结果 。







补充:教材第二章



信息检索的基本知识



1.


常用检索方法


-


-


-


-


-


-


-


-



本文更新与2021-02-19 11:26,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/667277.html

第四章 检索式编制的相关文章