-
第四章
检索式编制
【知识框架】
?
什么是检索式?
?
指搜索引擎理解和运算的查词串,
由关键词、
逻辑运算符、
搜索指
令(搜索语法)等构成。
?
主要逻辑算符
?
布尔逻辑算符:与或非
?
优先算符
?
邻接算符
?
字段算符
?
截词算符
?
加权算符
?
词组或短语
?
如何构建合理的检索式?
?
常用检索方法与策略【补充教材<
/p>
2.4-4
章】
【主要内容】
1
、检索式和运算符
检索式:
用运算符将检索词连接起来构成的能让计算机识别的式子。
运算符:
又称逻辑算符,
是表达检索词之间逻辑关系和限制关系的运算符号,
它是复合
检索式中必不可缺的构件。
2
、布尔逻辑算符
1
)逻辑
“
与
”
逻辑<
/p>
“
与
”
可用
p>
“
AND
”
或
p>
“
*
”
表示,检索
词用
“
AND
”
或
“
*
”
相
连,含义是检出的记录中
同时含有所有检索词。逻辑
“
与
”
运算符的基本作用是对检索词加以限定,逐
步缩小检索
范围,减少命中文献量,提高检索结果的查准率,适用于不同概念组面之间以
及同一组
面内不同含义的词之间的组配。
2
)逻辑
“
或
”
逻辑
“
或
”
可用
“
OR
”
或
“
+
”
表示,检索词用
“
< br>OR
”
或
“
+
”
相连,含义是检出的记录中,
至少含有检索词中的一个。
逻辑
“<
/p>
或
”
算符的基本作用是扩大检索范围,增
加命中文献量,防止漏检,提高检索
结果的查全率。适用于同义词或同族概念的组配,如
同义词、近义词等。
3
)逻辑
“
非
”
逻辑
“
非
”
可用
“
NOT
”
或
“
-
”
表示,检索词用
“
NOT<
/p>
”
或
“
-
”
相连,表示排除
“
NOT
”
或
“
-
”
算符后的词语,检出含有算符前检索词的所有记录。
逻辑
“
非
”
算符的基本作用是缩小检索范围,减少文献输出量的作用,但不一定能
提
高文献命中的准确率。同时应注意在有两个以上运算符的复杂逻辑式中,
“
NOT
”
出现次
数不能太多,否则检出结果极少,影响检出效果。
使用布尔检索需要注意问题:
(
1
)布尔
检索执行顺序:
布尔检索运算执行顺序通常是
NOT
、
AND
、
OR
。
有括号时,
先执行
括号内的逻辑运算。
有多层括号时,先执行最内层括号中的运算。
(
2
)绝大部分网络信息检索工具
都支持布尔检索功能,但不同的检索工具之间有差别。
第一,
不同的检索工具表示布尔逻辑关系时使用的符号不同,有的用
“
&
”
、
“
︳<
/p>
”
和
“
!
”
分别表示布尔关系的
AND
、
OR
和
NOT
,有的用
+
、
-
分别表示布尔关系的
AND
、
< br>OR
,有
的则用表格、
文字、<
/p>
空格或菜单来体现不同的布尔关系。
使用的时候要注意使用帮助系
统了
解代表某种逻辑关系的符号。
第
二,有的检索工具检索词之间默认关系为
AND
,有的检索工具
检索词之间默认关系
为
OR
。
第三,支持布尔逻辑的程度不同,有的完全支持三种运算,如
Infoseek
;有的仅在高级
检索
中完全支持,而简单检索中则部分支持,如
Lycos
;而
Yahoo
则不支持布尔关系
NOT
。
3
、优先处理算符
< br>优先处理算符用
“
()
”
表示,
含义是优先对
()
内的算符进行逻辑运算,
在实际检索中,
有时要调整逻辑运
算符的运算顺序,使某些算符优先进行逻辑匹配,或者是简化逻辑算式,
在这些情况下,
将使用算符
“
()
”
< br>。
4
、邻接算符
邻接算符又称词位置逻辑检索符、全文查找逻辑算符,相邻度
检索算符,原文检索符。
在检索中,会遇到如下一些情况:
某个概念需用词组形式表达;
两个或两个以上的词要紧密相邻;
在
这些情况下,需要用邻接算符限定检索词之间的间隔距离或是词语出现的顺序。
1
)
(
W
)
W
的含义是
“
With
”
,其用法为
A
(
W<
/p>
)
B
,表示(
W
)前后所连接的
A
、
< br>B
两个检索词
在检出结果中必须紧密相邻,且词序不能颠
倒。
2
)
(
nW
)
<
/p>
W
的含义是
“
W
ord
”
,n
代表单词个数,用法为<
/p>
A
(
nW
)
p>
B
,表示
A
、
p>
B
两词之间允许插
入最多为
n
个的其他词语,插入词可以是实词或系统禁用词,
同
时
A
、
B
两词
的前后顺序保
持不变。
3
)
(
N
)
N
的含义是
“
Near
”
,用法为
A
(
N
)
B
,表示在检出结果中
A
、
B
两词必须紧密相邻,
并允许词序发生颠倒。
4
)
(
p>
nN
)
N
的含义仍是
“
Near
”
,用法为
A
(
nN
)
B
,表示
< br>A
、
B
两词之间允许插入最多为
n
个的
其他词语,插入词可以是实词或
系统禁用词,两词的前后顺序可以颠倒。
5
< br>、
(
X
)
,这是无间隔有序检索符。检索式为
A(X )B
,表示这个
算符两边的检索词必须完全
一致,并以指定的顺序相邻,中间不允许插入任何单词或字母
。
6
、
(<
/p>
nX
)
,
这是有
间隔有序检索符。检索式为
A(nX)B
,表示两个检索词之间
最多可以插入
n
个单元词,两边的检索词必须完全一致。
5
、字段限制
在联机数据库或光盘数据库检索系统中,
都提供字段限制的检索功能,
其作用是检索范
围限定在某一
字段内如题目、作者等。以
DIALOG
检索系统,基本字段限
制为四个:
题目
(
TI
)
、叙词(
DE
)
、标引词(
ID
)
、文摘
(
AB
)
。
?
例
8
p>
:检索式
COMPUTER/TI
?
表示在题目中查找含有
COMPUTER
一词的文献。
除了基本字段以外,
检索系统中的其它字段都可称为辅助字段,
其表达方式与基本字段
有所不同,它是在检索词前面加上字段代码和运算符
p>
“
=
”
,
?
例
9
:检索式
CS=BEIJING
UNIBERSITY
?
表示检索著者单位为北京大学的所有文献。
网络检索的字段限制
?
字段“
s
ite
:
”表示检索应该在一定的站点上进行,
?
“
url
:
”表示检索词应该是网址的一部分,
?
“
< br>title
:
”表示检索词应在网页标题中出现,
?
“
alt
:
”表示检索词应在图像替代文字中。
p>
?
在搜索引擎
Google
的检索框键入
link:
可以得到所有链接到
Google
主页
的网页。
6
、截词算法
?
截词检
索是利用检索词的词干或不完整的词形查找信息的一种检索方法。
?
用户可以在检索式中用截词符号(
如
“
*
”
、<
/p>
“
?
”
或
“
$$
”
等等)表示检
索词的某
一部分允许有一定的词形变化,而不必输入完整的检索词。
?
检索时,
< br>检索工具将用户输入的检索式到数据库中进行查找,
凡是与检索式
相匹配的字符,不论其后或其前是什么字符都属命中内容。
?
截词检索可以降低输入次数,简化
检索程序,扩大检索范围,提高查全率。
?
一般情况下,
“?”代表一个字符,而“﹡”表示通配所有字符。
1
)按截断的字符数量划分
?
截词检索可以分为有限截词和无限截词。
?
有限截词,
又称有限截断,
指对词干以外可以出现的字母数量进行限定。
如:
studen??
,截词符
“
p>
??
”
表示检索含有
studen
和
studen
后只跟
有两个字母的检
索词的文献。
?
无限截词,又称无限截断,指对词
干前后出现的字母数量不作限定,一切与
输入的词干相匹配的字符串,
< br>不论词干后或词干前是什么字符串、
有多少字
符串都属于
要检索的信息。
2
)按截断的位置划分
?
截词检索可以分为前截词、后截词、前后截词和中间截词。
?
前截词,又称左截词,前截断
?
允许检索词的前端有一定形式的变
化。
检索时将截词符放在一个字符串的左
方,
< br>表示其右的有限或无限个字符不影响该字符串的检索。
这实际上是一种
后方一致的检索,对汉语中的复合词组的检索非常方便。
?
后截词,又称右截词,后截断
?
允许检索词的尾部有若干形式的变
化。
检索时将截词符号放在一个字符串的
右方,
凡是有截词符左方所有字符串的文献都符合检索要求。
这实际上是一
种前方一致的检索。
?
目前大多数网络检索工具都支持截词检索,
但与联机和光盘数据
库检索系统
的截词功能相比仍存在一定距离,
数据库支持全部截
词功能,
而在网络检索
工具中,较多支持右截词,部分支持中间
截词,左截词较少。
7
、词组或短语检索
?
词组或短语检索是一般数据库中最常用的方法。
?
在网络信息检索工具中,如在检索
框中输入两个或两个以上的检索词,这两个检索
词之间又不加任何符号,
那么检索工具会将这两个检索词之间的关系设为默认值
(
有
的默认值为
AND
,
有的默认值为
OR)
。
如要
将这两个或多个检索词作为一个词组或
短语进行检索,中间不允许插入任何字符,就必须
使用一定的符号来表明这是词组
或短语,最常用的符号是双引号“”或括号(
)
。
8
、加权检索
?
加权检索的基本方法是:
?
在每个检索词后面给定一个数值,
表示其重要性程度,这个数值称为权值。
?
通过加权明确了各检索词的重要程
度,
使检索更有针对性,
并且能依据权值
的大小,对命中记录的重要性进行排序。
?
检索时,
先查找这些检索词在数据库记录中是否存在,
然后计算存在的检索
词的权值之和。
?
只有当数据库记录的权值之和达到或超过预先给定的阈值时,
该记录才算命<
/p>
中。
?
p>
最先支持加权检索的网络信息检索工具是
Excite
,它用符号“∧”表示给某个检索
词指定了权值。现在大多数网络信息检索工
具采用“
+
”
、
“
-
”来表示检索词在检索
提问中的
分量。
9
、构造检索提问式
?
在检索中,有两个最为关键的步骤,
?
一是概括检索提问,选择精确的检索词;
?
二是正确构造检索提问式,达到检出目的。
(一)灵活运用各种运算符号
要考虑
检索提问中的关键词是否有同义词、
近义词,
以及词形的各种变
化,
灵活运用各
种运算符号,如逻辑“或”算符、截词符号、邻
接算符等,扩大词语的检索范围,降低漏检
的可能性,提高检出效果。
< br>
(二)准确构造检索式
?
构造步骤:
?
1
、分析
检索词之间的逻辑关系,形成
“
子逻辑式
”
?
2
、根据检索提问中涉及的主要主题概念,构造检索提问式
?
3
、尽量
选专指词、特定概念或专业术语作关键词,避免普通词和太泛指的
词语。
?
4
、用双引号提高查找精度。
?
5
、用截
词符扩检。对于英语,有不同的单复数形式和时态变换,可使用截
词符号扩大检索范围,
但有些搜索引擎不支持该功能,如
Google
。
?
6
< br>、
使用邻接算符可以提高检索的准确性和灵活性,
例如,
Lycos
用
adj
< br>、
near
、
far
或
before
来限定词与词之间的关系
?
7
、
利用符号
“
+
”
、
“
-
”
。
在关键词前加上不同的
算符,
可表示词的重要程度,
大部分搜索引擎在关键词前使用符
号
+
,表示结果中一定含有该词,如输入
+CIA
,则返回的每篇文章中都含有
CIA
(即中央情报局)
;与之相反的是在
词前加
-
,表示检索结果一定不含该词
(三)制定合理的检索式
【构造原则】
1
、使用搜索引擎检索之前,应首先阅读搜索指南或帮助,熟悉搜索规则以及运算符号
的含义。
2
、引擎一般提供简单检索
和高级检索,在高级检索中,大多数都支持布尔逻辑检索。
准确使用布尔逻辑检索可提高
信息检索效果。一般同义词或近义词之间用
“
OR
”
连接,可避
免漏检;当信息需求包含几个不同组面
的概念时,一般用
“
AND
”
连接,可精确查出所需内
容;当不需要检出某些关键词时,用
“
NOT
”
。
3
、许多搜索引擎还提供了限定字段、限定网页
深度(即网页层次)
、限定日期、限定地
区或域名等限定检索的
功能,
这些检索功能可以缩小检索范围,
减少无关信息的输出,
提高
检索精确度。
(四)修改检索策略
要想达到搜索目的,
正确的方法是从
第一次搜索结果中不断进行修正,
可以尝试着使用
其它含义相近
的关键词,或者在原关键词前添加各种符号如“
+
”
、
“
-
”
,修改检索式(即布
尔逻辑式)
等等,还可以换其它搜
索引擎再进行搜索,这样重复多次以后,
就能搜索到满意
的结果
。
补充:教材第二章
信息检索的基本知识
1.
常用检索方法
-
-
-
-
-
-
-
-
-
上一篇:江苏开放大学英语(A)第一次形考作业
下一篇:如何制定销售人员绩效考核制度