-
统计语言模型
主要内容
概述
数学建模
?
一
.
统计语言模型概述
?
二
.
现有的主要统计语言
模型
?
三
.
数据平滑方法
概述
我们为什么需要统计语言模型?
统计语言模型出现的历史:
1
、
从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正
式列入大会主题的
是
1990
年在赫尔
辛基举行的第
13
届国际计算语言学大会(
Coling
’
90
)。
2
、
1
992
年在蒙特利尔召开的第
4
届机器翻译的理论和方法国际会议
(TMI-92)
p>
宣布大会的主
题是:
“
机器翻译中的经验主义和理性主义方法
”
。公开承认,在传
统的基于语言学和人
工智能方法的自然语言处理技术以外,还有一种基于语料库和统计语
言模型的新方法正
在迅速崛起。
概述
首先成功利用数学方法解决自然语言处理问题的是语音和语言
处理大师贾里尼克
(Fred
Jelinek)
。当时贾里尼克在
IBM
公司做学术休假
(Sabbatical Leave)
,领导了一批
杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出
的。十几年后,李开复用统计语言模型把
997
词语音识别的问题简化成了一个
20
词
的识别问题,实现了有史以来第一次大词汇量非特定人连续语
音的识别。
概述
< br>?
历史上曾经先后出现过两个方法迥异的英语词性标注系统:
TAGGIT
系统拥有
3000
条
上下
文相关规则,
而
CLAWS
系统
[6]
完全采
用概率统计方法。
两个系统各自完成了
100
< br>万词次的
英语语料库的自动词性标注任务。评则结果表明,采用概率统计方法的<
/p>
CLAWS
系统的标注
精度达到
96%
,比
TAGGIT
系统提高了近
20
个百分点。
语言建模
?
从统计角度看,自然语言中的一个句子
s
可以
由任何词串构成。不过
P
(
s
)
有大有小。如:<
/p>
s
1=
我刚吃过晚饭
s
2=
刚我过晚饭吃
(
并不要求语法是完备的
,
可对任意
s
给出概率
)
P
(
s
1)
>
P
(
s
2)
?
对于给定的句子
s
< br>而言,通常
P
(
s
)
是未知的。
?
对于一个服从某个未知概率分布
P
的语言
L
,
根据给定的语言样本估计
P
的过程被称作语言建模。
语言建模
?
根据语言样本估计出的概率分布
P
就称为语言
< br>L
的语言模
型。
?<
/p>
语言建模技术首先在语音识别研究中提出,后来陆续用
到
p>
OCR
、手写体识别、机器翻译、信息检索等领域。
?
在语音识别中,如果识别结果有多个,则可以根据
语言
模型计算每个识别结果的可能性,然后挑选一个可能性
较大的识别结果。
?
汉语切分歧义消解?(借助语言模型)
一、统计语言模型概述
w
i-2
w
i-1
,便可以
用条件
概率
P(w
i
< br>|w
i-2
w
i-1
)
来预测
w
i
出现的概率。这就是统计语言模型的概念。
?<
/p>
设
w
i
是文本中
的任意一个词,如果已知它在该文本中的前两个词
一、统计语言模型概述
一、现有的主要统计语言模型
1
p>
、
n
-gram
1
、
n
-gram
the large green ______
.
”
“
moun
tain
”
?
“
tree
”
?
?
“
Sue swallowed
the large green ______ .
”
“
pill
”
? <
/p>
“
broccoli
”
< br>?
?
如果知道
“
Sue
swallowed
”
会缩小可选择的下一个词的范围。
如何选择
n
?
?
“
1
p>
、
n
-gram
?
n
较大时
提供了更多的语境信息,语境更具区别性
但是,参数个数多、计算代价大、训
练语料需要多、参数估计不可靠。
?
n
较小时
语境信息少,不具区别性
但是,参数个数少、计算代价小、训
练语料无需太多、参数估计可靠。
1
、
n-gram
语言模型
?
一般来说,如果用
变量
s
代表文本中一个任意的词序列,它由顺序排列的
L
个词组成,即
s=w
1
w
2
...w
L
,则统计语言模型就是该词序列
s
在文本中出现的概率
P(s)
?
利用
概率的乘积公式,
P(s)
可展开为:
?
统计语言模型有点像天气预报中使
用的概率方法,
用来估计概率参数的大规模语料
库好比是一个地
区历年积累起来的气象记录。而用三元模型来做天气预报,就好比
是根据前两天的天气情
况来预测今天的天气。天气预报当然不可能百分之百准确,
但是我们大概不会因此就全盘
否定这种实用的概率方法
.
?
三元模
型(或一般的
N
元模型)只利用了语言的表层信息(或知识),
即符号(字、
词、词性标记等)序列的同现信息。不能说它是十全十美的。在这一领域中
,下一
个研究目标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语
言理解是了不起的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事
实。
问题是目前国内外还没有哪一种语言的句法
-
语义分析系统可以胜任大规模真实
文本处理的重任。因此,
对于世界各国的语言来说,当前的主流技术仍是语料库方
法和统计语言模型。
1
、
n-gram
语言模型
?
计算量:
p>
设词表里共有
V
个不同的词,
共有
个不同的
N-1
元组,
对于每个分布,
又必须估
算
V
个参数,
因此共需估算出
p>
个参数。
若
V=10000,N=3,
p>
则必须计算出
10
12
个参数。
因此
N
不能取得太大,一
般取
2
或
3
。
1
、
n
p>
-gram
?
unigram
(
<
/p>
p
(
w
i
)
若语言中有
20000
< br>个词,则需要估计
20000
个参数
?
bigram
(
n
=2)
p
(
p>
w
i
|
w
i-
1
)
若语言中有
20000
个词,则需要估计
2000
0
2
个参数
?
trigram
(
n
=3)
p
(
p>
w
i
|
w
i-
2
w
i-
1
)
若语言中有
20
000
个词,则需要估计
20000
3
个参数
?
four-
gram(
n
=4)
很少使用、不太
现实
(
有时也称为
digram
或
quadrigram)
n
=1)
1
、
n-gram
语言模型
二元、三元及
n
元模型的公式表示:
?
tri-gram:
如
果任意一个词
w
i
的出现概率只同它前
面的两个词有关,问题就可以得到极大的
简化。这时的语言模型叫做三元模型
1.n-gram
语言模型
1
、
n-gram
语言
模型举例
?
两个概念:
training data
)
:用于
建立模型的给定语料。
?
最大似然估计
(
maximum
likelihood
,
ML)
:用相对频率
?
训练语料
(
计算概率的公式。
?
例如,给定训练语料:
“
John read
Moby Dick
”
,
“
Mary read a different
book
”
,
“
She read a book by
Cher
”
求
”
John read a boo
k
”
的
二元文法的概率
.
1
、
< br>n-gram
语言模型举例
1
、
n-gram
语言模型举例
?
句子的概率表现为若干
bigram
参数的乘积,若句子
太长,
计算时,会引起下溢
(underflow)
,可以采用
取对数并相加的方式。
Ln
(
P
(
JOHN READ A BOOK
))
=
Ln
(
p<
/p>
(
JOHN|
))
+Ln
(
p
(
READ|JOHN
))
+Ln
< br>(
p
(
A|READ
))
+Ln
(
p
(
BOOK|A
< br>))
+Ln
(
p
(
))
=Ln
(1/3)
< br>+Ln
(1)
+Ln
(2/3)
+Ln
(1/2)
+Ln
(1/2)
=-2.8902
-
-
-
-
-
-
-
-
-
上一篇:专题10 读后续写之上下文衔接
下一篇:十年专八翻译真题附答案