关键词不能为空

当前您在: 主页 > 英语 >

统计语言模型

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-08 14:48
tags:

-

2021年2月8日发(作者:leisurely)


统计语言模型



主要内容





概述





数学建模



?



.


统计语言模型概述



?



.


现有的主要统计语言 模型



?



.


数据平滑方法



概述



我们为什么需要统计语言模型?



统计语言模型出现的历史:



1



从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正 式列入大会主题的



1990


年在赫尔 辛基举行的第


13


届国际计算语言学大会(

Coling



90


)。




2



1


992


年在蒙特利尔召开的第

4


届机器翻译的理论和方法国际会议


(TMI-92)


宣布大会的主


题是:


机器翻译中的经验主义和理性主义方法



。公开承认,在传 统的基于语言学和人


工智能方法的自然语言处理技术以外,还有一种基于语料库和统计语 言模型的新方法正


在迅速崛起。




概述






首先成功利用数学方法解决自然语言处理问题的是语音和语言 处理大师贾里尼克



(Fred Jelinek)


。当时贾里尼克在



IBM


公司做学术休假



(Sabbatical Leave)


,领导了一批


杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出

< p>
的。十几年后,李开复用统计语言模型把



997


词语音识别的问题简化成了一个



20



的识别问题,实现了有史以来第一次大词汇量非特定人连续语 音的识别。



概述


< br>?


历史上曾经先后出现过两个方法迥异的英语词性标注系统:

TAGGIT


系统拥有


3000


条 上下


文相关规则,




CLAWS


系统


[6]


完全采 用概率统计方法。


两个系统各自完成了


100

< br>万词次的


英语语料库的自动词性标注任务。评则结果表明,采用概率统计方法的< /p>


CLAWS


系统的标注


精度达到


96%


,比


TAGGIT


系统提高了近


20


个百分点。




语言建模



?


从统计角度看,自然语言中的一个句子


s

可以






由任何词串构成。不过


P

< p>
(


s


)


有大有小。如:< /p>






s


1=


我刚吃过晚饭






s


2=


刚我过晚饭吃


(


并不要求语法是完备的


,


可对任意


s


给出概率


)




P


(


s


1) >


P


(


s


2)


?


对于给定的句子


s

< br>而言,通常


P


(


s


)


是未知的。



?


对于一个服从某个未知概率分布


P


的语言


L







根据给定的语言样本估计


P


的过程被称作语言建模。



语言建模



?


根据语言样本估计出的概率分布


P


就称为语言

< br>L


的语言模







型。




?< /p>


语言建模技术首先在语音识别研究中提出,后来陆续用







OCR


、手写体识别、机器翻译、信息检索等领域。



?


在语音识别中,如果识别结果有多个,则可以根据 语言






模型计算每个识别结果的可能性,然后挑选一个可能性






较大的识别结果。



?


汉语切分歧义消解?(借助语言模型)



一、统计语言模型概述



w

< p>
i-2


w


i-1


,便可以 用条件


概率


P(w


i

< br>|w


i-2


w


i-1

< p>
)


来预测


w


i

< p>
出现的概率。这就是统计语言模型的概念。



?< /p>



w


i


是文本中 的任意一个词,如果已知它在该文本中的前两个词



一、统计语言模型概述



一、现有的主要统计语言模型



1



n


-gram


1



n


-gram


the large green ______ .









moun tain



?


tree



?


?



Sue swallowed the large green ______ .









pill



? < /p>



broccoli


< br>?


?


如果知道



Sue


swallowed



会缩小可选择的下一个词的范围。






如何选择


n


?


?




1



n


-gram


?



n


较大时







提供了更多的语境信息,语境更具区别性





但是,参数个数多、计算代价大、训 练语料需要多、参数估计不可靠。



?


n


较小时







语境信息少,不具区别性





但是,参数个数少、计算代价小、训 练语料无需太多、参数估计可靠。




1



n-gram


语言模型

< p>



?


一般来说,如果用 变量


s


代表文本中一个任意的词序列,它由顺序排列的


L


个词组成,即


s=w


1


w


2


...w


L


,则统计语言模型就是该词序列


s


在文本中出现的概率


P(s)


?


利用 概率的乘积公式,


P(s)


可展开为:




?


统计语言模型有点像天气预报中使 用的概率方法,


用来估计概率参数的大规模语料


库好比是一个地 区历年积累起来的气象记录。而用三元模型来做天气预报,就好比


是根据前两天的天气情 况来预测今天的天气。天气预报当然不可能百分之百准确,


但是我们大概不会因此就全盘 否定这种实用的概率方法


.


?


三元模 型(或一般的


N


元模型)只利用了语言的表层信息(或知识), 即符号(字、


词、词性标记等)序列的同现信息。不能说它是十全十美的。在这一领域中 ,下一


个研究目标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语


言理解是了不起的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事


实。


问题是目前国内外还没有哪一种语言的句法


-


语义分析系统可以胜任大规模真实


文本处理的重任。因此, 对于世界各国的语言来说,当前的主流技术仍是语料库方


法和统计语言模型。

< p>




1



n-gram


语言模型



?


计算量:








设词表里共有


V


个不同的词,


共有







个不同的


N-1


元组,


对于每个分布,


又必须估 算


V


个参数,


因此共需估算出










个参数。



V=10000,N=3,


则必须计算出


10


12

个参数。


因此


N


不能取得太大,一 般取


2



3




1



n


-gram


?


unigram (





< /p>


p


(


w


i


)


若语言中有


20000

< br>个词,则需要估计


20000


个参数


?


bigram (


n


=2)





p


(


w


i


|


w


i-


1


)


若语言中有


20000


个词,则需要估计


2000 0


2


个参数



?


trigram (


n


=3)





p


(


w


i


|


w


i-


2


w


i-


1


)


若语言中有


20 000


个词,则需要估计


20000


3


个参数



?


four- gram(


n


=4)


很少使用、不太 现实


(


有时也称为


digram



quadrigram)



n


=1)


1



n-gram


语言模型


< p>
二元、三元及


n


元模型的公式表示:



?


tri-gram:


如 果任意一个词


w


i


的出现概率只同它前 面的两个词有关,问题就可以得到极大的


简化。这时的语言模型叫做三元模型

< p>




1.n-gram


语言模型



1



n-gram


语言 模型举例



?


两个概念:



training data


)


:用于 建立模型的给定语料。



?




最大似然估计


(


maximum likelihood


, ML)


:用相对频率



?




训练语料


(








计算概率的公式。



?


例如,给定训练语料:



John read Moby Dick










Mary read a different book



,







She read a book by Cher










John read a boo k




二元文法的概率


.



1


< br>n-gram


语言模型举例



1



n-gram


语言模型举例



?


句子的概率表现为若干

bigram


参数的乘积,若句子






太长, 计算时,会引起下溢


(underflow)


,可以采用





取对数并相加的方式。



< p>
Ln


(


P


(


JOHN READ A BOOK


))


=



Ln


(


p< /p>


(


JOHN|


))

< p>
+Ln


(


p


(

< p>
READ|JOHN


))


+Ln

< br>(


p


(


A|READ



))


+Ln


(


p


(


BOOK|A

< br>))


+Ln


(


p


(


|BOOK


))



=Ln


(1/3)

< br>+Ln


(1)


+Ln


(2/3)


+Ln


(1/2)


+Ln


(1/2)



=-2.8902


-


-


-


-


-


-


-


-



本文更新与2021-02-08 14:48,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/615189.html

统计语言模型的相关文章