统计语言模型_高中生题库网|高考真题|高考试题-「密云二中」

统计语言模型

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-08 14:48

tags:

-

2021年2月8日发(作者：leisurely)

统计语言模型

主要内容

概述

数学建模

一

统计语言模型概述

二

现有的主要统计语言模型

三

数据平滑方法

概述

我们为什么需要统计语言模型？

统计语言模型出现的历史：

、

从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正式列入大会主题的

是

1990

年在赫尔辛基举行的第

届国际计算语言学大会（

Coling

’

）。

2

、

1

992

年在蒙特利尔召开的第
4

届机器翻译的理论和方法国际会议

(TMI-92)

宣布大会的主

题是：

“
机器翻译中的经验主义和理性主义方法

”

。公开承认，在传统的基于语言学和人

工智能方法的自然语言处理技术以外，还有一种基于语料库和统计语言模型的新方法正

在迅速崛起。

概述

首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克

(Fred Jelinek)

。当时贾里尼克在

IBM

公司做学术休假

(Sabbatical Leave)

，领导了一批

杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出

的。十几年后，李开复用统计语言模型把

997

词语音识别的问题简化成了一个

20

词

的识别问题，实现了有史以来第一次大词汇量非特定人连续语音的识别。

概述

 ?

历史上曾经先后出现过两个方法迥异的英语词性标注系统：
TAGGIT

系统拥有

3000

条上下

文相关规则，

而

CLAWS

系统

[6]

完全采用概率统计方法。

两个系统各自完成了

100
 万词次的

英语语料库的自动词性标注任务。评则结果表明，采用概率统计方法的

CLAWS

系统的标注

精度达到

96%

，比

TAGGIT

系统提高了近

20

个百分点。

语言建模

?

从统计角度看，自然语言中的一个句子

s
可以

由任何词串构成。不过

P

(

s

)

有大有小。如：

s

1=

我刚吃过晚饭

s

2=

刚我过晚饭吃

(

并不要求语法是完备的

,

可对任意

s

给出概率

)

P

(

s

1) >

P

(

s

2)

?

对于给定的句子

s
 而言，通常

P

(

s

)

是未知的。

?

对于一个服从某个未知概率分布

P

的语言

L

，

根据给定的语言样本估计

P

的过程被称作语言建模。

语言建模

?

根据语言样本估计出的概率分布

P

就称为语言
 L

的语言模

型。

?

语言建模技术首先在语音识别研究中提出，后来陆续用

到

OCR

、手写体识别、机器翻译、信息检索等领域。

?

在语音识别中，如果识别结果有多个，则可以根据语言

模型计算每个识别结果的可能性，然后挑选一个可能性

较大的识别结果。

?

汉语切分歧义消解？（借助语言模型）

一、统计语言模型概述

w

i-2

w

i-1

，便可以用条件

概率

P(w

i
 |w

i-2

w

i-1

)

来预测

w

i

出现的概率。这就是统计语言模型的概念。

?

设

w

i

是文本中的任意一个词，如果已知它在该文本中的前两个词

一、统计语言模型概述

一、现有的主要统计语言模型

1

、

n

-gram

1

、

n

-gram

the large green ______ .

”

“

moun tain

”

?

“
tree

”

?

?

“

Sue swallowed the large green ______ .

”

“

pill

”

? 

“

broccoli

”
 ?

?

如果知道

“

Sue

swallowed

”

会缩小可选择的下一个词的范围。

如何选择

n

?

?

“

1

、

n

-gram

?

n

较大时

提供了更多的语境信息，语境更具区别性

但是，参数个数多、计算代价大、训练语料需要多、参数估计不可靠。

?

n

较小时

语境信息少，不具区别性

但是，参数个数少、计算代价小、训练语料无需太多、参数估计可靠。

1

、

n-gram

语言模型


?

一般来说，如果用变量

s

代表文本中一个任意的词序列，它由顺序排列的

L

个词组成，即

s=w

1

w

2

...w

L

，则统计语言模型就是该词序列

s

在文本中出现的概率

P(s)

?

利用概率的乘积公式，

P(s)

可展开为：

?

统计语言模型有点像天气预报中使用的概率方法，

用来估计概率参数的大规模语料

库好比是一个地区历年积累起来的气象记录。而用三元模型来做天气预报，就好比

是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百准确，

但是我们大概不会因此就全盘否定这种实用的概率方法

.

?

三元模型（或一般的

N

元模型）只利用了语言的表层信息（或知识），即符号（字、

词、词性标记等）序列的同现信息。不能说它是十全十美的。在这一领域中，下一

个研究目标应当是结构化对象（如句法树或语义框架）的统计模型。当然能做到语

言理解是了不起的成果，它肯定会比目前这种统计语言模型强得多，这是不争的事

实。

问题是目前国内外还没有哪一种语言的句法

-

语义分析系统可以胜任大规模真实

文本处理的重任。因此，对于世界各国的语言来说，当前的主流技术仍是语料库方

法和统计语言模型。


1

、

n-gram

语言模型

?

计算量：

设词表里共有

V

个不同的词，

共有

个不同的

N-1

元组，

对于每个分布，

又必须估算

V

个参数，

因此共需估算出

个参数。

若

V=10000,N=3,

则必须计算出

10

12
个参数。

因此

N

不能取得太大，一般取

2

或

3

。

1

、

n

-gram

?

unigram (



p

(

w

i

)

若语言中有

20000
 个词，则需要估计

20000

个参数

?

bigram (

n

=2)

p

(

w

i

|

w

i-

1

)

若语言中有

20000

个词，则需要估计

2000 0

2

个参数

?

trigram (

n

=3)

p

(

w

i

|

w

i-

2

w

i-

1

)

若语言中有

20 000

个词，则需要估计

20000

3

个参数

?

four- gram(

n

=4)

很少使用、不太现实

(

有时也称为

digram

或

quadrigram)

n

=1)

1

、

n-gram

语言模型


二元、三元及

n

元模型的公式表示：

?

tri-gram:

如果任意一个词

w

i

的出现概率只同它前面的两个词有关，问题就可以得到极大的

简化。这时的语言模型叫做三元模型


1.n-gram

语言模型

1

、

n-gram

语言模型举例

?

两个概念：

training data

)

：用于建立模型的给定语料。

?

最大似然估计

(

maximum likelihood

, ML)

：用相对频率

?

训练语料

(

计算概率的公式。

?

例如，给定训练语料：

“

John read Moby Dick

”

，

“

Mary read a different book

”

,

“

She read a book by Cher

”

求

”

John read a boo k

”

的

二元文法的概率

.

1

、
 n-gram

语言模型举例

1

、

n-gram

语言模型举例

?

句子的概率表现为若干
bigram

参数的乘积，若句子

太长，计算时，会引起下溢

(underflow)

，可以采用

取对数并相加的方式。


Ln

(

P

(

JOHN READ A BOOK

))

=

Ln

(

p

(

JOHN|

))

+Ln

(

p

(

READ|JOHN

))

+Ln
 (

p

(

A|READ

))

+Ln

(

p

(

BOOK|A
 ))

+Ln

(

p

(

|BOOK

))

=Ln

(1/3)
 +Ln

(1)

+Ln

(2/3)

+Ln

(1/2)

+Ln

(1/2)

=-2.8902

-

-

-

-

-

-

-

-

本文更新与2021-02-08 14:48，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/615189.html

返回列表：英语

上一篇：专题10 读后续写之上下文衔接
下一篇：十年专八翻译真题附答案

当前您在：主页 > 英语 >

统计语言模型

-

-

-

-

-

-

-

-

-

返回列表：英语

统计语言模型的相关文章

余华爱情经典语录,余华爱情句子

心情低落的图片压抑,心情低落的图片发朋友圈

经典古训100句图片大全,古训名言警句

关于青春奋斗的名人名言鲁迅,关于青年奋斗的名言鲁迅

三国群英单机版手游礼包码,三国群英手机单机版攻略

不收费的情感挽回专家电话,情感挽回免费咨询

新婚贺语怎么说祝福语,新

适合小学生包容的句子经

开启美好一天的句子,开启

林徽因传,林徽因传主要内

结婚祝福语句句暖心,结婚

正能量的句子经典简短1

沈从文语录经典语录关于

史铁生的简介和作品,史铁

打动人心的爱情句子:我的

平凡的生活.简单的幸福的

母爱的最经典金句,母亲的

相守一生不离不弃的句子

余华的作品值得初中生看

奇妙萌可珍珠公主变好,彩

喝酒后的心情经典句子,适

努力挣钱的霸气图片,努力

有深度有涵养的句子精选

高情商女人分手说的话,高

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

统计语言模型的相关文章

当前您在：主页 > 英语 >