-
语料库研究与应用综述
目录
一概述
二中国语料库建设的基本情况
三语料库的加工、管理和规范
四语料库在语言研究中的的应用
五参考文献
语料库研究与应用综述
一概述
语料库通常指为语言研究收集
的、用电子形式保存的语言材料,由自然出
现的书面语或口语的样本汇集而成,用来代表
特定的语言或语言变体。经过科
学选材和标注、具有适当规模的语料库能够反映和记录语
言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已
经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点
往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:
(
1
)异质的(
Heterogeneous
):
没有特定的语料收集原则,广泛收集并原样存储各种语料;
<
/p>
(
2
)同质的(
Homogeneous
):
只收集同一类内容的语料;
(
3
)系统的(
Systematic
):
根据预先确定的原则和比例收集语料,使
语料具有平衡性和系统性,能够
代表某一范围内的语言事实;
1
/
17
<
/p>
(
4
)专用的(
Specialized
):
只收集
用于某一特定用途的语料。除此之外,按照语料的语种,语料库也
可以分成单语的(
p>
Monolingual
)、双语的(
Bi
lingual
)和多语的
(
Mult
ilingual
)。按照语料的采集单位,语料库又可以分为语篇的、语句的、
短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语
< br>料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编
撰等
应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言
对比研究。
p>
语料库建设中涉及的主要问题包括:
<
/p>
(
1
)设计和规划:
主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性
等。
(
2
)语料的采集:
主要考虑语料获取、数据格式、字
符编码、语料分类、文本描述,以及各
类语料的比例以保持平衡性等。
< br>
(
3
)语料的加工:
包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标
记
集、标注规范和加工方式。
(
p>
4
)语料管理系统的建设:
包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目
管理
)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户
功能(查询、检
索、统计、打印等)。
(
5
)语料库的应用:
针对语言学理论和应用领域
中的各种问题,研究和开发处理语料的算法和
软件工具。
2
/
17
<
/p>
我国语料库的建设始于
80
年代,当时的
主要目标是汉语词汇统计研究。进
入
90
年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立
了各种类型的
语料库,研究的内容涉及语料库建设中的各个问题。
90
年代末
到
新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和
言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研
究等方面也得到了越来越多的应用。
语料库与语言信息处
理有着某种天然的联系。当人们还不了解语料库方法
的时候,在自然语言理解和生成、机
器翻译等研究中,分析语言的主要方法是
基于规则的(
Rule
-based
)。对于用规则无法表达或不能涵盖的语言事实,计算
机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和
统计,
建立统计语言模型,研究和应用基于统计的(
Statistical-based
p>
)语言处理
技术,在信息检索、文本分类、文本过滤、信息抽取等应
用方向取得了进展。
另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。
从字符编
码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语<
/p>
言信息处理的研究都为语料的加工提供了关键性的技术。
下面先简要叙述
1998
年到
2003
年中国语料库建设的基本情况,然后介绍
语料
库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程
等方面的应用。
由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽
可能全面地反映我国语料库
研究和应用的情况,必要时会将时间上限向前延伸
几年。
二中国语料库建设的基本情况
90<
/p>
年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,
不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相
同。下面
是其中已开始使用并且具有一定代表性的语料库。
(一)现代汉语通用语料库
这是一个
由国家语言文字工作委员会主持建立、面向全社会应用需求的大
型通用语料库,从
90
年代初开始建设,计划规模
7000
p>
万字,主要应用目标是
3
/
17
<
/p>
语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文
教育、以及语言文字的社会应用。
这个语料库收录
的语料以书面语为主、以书面语转述的口语为辅。语料来
源是
1
9
年至今,主要是
1977
年至今出版
的教材、报纸、综合性刊物、专业刊
物和图书。在设计原则上,讲求通用性、描述性、实
用性和抽样的科学性。在
语料分类方面,以
“
< br>门类为主,语体为辅
”
为原则制定三个大类:
第一类:
人文与社会
科学类(包括
8
个次类、
30
个细类)
1
.政法类:
哲学政治宗教法律
2
.历史类:
历史考古民族
3
.社会类:
社会学心理语言文字教育文艺理论新闻民俗
4
.经济类:
工业经济农业经济政治经济财贸经济
5
.艺术类:
音乐美术舞蹈戏剧
6
.文学类:
小说散文传记报告文学科幻口语
7
.军体类:
军事体育
4
/
17
8
.生活类
第二类:
自然科学类(包括
6
个次类)
1
.数理类
2
.生化类
3
.天文地理类
4
.海洋气象类
5
.农林类
6
.医药卫生类
第三类:
综合类(包括
6
个次类,
30
多个细类)
1
.行政公文类:
请示报告批复命令指示布告纪要通知等
2
.章程法规类:
章程条例细则制度公约办法法律条文等
3
.司法文书类:
诉讼辩护词控告信委托书等
4
.商业文告类:
说明广告调查报告经济合同等
5
.礼仪辞令类:
欢迎词贺电讣告唁电慰问信祝酒词等
5
/
17
6
.实用文书类:
请假条检讨申请书请愿书等
在不同类
别、不同来源、不同时期的语言材料中,按照不等密度的思路确
定合适的语料选取比例,
从共时和历时两个角度保证入选语料的平衡性,是这
个语料库的特点。譬如,在语言材料
的年限方面,选材比例是:
19
年<
/p>
–
1925
年
5
%1926
年
–
1949
年
15%
1950
年
p>
–
1965
年
25
%1966
年
–
1976
年
5%
1977
年以后
50%
在语言材料的门类、语体和来源方面,选材比例是:
人文与社会科学类占
59.
。其中各个次类在本大类中的比例是:
政法
12.
历史
8.
社会
14.
经济
9.
艺术
6.
文学
44.
军体
2.
生活
1.
6
/
17
自然科学类占
17.
。其中各个次类在本大类中的比例是:
数理
17.
生化
19.
天文地理
14.
海洋气象
9.
农林
22.
医药卫生
17.
综合类占
9.
。其中各个次类在本大类中的比例是:
各类应用文
91.
其他
8.
报纸类占
13.
。其中各个次类在本大类中的比例是:
全国性报刊
25%
省市报刊
75%
这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样
本设立了
20
个描述项目:
< br>
7
/
17
总号、分类号、样本名称、类别、作者、写作时间、书刊名称
、编著者、
出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、
开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。用户可以利
用这些语料描述标记根据各自的需要进行各种方式的检索。语料库的建库工作
分为两步,第一步先建立核心语料库(由
7000
万字的语料
中筛选出
2000
万字
语料组成)。到
90
年代末,完成了
2000
万字生语料的收录工作。
从
< br>2001
年开始,对
2000
万
字核心语料进行分词和词性标注加工。
(二)《人民日报》标注语料库
《人
民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司
合作,从
1999
年开始,到
2002
年完成,原始语料取自
1998
年全年的《人民日
报》,共约
2700
万字,到
< br>2003
年又扩充到
3500
万
字,是我国第一个大型的现
代汉语标注语料库。这个语料库加工的项目有词语切分和词性
标注,还有专有
名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容
词的
特殊用法标注和短语型标注。下面是一段语料标注的示例,对于
1998
年
1
< br>月
1
日第
5
版第
1
篇文章的第
11
段:
我国的国有企业改革见成效。位于河南的中
国一拖集团有限责任公司面向
市场,积极调整产品结构,加快技术改造和新产品研制步伐
。图为东方红牌履
带拖拉机生产线。(赵鹏摄)标注后的形式是:
199801-05-001-011/m
我国
/n
的
/u
国有
/vn
企业
/n
改革<
/p>
/v
见
/v
成效
/n
。
/w
位
于
/v
河南
/ns
的
/u[
中国
/ns
一拖
/j
集团
/n
有限
/a
责任
/n
p>
公司
/n]nt
面向
/v
市场
/n
,
/w
积极
/ad
调整
/v
产品
/n
结构
/n
,
/w
加快
/v
技术
/n
改造<
/p>
/vn
和
/c
新
/a
产品
/n
研制
/vn
步伐
/n
< br>。
/w
图
/n
< br>为
/v
东方红牌
/nz
履带
/n
拖拉机
/n<
/p>
生产线
/n
。
/
w
(
/w
赵
/
nr
鹏
/nr
摄
/Vg
)
/w
在每一个切分出来的
词和标点符号后面,是该词语的标记。譬如词性标记
(
n
,
v
,
a
,
u
,
m
,
w
等),专有名词标记(
n
r
,
ns
,
n
z
等),语素子类标记
(
Vg
等),动词和形容词特殊用法标记(
vn
,
p>
ad
)。所有的标记都是以北京大
学的《现
代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注
的。
< br>
8
/
17
-
-
-
-
-
-
-
-
-
上一篇:邹忌讽齐王纳谏导学案
下一篇:《红楼梦》精彩片段及点评 (3000字)