-
常用汉字字符集及其关系
GB2312
(
GB
2312-1980
)
GB2312
码是中华人民共和国国家汉字信息交换用编码,全称《信息交
换用汉字
编码字符集
--
基本集》,由
国家标准总局发布,
1981
年
5
p>
月
1
日实施,通行于
大陆。新加坡等地也使用此编码。
GB2312
收录简化汉字及符号、字母、日文假名等共
7445
个图形字符,其中汉字
占
6763
个
。
GB2312
规定“对任意一个图形字符都采用两个字节表示
,每个字节
均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“
低
字节”。
GB2312-80
包含了
大部分常用的一、二级汉字,和
9
区的符号。该字符
集是几乎所有的中文系统和国际化的软件都支持的中文字符集,
这也是最基
本的
中文字符集。
GB2312
p>
将代码表分为
94
个区(
< br>0x01
—
0x5e
),每个区
94
个位(
0x01-0x5e
)。
汉字编码高位字节的值为区号值加
32<
/p>
(
20H
)
,<
/p>
低位字节的值为位号值加
32
(
20H
)
,
因此也称为
区位码。这样一来,
GB2312
的编码范围为
2121H-777EH
,与
ASCII
有重叠,通行方法是将
GB
码两个字节的最高位置<
/p>
1
以示区别。因此,其实际编
码范围是高
位
0xa1
-
0xfe
,低位也是
0xa1-0xfe
。
例如第一区
(
01
区)
第一位
(
01
位)
汉字编码为:
A1A1
(
第一个
A1
为
< br>01H+20H+80H
,
第二个
A1
为
01H+20H+80H
)。
区号范围
位号范围
区类别
字符类别
符号、数字
个数
编码范围
A1A1
—
A9FE
AA A1
—
AFFE
B0A1
—
D7FE
D8A1
—
F7FE
F8A1
—
FEFE
01-09
(
A1-A9
)<
/p>
01-94
(
A1-FE
)
符号、数字
10-15
(
AA-
AF
)
01-94
< br>(
A1-FE
)
空白区
16-55
< br>(
B0-D7
)
01-94
(
A1-FE
)
汉字
56
-87
(
D8-F7
)
01-94
(
A1-FE<
/p>
)
汉字
p>
88-94
(
F8-FE
< br>)
01-94
(
A1-FE
)
空白区
一级常用汉字
3755
二级常用汉字
3008
GB2
312
将收录的汉字分成两级:第一级是常用汉字计
3755<
/p>
个,置于
16-55
区,
按汉语拼音字母
/
笔形顺序排列;
第二级汉字是次常用汉字计
3008
个,
< br>置于
56-87
区,按部首
/<
/p>
笔画顺序排列。故而
GB2312
能表示
6763
个汉字。
< br>GB13000
(
GB13000.1-1993
)
GB2312
的
发布,
奠定了中文信息处理的基础。
随着国际间的交流与合作的
扩大,
信息处理应用对字符集提出了多文种、大字量、多用途的要求。
< br>1993
年国际标
准化组织发布了
ISO/IEC
10646-1
《信息技术
通用多八位编码字符集
第一部分
体系结构与基本多文种平面》。我国等同采用此标准制定了
GB
13000.1-1993
。
该标准采用了全新的多文种编码体
系,收录了中、日、韩
20902
个汉字,是编码
体系未来发展方向。
由于其新的编码体系与现有多数操作系统和外部设备不兼
容,
所以它的实现仍需要有一个过程,
目前还不能完全解决我国
当前应用的迫切需要。
GB13000
等同于国际标准的《通用多八位编码字符集
(UCS)
》
ISO10646.1
,就
是等同于
Unicode
的标准,
代码页等等的都使用
UTF
的一套标准。
GB13000.1
和
ISO10646
为同一体系,与工业标准
Unicode3.1
是兼容的。
GBK
(
G
BK-1995
)
为了推进
Unicode
的实施,
同时也是为了向下兼容
,
即:
与我国一直沿用的字符
集标准<
/p>
GB2312
完全兼容,电子部与国家技术监督局联合颁布一个新
的汉字内码
扩展规范:
GBK
。
GBK
在保持
GB
2312
原貌的基础上,将其字汇扩充与
ISO 10646<
/p>
中的
CJK
等量,
同时也包容了台湾的工业标准
Big5
码汉字,
此外还为用户留了
1894
个码位的自
定义区,尽管它仍是
CodePage(
代码页
p>
)
形式,但还是在原
GB2312
的基础上迈出
了可喜的一步,成为最终向
Uni
code
过渡的一个桥梁。这在
WINDOWS
95
上就有
所体现:
WINDOWS
95
的内核已经
Unicode
化,正
是由于这一点,
WINDOWS 95
上
所有
GBK
字库都可以完全不加修改地作为
< br>Unicode
字库用于
WINDOWS
NT
平台;
只要将
WINDOWS 9
5
上输入法码表存成
Unicode
形
式,就可以用于
WINDOWS
NT
平台。
GBK
< br>作为对
GB2312
的扩展,在现在的
< br>windows
系统中仍然使用代码页
CP936
表
示,
但是同样的
9
36
的代码页跟一开始的
936
的代码
页只支持
GB2312
编码不同,
现在
的
936
代码页支持
GBK
的编码,
GBK
同时也向下兼容
< br>GB2312
编码。
GBK<
/p>
的编码区间为
0X8140
到
0XFEFE
。整个码表分为
5
< br>个区间,称为
GBK1(A1A1-A9FE)
、
GBK2
(
B0A1-F7FE)
、
GBK3(8140-A0FE)
、
GBK4(AA40-FEA0)
、
GBK5(A
840-A9A0).
其中
GBK1
包
括符号
717
个,
GBK2
包括
GB2312
汉字
6
763
个,
GBK3
包括
GB13000.1
中的汉字
6080
个,
GBK4
包括增补的汉字
8160
个
,GBK5
包
括扩充汉字符号
166
个?。
首字节
81-A0
尾字节
40-7E
80-A0
A1-FE
A1-A7
40-7E
80-A0
A1-FE
A8-A9
A1-FE
80-A0
40-7E
AA-FE
40-7E
GBK4
GBK5
GBK1
区类别
GBK3
字符类别
441
231
717
个图形符号、
846
个
码位
66
126
8160
(
5355+2805
)
个数
6080(2016+1056+3008)
编码范围
A1A1-A7FE
A8A1-A9FE
80-A0
A1-FE
保留
GBK2
保留
空白区
GB2312-80
一二级汉字
空白区
658
码位
564
码位
6763
汉字、
6768
码位
首字节
AA-AF
首字节
B0-F7
首字节
F8-FE
虽然
GBK
收录了所有
Unicode
1.1
及
GB 13000.1-93
之中的汉字,但是编码方
式与
Unicode
1.1
及
GB
13000.1-93
不同。仅仅是
GB
2312
到
GB 13000.1-93
之间的过渡方案。
GBK
收录了
21
886
个符号,它分为汉字区和图形符号区。汉字
区包括
21003
个字符。
GB18030
(
GB
18030-2000
)
考虑到
GB
13000
的完全实现有待时日,以及
GB 2312
编码体系的延续性和现有
资源和系统的有效利用与过渡,我们选择了在<
/p>
GB 2312(GB 2311)
的基础上进行
扩充,并且在字汇上与
GB 13000.1
兼容的方
案,研制一个新的标准
--
汉字编码
基
本集的扩充,进而完善
GB
2312
,以满足我国邮政、户政、金融、地理信息系
统等应用的迫切需要。
标准的技术要点:
1.
总体结构
标准采用单字节、双字节和四字节三种方式对字符编码。
2.
单字节部分采用
GB/T
11383
的编码结构与规则,
使用
0×00
p>
至
0×7F
码位
(
对
应于
ASCII
码的相应码位
)
。
3.
双字节部分,
< br>首字节码位从
0×81
至
0×F
E,
尾字节码位分别是
0×40
至
p>
0×7E
和
0×80
至
0×FE。
4.
四字节部分采用
GB/T
11383
未采用的
0×30
到
< br>0×39
作为对双字节编码扩充
的后缀,这样扩充的四字
节编码,其范围为
0×81308130
到
0×FE39FE39。
其中第一、三个字节编码码位均为
0×81
至
0×FE,第二、四个字节编码码
< br>位均为
0×30 至
0×39。
5.
收录的字符
双字节部分收录内容主要
包括
GB13000.1
全部
CJK<
/p>
汉字
20902
个、有关标点符号、表意
文字描述符
13
个、增补的汉字和部首
/
构件
80
个、
双字节编码的欧元符号等。
四字节部分收录了上述双字节字
符之外的,
包括
CJK
统一汉字扩充<
/p>
A
在内的
GB
13000.1
中的全部字符。
GB
18030
编码空间约
为
160
万码位,目前已编码的字符约
2.6
万。随着
我国汉字整理和编码研究
工作的不断深入,以及国际标准
ISO
/IEC 10646
的不断发展,
GB18030
所收
录的字符将在新版本中增加。
Unicode
和
GB18030-2000
p>
之间的关系如下:
00385A
U+9FA6-D7FF GB+82358F33-8336C738
-
-
-
-
-
-
-
-
-
上一篇:饱和水蒸气温度对照表
下一篇:信函句型