常用汉字字符集及其关系_高中生题库网|高考真题|高考试题-「密云二中」

常用汉字字符集及其关系

作者：高考题库网

来源：https://www.bjmy2z.cn/gaokao

2021-02-12 21:11

tags:

-

2021年2月12日发(作者：fall)

常用汉字字符集及其关系

GB2312

（

GB 2312-1980

）

GB2312

码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字

编码字符集

基本集》，由国家标准总局发布，

1981

年

月

日实施，通行于

大陆。新加坡等地也使用此编码。

GB2312

收录简化汉字及符号、字母、日文假名等共

7445

个图形字符，其中汉字

占

6763

个。

GB2312

规定“对任意一个图形字符都采用两个字节表示，每个字节

均采用七位编码表示”，习惯上称第一个字节为“高字节”，第二个字节为“ 低

字节”。

GB2312-80

包含了大部分常用的一、二级汉字，和

区的符号。该字符

集是几乎所有的中文系统和国际化的软件都支持的中文字符集，

这也是最基本的

中文字符集。

GB2312

将代码表分为

个区（

0x01

—

0x5e

），每个区

个位（

0x01-0x5e

）。

汉字编码高位字节的值为区号值加

32

（

20H

）

，

低位字节的值为位号值加

（

20H

）

，

因此也称为区位码。这样一来，

GB2312

的编码范围为

2121H-777EH

，与

ASCII

有重叠，通行方法是将

码两个字节的最高位置

以示区别。因此，其实际编

码范围是高位

0xa1

－

0xfe

，低位也是

0xa1-0xfe

。

例如第一区

（

区）

第一位

（

位）

汉字编码为：

A1A1
（

第一个

A1

为
 01H+20H+80H

，

第二个

A1

为

01H+20H+80H

）。

区号范围

位号范围

区类别

字符类别

符号、数字

个数

编码范围

A1A1

—

A9FE

AA A1

—

AFFE

B0A1

—

D7FE

D8A1

—

F7FE

F8A1

—

FEFE

01-09

（

A1-A9

）

01-94

（

A1-FE

）

符号、数字

10-15

（

AA- AF

）

01-94
 （

A1-FE

）

空白区

16-55
 （

B0-D7

）

01-94

（

A1-FE

）

汉字

56 -87

（

D8-F7

）

01-94

（

A1-FE

）

汉字

88-94

（

F8-FE
 ）

01-94

（

A1-FE

）

空白区

一级常用汉字

3755

二级常用汉字

3008

GB2 312

将收录的汉字分成两级：第一级是常用汉字计

3755

个，置于

16-55

区，

按汉语拼音字母

/

笔形顺序排列；
第二级汉字是次常用汉字计

3008

个，
 置于

56-87

区，按部首

/

笔画顺序排列。故而

GB2312

能表示

6763

个汉字。

 GB13000

（

GB13000.1-1993

）

GB2312

的发布，

奠定了中文信息处理的基础。

随着国际间的交流与合作的扩大，

信息处理应用对字符集提出了多文种、大字量、多用途的要求。
 1993

年国际标

准化组织发布了

ISO/IEC

10646-1

《信息技术

通用多八位编码字符集

第一部分

体系结构与基本多文种平面》。我国等同采用此标准制定了

GB 13000.1-1993

。

该标准采用了全新的多文种编码体系，收录了中、日、韩

20902

个汉字，是编码

体系未来发展方向。

由于其新的编码体系与现有多数操作系统和外部设备不兼容，

所以它的实现仍需要有一个过程，

目前还不能完全解决我国当前应用的迫切需要。

GB13000

等同于国际标准的《通用多八位编码字符集

(UCS)

》

ISO10646.1

，就

是等同于

Unicode

的标准，代码页等等的都使用

UTF

的一套标准。

GB13000.1

和

ISO10646
为同一体系，与工业标准

Unicode3.1

是兼容的。

GBK

（

G BK-1995

）

为了推进

Unicode

的实施，

同时也是为了向下兼容，

即：

与我国一直沿用的字符

集标准

GB2312

完全兼容，电子部与国家技术监督局联合颁布一个新的汉字内码

扩展规范：

GBK

。

GBK

在保持

GB 2312

原貌的基础上，将其字汇扩充与

ISO 10646

中的

CJK

等量，

同时也包容了台湾的工业标准

Big5

码汉字，

此外还为用户留了

1894

个码位的自

定义区，尽管它仍是

CodePage(

代码页

)

形式，但还是在原

GB2312

的基础上迈出

了可喜的一步，成为最终向

Uni code

过渡的一个桥梁。这在

WINDOWS 95

上就有

所体现：

WINDOWS 95

的内核已经

Unicode

化，正是由于这一点，

WINDOWS 95

上

所有

GBK

字库都可以完全不加修改地作为
 Unicode

字库用于

WINDOWS NT

平台；

只要将

WINDOWS 9 5

上输入法码表存成

Unicode

形式，就可以用于

WINDOWS NT

平台。

GBK
 作为对

GB2312

的扩展，在现在的
 windows

系统中仍然使用代码页

CP936

表

示，

但是同样的

9 36

的代码页跟一开始的

936

的代码页只支持

GB2312

编码不同，

现在的

936

代码页支持

GBK

的编码，

GBK

同时也向下兼容
 GB2312

编码。

GBK

的编码区间为

0X8140

到

0XFEFE

。整个码表分为

5
 个区间，称为

GBK1(A1A1-A9FE)

、

GBK2

（

B0A1-F7FE)

、

GBK3(8140-A0FE)

、

GBK4(AA40-FEA0)

、

GBK5(A 840-A9A0).

其中

GBK1

包括符号

717

个，

GBK2

包括

GB2312

汉字

6 763

个，

GBK3

包括

GB13000.1

中的汉字

6080

个，

GBK4

包括增补的汉字

8160

个

,GBK5

包

括扩充汉字符号

166

个？。

首字节

81-A0

尾字节

40-7E

80-A0

A1-FE

A1-A7

40-7E

80-A0

A1-FE

A8-A9

A1-FE

80-A0

40-7E

AA-FE

40-7E

GBK4

GBK5

GBK1

区类别

GBK3

字符类别

441

231

717

个图形符号、

846

个

码位

66

126

8160

（

5355+2805

）

个数

6080(2016+1056+3008)

编码范围

A1A1-A7FE

A8A1-A9FE

80-A0

A1-FE

保留

GBK2

保留

空白区

GB2312-80

一二级汉字

空白区

658

码位

564

码位

6763

汉字、

6768

码位

首字节

AA-AF

首字节

B0-F7

首字节

F8-FE

虽然

GBK

收录了所有

Unicode 1.1

及

GB 13000.1-93

之中的汉字，但是编码方

式与

Unicode 1.1

及

GB 13000.1-93

不同。仅仅是

GB 2312

到

GB 13000.1-93

之间的过渡方案。

GBK

收录了

21 886

个符号，它分为汉字区和图形符号区。汉字

区包括

21003

个字符。

GB18030

（

GB 18030-2000

）

考虑到

GB 13000

的完全实现有待时日，以及

GB 2312

编码体系的延续性和现有

资源和系统的有效利用与过渡，我们选择了在

GB 2312(GB 2311)

的基础上进行

扩充，并且在字汇上与

GB 13000.1

兼容的方案，研制一个新的标准

--

汉字编码

基本集的扩充，进而完善

GB

2312

，以满足我国邮政、户政、金融、地理信息系

统等应用的迫切需要。

标准的技术要点：

1.

总体结构

标准采用单字节、双字节和四字节三种方式对字符编码。

2.

单字节部分采用

GB/T

11383

的编码结构与规则，

使用

0×00

至

0×7F

码位

(

对

应于

ASCII
码的相应码位

)

。

3.

双字节部分，
 首字节码位从

0×81

至

0×F E，

尾字节码位分别是

0×40

至

0×7E

和

0×80

至

0×FE。

4.

四字节部分采用

GB/T

11383

未采用的

0×30

到
 0×39

作为对双字节编码扩充

的后缀，这样扩充的四字节编码，其范围为

0×81308130

到
0×FE39FE39。

其中第一、三个字节编码码位均为

0×81

至

0×FE，第二、四个字节编码码
 位均为

0×30 至

0×39。

5.

收录的字符

双字节部分收录内容主要包括

GB13000.1

全部

CJK

汉字

20902

个、有关标点符号、表意文字描述符

13

个、增补的汉字和部首

/

构件

80

个、

双字节编码的欧元符号等。

四字节部分收录了上述双字节字符之外的，

包括

CJK

统一汉字扩充

A

在内的

GB

13000.1

中的全部字符。

GB 18030

编码空间约

为

160

万码位，目前已编码的字符约

2.6

万。随着我国汉字整理和编码研究

工作的不断深入，以及国际标准

ISO /IEC 10646

的不断发展，

GB18030

所收

录的字符将在新版本中增加。


Unicode

和

GB18030-2000

之间的关系如下：

00385A U+9FA6-D7FF GB+82358F33-8336C738

-

-

-

-

-

-

-

-

本文更新与2021-02-12 21:11，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/645836.html

返回列表：英语

上一篇：饱和水蒸气温度对照表
下一篇：信函句型

当前您在：主页 > 英语 >

常用汉字字符集及其关系

-

-

-

-

-

-

-

-

-

返回列表：英语

常用汉字字符集及其关系的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

-

-

-

-

-

-

-

-

-

常用汉字字符集及其关系的相关文章

当前您在：主页 > 英语 >