关键词不能为空

当前您在: 主页 > 英语 >

常用汉字字符集及其关系

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-12 21:11
tags:

-

2021年2月12日发(作者:fall)


常用汉字字符集及其关系



GB2312



GB 2312-1980




< p>
GB2312


码是中华人民共和国国家汉字信息交换用编码,全称《信息交 换用汉字


编码字符集


--


基本集》,由 国家标准总局发布,


1981



5



1


日实施,通行于


大陆。新加坡等地也使用此编码。



GB2312

< p>
收录简化汉字及符号、字母、日文假名等共


7445


个图形字符,其中汉字



6763


个 。


GB2312


规定“对任意一个图形字符都采用两个字节表示 ,每个字节


均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“ 低


字节”。


GB2312-80


包含了 大部分常用的一、二级汉字,和


9


区的符号。该字符

< p>
集是几乎所有的中文系统和国际化的软件都支持的中文字符集,


这也是最基 本的


中文字符集。



GB2312


将代码表分为


94


个区(

< br>0x01



0x5e


),每个区


94


个位(


0x01-0x5e


)。


汉字编码高位字节的值为区号值加


32< /p>



20H



,< /p>


低位字节的值为位号值加


32



20H




因此也称为 区位码。这样一来,


GB2312


的编码范围为


2121H-777EH


,与


ASCII


有重叠,通行方法是将


GB


码两个字节的最高位置< /p>


1


以示区别。因此,其实际编


码范围是高 位


0xa1



0xfe


,低位也是


0xa1-0xfe



例如第一区



01


区)


第一位



01


位)


汉字编码为:


A1A1


第一个


A1


< br>01H+20H+80H



第二个


A1



01H+20H+80H


)。



区号范围



位号范围



区类别



字符类别



符号、数字




个数





编码范围



A1A1



A9FE


AA A1



AFFE


B0A1



D7FE


D8A1



F7FE


F8A1



FEFE


01-09



A1-A9


)< /p>



01-94



A1-FE




符号、数字



10-15



AA- AF




01-94

< br>(


A1-FE




空白区



16-55

< br>(


B0-D7




01-94



A1-FE




汉字



56 -87



D8-F7




01-94



A1-FE< /p>




汉字



88-94



F8-FE

< br>)



01-94



A1-FE




空白区



一级常用汉字



3755


二级常用汉字



3008





GB2 312


将收录的汉字分成两级:第一级是常用汉字计


3755< /p>


个,置于


16-55


区,


按汉语拼音字母


/


笔形顺序排列;

第二级汉字是次常用汉字计


3008


个,

< br>置于


56-87


区,按部首


/< /p>


笔画顺序排列。故而


GB2312


能表示


6763


个汉字。


< br>GB13000



GB13000.1-1993




GB2312


的 发布,


奠定了中文信息处理的基础。


随着国际间的交流与合作的 扩大,


信息处理应用对字符集提出了多文种、大字量、多用途的要求。

< br>1993


年国际标


准化组织发布了


ISO/IEC


10646-1


《信息技术



通用多八位编码字符集



第一部分



体系结构与基本多文种平面》。我国等同采用此标准制定了


GB 13000.1-1993



该标准采用了全新的多文种编码体 系,收录了中、日、韩


20902


个汉字,是编码


体系未来发展方向。


由于其新的编码体系与现有多数操作系统和外部设备不兼 容,


所以它的实现仍需要有一个过程,


目前还不能完全解决我国 当前应用的迫切需要。



GB13000


等同于国际标准的《通用多八位编码字符集


(UCS)



ISO10646.1


,就


是等同于


Unicode


的标准, 代码页等等的都使用


UTF


的一套标准。


GB13000.1



ISO10646

为同一体系,与工业标准


Unicode3.1


是兼容的。



GBK



G BK-1995




为了推进


Unicode


的实施,


同时也是为了向下兼容 ,


即:


与我国一直沿用的字符


集标准< /p>


GB2312


完全兼容,电子部与国家技术监督局联合颁布一个新 的汉字内码


扩展规范:


GBK




GBK


在保持


GB 2312


原貌的基础上,将其字汇扩充与


ISO 10646< /p>


中的


CJK


等量,


同时也包容了台湾的工业标准


Big5


码汉字,


此外还为用户留了


1894


个码位的自


定义区,尽管它仍是


CodePage(


代码页


)


形式,但还是在原


GB2312


的基础上迈出


了可喜的一步,成为最终向


Uni code


过渡的一个桥梁。这在


WINDOWS 95


上就有


所体现:


WINDOWS 95


的内核已经


Unicode


化,正 是由于这一点,


WINDOWS 95



所有


GBK


字库都可以完全不加修改地作为

< br>Unicode


字库用于


WINDOWS NT


平台;


只要将


WINDOWS 9 5


上输入法码表存成


Unicode


形 式,就可以用于


WINDOWS NT


平台。



GBK

< br>作为对


GB2312


的扩展,在现在的

< br>windows


系统中仍然使用代码页


CP936



示,


但是同样的


9 36


的代码页跟一开始的


936


的代码 页只支持


GB2312


编码不同,


现在 的


936


代码页支持


GBK

< p>
的编码,


GBK


同时也向下兼容

< br>GB2312


编码。



GBK< /p>


的编码区间为


0X8140


< p>
0XFEFE


。整个码表分为


5

< br>个区间,称为


GBK1(A1A1-A9FE)



GBK2



B0A1-F7FE)

< p>


GBK3(8140-A0FE)


< p>
GBK4(AA40-FEA0)



GBK5(A 840-A9A0).


其中


GBK1


包 括符号


717


个,


GBK2

< p>
包括


GB2312


汉字


6 763


个,


GBK3


包括


GB13000.1


中的汉字


6080


个,


GBK4


包括增补的汉字


8160



,GBK5


< p>
括扩充汉字符号


166


个?。


首字节



81-A0


尾字节



40-7E


80-A0


A1-FE


A1-A7


40-7E


80-A0


A1-FE


A8-A9


A1-FE


80-A0


40-7E


AA-FE


40-7E


GBK4


GBK5







GBK1


区类别



GBK3


字符类别









441


231


717


个图形符号、


846



码位



66


126


8160



5355+2805




个数



6080(2016+1056+3008)


编码范围








A1A1-A7FE


A8A1-A9FE





80-A0


A1-FE


保留



GBK2


保留







空白区



GB2312-80


一二级汉字



空白区




658


码位




564


码位



6763


汉字、


6768


码位




首字节


AA-AF


首字节


B0-F7


首字节


F8-FE




虽然


GBK


收录了所有


Unicode 1.1



GB 13000.1-93


之中的汉字,但是编码方


式与


Unicode 1.1



GB 13000.1-93


不同。仅仅是


GB 2312



GB 13000.1-93


之间的过渡方案。


GBK


收录了


21 886


个符号,它分为汉字区和图形符号区。汉字


区包括


21003


个字符。



GB18030



GB 18030-2000




考虑到


GB 13000


的完全实现有待时日,以及


GB 2312


编码体系的延续性和现有


资源和系统的有效利用与过渡,我们选择了在< /p>


GB 2312(GB 2311)


的基础上进行


扩充,并且在字汇上与


GB 13000.1


兼容的方 案,研制一个新的标准


--


汉字编码


基 本集的扩充,进而完善


GB


2312


,以满足我国邮政、户政、金融、地理信息系


统等应用的迫切需要。


标准的技术要点:



1.



总体结构



标准采用单字节、双字节和四字节三种方式对字符编码。



2.



单字节部分采用


GB/T


11383


的编码结构与规则,


使用


0×00



0×7F


码位


(



应于


ASCII

码的相应码位


)




3.



双字节部分,

< br>首字节码位从


0×81



0×F E,


尾字节码位分别是


0×40



0×7E



0×80



0×FE。



4.



四字节部分采用


GB/T


11383


未采用的


0×30


< br>0×39


作为对双字节编码扩充


的后缀,这样扩充的四字 节编码,其范围为


0×81308130


0×FE39FE39。


其中第一、三个字节编码码位均为


0×81



0×FE,第二、四个字节编码码

< br>位均为


0×30 至


0×39。



5.



收录的字符



双字节部分收录内容主要 包括


GB13000.1


全部


CJK< /p>


汉字


20902


个、有关标点符号、表意 文字描述符


13


个、增补的汉字和部首


/


构件


80


个、


双字节编码的欧元符号等。



四字节部分收录了上述双字节字 符之外的,


包括


CJK


统一汉字扩充< /p>


A


在内的


GB


13000.1


中的全部字符。


GB 18030


编码空间约



160


万码位,目前已编码的字符约


2.6


万。随着 我国汉字整理和编码研究


工作的不断深入,以及国际标准


ISO /IEC 10646


的不断发展,


GB18030

< p>
所收


录的字符将在新版本中增加。


< p>
Unicode



GB18030-2000


之间的关系如下:



00385A U+9FA6-D7FF GB+82358F33-8336C738

-


-


-


-


-


-


-


-



本文更新与2021-02-12 21:11,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/645836.html

常用汉字字符集及其关系的相关文章