国家标準GB18030-2005《信息技术 中文编码字元集》是我国继GB2312-1980和GB13000.1-1993之后最重要的汉字编码标準,是我国计算机系统必须遵循的基础性标準之一。 GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。
国家标準GB18030-2000《信息交换用汉字编码字元集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标準,是我国计算机系统必须遵循的基础性标準之一。GB18030-2000编码标準是由信息产业部和国家质量技术监督局在2000年 3月17日联合发布的,并且将作为一项国家标準在2001年的1月正式强制执行。GB18030-2005《信息技术中文编码字元集》是我国制订的以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字元集强制性标準,其中收入汉字70000余个。
GB18030最新版本是GB18030-2005。GB18030-2005与GB18030-2000的编码体系结构是完全相同的。那幺,GB18030的2000版和2005版有什幺区别和联繫呢?2000年发布的GB18030-2000,全名是《信息技术 汉字编码字元集 基本集的扩充》。GB18030-2000仅规定了常用非汉字元号和27533个汉字(包括部首、部件等)的编码。GB18030-2000是全文强制性标準,市场上销售的产品必须符合。2005年发布的GB18030-2005在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码,增加的这些内容是推荐性的。原GB18030-2000中的内容是强制性的,市场上销售的产品必须符合。故GB18030-2005为部分强制性标準,自发布之日起代替GB18030-2000。GB18030-2005的单位元组编码部分、双位元组编码部分和四位元组编码部分的CJK统一汉字扩充A(即0x8139EE39—0x82358738)部分为强制性。
GB 18030标準第1条规定:“本标準适用于图形字元信息的处理、交换、存储、传输、显现、输入和输出。”简单地说,GB18030可用于一切处理中文(包括汉字和少数民族文)信息,特别是汉字信息的信息处理产品。GB18030-2005标準可套用于中文处理的软体类产品,如作业系统、资料库、中间件、办公软体、财务软体、CAD软体、表处理软体、教育软体、字型字型档等。GB18030-2005标準还可套用于具有处理汉字功能的硬体产品,如印表机、行动电话、PDA产品等。
问:产品达到哪些要求才算符合GB 18030?答:同时达到以下两个要求的产品,为符合GB 18030-2005强制部分的产品:(1)产品可以正确输入、输出、处理GB 18030-2005强制部分规定的全部汉字字元;(2)产品可以正确识别GB 18030-2005强制性部分规定的全部汉字字元对应的编码。
标準採用单位元组、双位元组和四位元组三种方式对字元编码。单位元组部分採用GB/T 11383的编码结构与规则,使用0×00至0×7F码位(对应于ASCII码的相应码位)。双位元组部分,首位元组码位从0×81至0×FE,尾位元组码位分别是0×40至0×7E和0×80至0×FE。四位元组部分採用GB/T 11383未採用的0×30到0×39作为对双位元组编码扩充的后缀,这样扩充的四位元组编码,其範围为0×81308130到0×FE39FE39。其中第一、三个位元组编码码位均为0×81至0×FE,第二、四个位元组编码码位均为0×30至0×39。码位总体结构见右图。
GB18030-2000字彙GB18030-2000的字彙部分是这样写的:本标準收录的字元分别以单位元组、双位元组和四位元组编码。1、单位元组部分本标準中,单位元组的部分收录了GB 11383的0x00到0x7F全部128个字元及单位元组编码的欧元符号。2、双位元组部分本标準中,双位元组的部分收录内容如下:GB 13000.1的全部CJK统一汉字字元。GB 13000.1的CJK兼容区挑选出来的21个汉字。GB 13000.1中收录而GB 2312未收录的我国台湾地区使用的图形字元139个。GB 13000.1收录的其它字元31个。GB 2312中的非汉字元号。GB 12345 的竖排标点符号19个。GB 2312未收录的10个小写罗马数字。GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。汉字数字“〇”。表意文字描述符13个。增补汉字和部首/构件80个。双位元组编码的欧元符号。3 、四位元组部分本标準的四位元组的部分,收录了上述双位元组字元之外的,包括CJK统一汉字扩充A在内的GB 13000.1 中的全部字元。GB18030-2005字彙GB18030-2005的字彙部分是这样写的:本标準收录的字元分别以单位元组、双位元组或四位元组编码。1、单位元组部分本标準中,单位元组的部分收录了GB/T 11383-1989的0x00到0x7F全部128个字元。2、双位元组部分本标準中,双位元组的部分收录内容如下:GB 13000.1-1993的全部CJK统一汉字字元。GB 13000.1-1993的CJK兼容区挑选出来的21个汉字。GB 13000.1-1993中收录而GB 2312未收录的我国台湾地区使用的图形字元139个。GB 13000.1-1993收录的其它字元31个。
GB 2312中的非汉字元号。GB 12345 的竖排标点符号19个。GB 2312未收录的10个小写罗马数字。GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。汉字数字“〇”。表意文字描述符13个。对GB 13000.1-1993增补的汉字和部首/构件80个。双位元组编码的欧元符号。3、四位元组部分本标準的四位元组的部分,收录了上述双位元组字元之外的,GB 13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字的字元。GB18030-2005最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单位元组编码的欧元符号0x80)。GB18030有1611668个码位,在GB18030-2005中定义了76556个字元。随着我国汉字整理和编码研究工作的不断深入,以及国际标準ISO/IEC 10646的不断发展,GB18030所收录的字元将在新版本中增加。
GB18030-2000汉字如下表所示,GB18030-2000收录了27533个汉字:
类别 码位範围 码位数 字元数 字元类型 双位元组部分 第一位元组0xB0-0xF7 6768 6763 汉字 第二位元组0xA1-0xFE 第一位元组0x81-0xA0 6080 6080 汉字 第二位元组0x40-0xFE 第一位元组0xAA-0xFE 8160 8160 汉字 第二位元组0x40-0xA0 四位元组部分 第一位元组0x81-0x82 25200 6530 CJK统一汉字扩充A 第二位元组0x30-0x39 第三位元组0x81-0xFE 第四位元组0x30-0x3927533就是6763+6080+8160+6530。双位元组部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字。在Unicode中,CJK统一汉字扩充A有6582个汉字,为什幺这里只有6530个汉字?这是因为在GBK时代,双位元组部分已经收录过CJK统一汉字扩充A的52个汉字,所以还余6530个汉字。GB18030-2005汉字如下表所示,GB18030-2005收录了70244个汉字:
类别 码位範围 码位数 字元数 字元类型 双位元组部分 第一位元组0xB0-0xF7 6768 6763 汉字 第二位元组0xA1-0xFE 第一位元组0x81-0xA0 6080 6080 汉字 第二位元组0x40-0xFE 第一位元组0xAA-0xFE 8160 8160 汉字 第二位元组0x40-0xA0 四位元组部分 第一位元组0x81-0x82 25200 6530 CJK统一汉字扩充A 第二位元组0x30-0x39 第三位元组0x81-0xFE 第四位元组0x30-0x39 第一位元组0x95-0x98 50400 42711 CJK统一汉字扩充B 第二位元组0x30-0x39 第三位元组0x81-0xFE 第四位元组0x30-0x3970244就是6763+6080+8160+6530+42711。
GB18030-2005相对于GB18030-2000主要有以下变化:1、在四位元组字元表中增加CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字字元的字形。其实GB18030-2000已经映射了这些码位,但GB18030-2000没有给出这些字元的字形。
2、调整字元?的编码。3、去掉了单位元组编码的欧元符号(0x80)。(纠正:其实GBK和GB18030-2000都没有单位元组编码的欧元符号,微软的CP936才有这个符号并定义在0x80)
按国际惯例,GB 18030制定採用的标準如下:GB 18030-2000收录了27533个汉字,GB 18030-2005收录了70244个汉字。GB18030的总编码空间超过150万个码位,为解决人名、地名用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。我国大部分计算机系统仍然採用GB 2312编码。GB 18030与GB 2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小。从我国信息技术和信息产业发展的角度出发,考虑到解决我国用户的需要及解决现有系统的兼容性和对多种作业系统的支持,採用GB 18030是我国较好的选择,而GB 13000.1更适用于未来国际间的信息交换。考虑到GB 18030和GB 13000的兼容问题,标準起草组编制了GB 18030与GB 13000.1的代码映射表,使得两个编码体系可以自由转换。同时,还开发了GB 18030基本点阵字型库。世界许多国家和地区从方便本国和民族套用的角度出发,制定了相应的编码标準和内码体系,如日本的JIS X 0208和JIS X 0212,韩国的KS C 5601和KS C 5657等,这是国际上採用的通行惯例。制定GB 18030同样符合国际惯例,它全面兼容GB 2312,在字彙上兼容GB 13000.1,可以充分利用已有资源,保证不同系统间的兼容性,最大限度地共享资源,为我国软体产业留有巨大的发展空间。可以相信,GB 18030的实施将有利于国产软体的发展并形成规模,使我国的中文信息技术再上一个台阶。
1980年我国颁布了第一个汉字编码字元集标準,即GB 2312-80《信息交换用汉字编码字元集基本集》。该标準共收了6763个汉字及常用符号,奠定了中文信息处理的基础。随着国际间的交流与合作的扩大,信息处理套用对字元集提出了多文种、大字量、多用途的要求。1993年国际标準化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字元集第一部分体系结构与基本多文种平面》。我国等同採用此标準制定了GB 13000.1-1993。该标準採用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。由于其新的编码体系与现有多数作业系统和外部设备不兼容,所以它的实现仍需要有一个过程,还不能完全解决我国当前套用的迫切需要。考虑到GB 13000的完全实现有待时日,以及GB 2312编码体系的延续性和现有资源和系统的有效利用与过渡,我们选择了在GB 2312(GB 2311)的基础上进行扩充,并且在字彙上与GB 13000.1兼容的方案,研製一个新的标準——汉字编码基本集的扩充,进而完善GB 2312,以满足我国邮政、户政、金融、地理信息系统等套用的迫切需要。此项目业已列入1998年国家标準制定计画。1998年10月,由信息产业部电子四所、北京大学计算机技术研究所、北大方正集团、新天地公司、四通新世纪公司、中科院软体所、长城软体公司、中软总公司、金山软体公司和联想公司的技术人员组成标準起草组。在标準研製过程中,全国信息技术标準化技术委员会多次召集标準起草组和知名公司对标準草案进行充分地研究论证,并且特邀了微软公司、惠普公司、Sun公司和IBM公司等参加,广泛徵求意见。标準起草组经过反覆斟酌和验证,提出了标準制定原则——与GB 2312信息处理交换码所对应的事实上的内码标準兼容,在字彙上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字元和全部CJK扩充A的字元,并且确定了编码体系和27484个汉字,形成兼容性、扩展性、前瞻性兼备的方案。
信息产业部和原国家质量技术监督局于2000年3月17日联合发布了该标準,即GB 18030-2000《信息技术信息交换用汉字编码字元集基本集的扩充》。该标準作为国家强制性标準自发布之日起实施,过渡期到2001年8月31日止。期间,全国信标委曾制定和发布《汉字扩展规范GBK 1.0》,并在MS Windows 9x/Me/NT/2000、IBM OS/2的系统中广泛套用。GB18030是国家标準,在技术上是GBK的超集,并与其兼容,因此,GBK将结束其历史使命。
本文发布于:2023-03-25 08:19:29,感谢您对本站的认可!
本文链接:http://www.ranqi119.com/to/1679785699225415.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |