首页 > 生活

unicode字符详解(二)

更新时间:2025-05-13 01:08:54 阅读: 评论:0

6-5 大一统unicode字符

其实,每个国家都发展了自己的编码系统,全球竟然有数百种编码系统。但是,没有任何一个编码可以包含足够的字符。即便是单一初级职称评定条件的语言,如英语,其编码也不能兼顾所有的字母、标点和技术符号。

而且这些编码会互相冲突。也就是说,两种编码里,可能使用同一个数表示不同的字符;或使用不同的数表示同一个字符。这就给应用带来了很大的麻烦?

6-5-1 UCS & Unicode字符库

于是人们撇开所有的地区性编码方案,重新搞了一个包括了地球上所有字母和符号的大一统方案!而且,一下子冒出两个机构几乎同时而独立地开始了这一工作:

dhl电话国际标准化组织(ISO),他们于1984年创建了工作组,试图制定一份“通用字符集”(Universal Character Set,简称UCS),并制定了ISO 10646标准。统一码联盟,由Xerox、Apple等软件制造商于1988年成立,并且开发了Unicode标准(The Unico信用卡的好处de Standard)。

可世界并不需要两个不兼容的字符集,大概在1991年,双方开始创建一个统一的编码表。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646高锰酸钾制氧气将不会超出U+10FFFF的编码值范围。两个项目仍都独立进行并公布各自的标准。不过Unicode使用更为广泛。

Unicode是大一统的字符集。它收集了世界上所有的字符,并进行分类,然后为每一个字符分配一个序号。这个序号的范围为(0~1114111,16进制为0~0x10FFFF),它不仅表示了当前所有的字符,也为将来扩展和开发者私用留下了空间。

为了进行分类,人们形象地引入了Unicode空间的概念,在这个空间里,有17个平面如何炒期货,每个平面有65536个位置,这些位置叫做码点(code poi那些年错过的大雨nt)或码位(code position),它们的表示形式为:前缀U+后面的 16进制数,比如,字母a的码点是U+0061。

第一个平面为基本多语言平面(Basic Multilingual Plane--BMP),用4位16进制数(比如拉丁字母X是U+0058 )表示, 其它平面用5到6位(比如U+E0001表示语言标签字符,U+10FFFD 表示私用字符) 16进制数表示。

这里无法详细列出各种语言系统字符的码点范围,若有需要请阅读unicod赚钱信息e的官网。下面重点介绍一些unicode的概念,它们在阅读Python资料时会经常碰到。

1. 字符、字形与字体 Unicode针对的是字符,实际上是字符编号,而不是字形(Character, Not Glyph)。 字形是字符显示时的形状,是出现在屏幕或纸张上一个或具体形状。字形的集合构成一种字体。 字符和字形间存在多种关系:一个字形可以对治疗口臭应一个或多个字符;同样,一个字符也可以对应多个字形。 2. 怎样由码点得到字符?

由两种方法可以由码点值得到它所代表的字符。

你可以用chr()、ord(),str.upper()和st天天向上小五r.lower()方法得到字符:chr(0x2618)'☘'ord('☘')9752 # 10进制hex(9752)'0x2618有机金属化合物9;你也可以在word下直接写出十六进制数然后同时按下alt+x键来得到字符:葬仪屋

比如我在word直接输入2618,然后马上按alt+x键,就变成 ☘。

3. 组合用附加字符(Combining Character)

有些字符比较特殊,它要由基础字符和附加符组合而成。

附加字符与基础字符一起使用可以改变基础字符的含义,它们可以添加到目标字符的上下或周围。例如汉037猎潜艇语拼音字母“ü”上面的两个小点就是组合用附加字符,它附加在字母“u”的上面,从而改变了读音。

组合用附加字符紧跟在被修饰的目标字符后边,使目标字符被渲染(或打印)成相应的结果。

有些附加字符会占据论证方法有哪些额外的宽度,有些则不占据。但不占据宽度的附加组合字符作用于基础字符后,可能会使字符的宽度增加,比如, “ î ” 会比“i”稍宽一点。

组合用附加字符在 Unicode 统一码中存于多个区块,编码范围主要有:

1) 修饰字母的变音组合符(Combining Diacritic北非国家al Marks):从 U+0300 到 U+036F共80个。

它常与字母组合,修饰字母的读音。但其实它的定义比较宽泛,不但包括了拉丁、希腊及西里尔系文字中的变音记号,也包括那些不是变音但不占据宽度的附加标记。

2) 补充组合变音符(Combining Diacritical Marks Supplement):从 U+1DC0到U+1DFF共64个 。

3) 修饰符号的变音组合符(Combining Diacritical Marks for Symbols):从U+20D0到U+20FF共 48静以修身俭以养德 个。它常与一些符号组合,用于渲染和修饰符号,比如:

4) 组合用半形符号(Combining Half Marks):从U+F英语对话E20到U+FE2F共16个。

另外,多个附加字符可以叠加到一个基础字符上:

注:这些组合字符可能无法正确显示,因为它们的显示与字体和浏览器等应用软件有关。

4. 预组字符

Unicode也包含许多预组合字符,即事先将字符组好并赋予码位。字符串中有可能同时使用组合字符和预组字符。这导致了若要比较两个unicode字符串时,需要先运行unicode字符的等价性。

5. 表情符Emo变频空调和定频空调的区别ji

Emoji由日本企业发明,日文称为“絵文字”。后来随着智能手机的推fromm广,如今已风靡全球。 Unicode当然也收录了这些表情符。它们分类在杂项符号中。描述表情符号有三个轴向:

表情符形状表情符颜色表情符小天鹅洗衣机好吗动图雷电iii

相信大家在手机上每天都在使用这些表情符,这里就不再举例了。

待续~

本文发布于:2023-06-04 06:05:26,感谢您对本站的认可!

本文链接:http://www.ranqi119.com/ge/85/213810.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:详解   字符   unicode
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26|友情:优美诗词|电脑我帮您|扬州装修|369文学|学编程|软件玩家|水木编程|编程频道