问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

Unicode 和 UTF-8 有何区别35

发布网友 发布时间:2023-10-17 04:55

我来回答

4个回答

热心网友 时间:2024-09-30 06:24

二者区别如下:

Unicode是指每一个字符对应一个十六进制数字。计算机只懂二进制,严格按照unicode的方式(UCS-2)。
而UTF-8是指单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。

一、Unicode简介:

Unicode( 统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的 二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

二、UTF-8简介:

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,也是一种前缀码,又称万国码。由Ken Thompson于1992年创建。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

热心网友 时间:2024-09-30 06:25

Unicode包含UTF-8 。
狭义Unicode指UTF-16,即 文档所有字符均用Unicode编码,每个字符2字节。有UTF-16 LE(windows或Linux)和BE(Macintosh)两种,取决于从高位还是低位字节读取。
UTF-8指能用ASCII编码的字符用ASCII编码,其它字符均用Unicode编码,每个字符大小可变。一般UTF-8用于标记语言(比如XML之类),所以不用担心高低字节的问题。

热心网友 时间:2024-09-30 06:25

unicode是字符集,utf8是unicode的一种编码方式

热心网友 时间:2024-09-30 06:26

你看到的unicode字符集是这样的编码表:

I 0049
t 0074
' 0027
s 0073
0020
知 77e5
乎 4e4e
日 65e5
报 62a5

每一个字符对应一个十六进制数字。

计算机只懂二进制,因此,严格按照unicode的方式(UCS-2),应该这样存储:

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
报 01100010 10100101

这个字符串总共占用了18个字节,但是对比中英文的二进制码,可以发现,英文前9位都是0!浪费啊,浪费硬盘,浪费流量。

怎么办?

UTF。

UTF-8是这样做的:

1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;

2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。

这样就形成了如下的UTF-8标记位:

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
... ...

于是,”It's 知乎日报“就变成了:

I 01001001
t 01110100
' 00100111
s 01110011
00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
报 11100110 10001010 10100101

和上边的方案对比一下,英文短了,每个中文字符却多用了一个字节。但是整个字符串只用了17个字节,比上边的18个短了一点点。

下边是课后作业:

请将”It's 知乎日报“的GB2312和GBK码(自行google)转成二进制。不考虑历史因素,从技术角度解释为什么在unicode和UTF-8大行其道的同时,GB2312和GBK仍在广泛使用。

剧透:一切都是为了节省你的硬盘和流量。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
故人西辞黄鹤楼烟花三月下扬州的烟花指什么故人西辞黄鹤楼烟花三月下扬... 诗句烟花三月下扬州的烟花是什么意思 烟花三月下扬州的烟花是什么意思呀? 微信截图时为什么会把聊天窗口隐藏掉 为什么电脑微信截屏,截完图界面会自动隐藏? 老鼠吃过的东西人吃了会出现什么症状 囊是什么结构 囊是什么结构什么部首 ...卡又买了一个1g的流量包,那个优先使用?那使用流量包还会扣钱吗?_百... 我梦见拿菜刀砍情人,划破胳膊没有见流血 相机的sd卡插到电脑上后提示无法打开,需要格式化才能打开,求...6 钦州新江山美地房价多少钱一平? 她刚失恋,我想追她。我有可能吗?2 钦州新江山美地售楼服务热线是多少? 求关于计划(规划)的重要性的一些名言警句、诗词、谚语、歌词1466 最近脚凉舌苔黄厚有口气什么原因 我想入手一部手机1800到2000的 行内的朋友推荐LG的F180 但周围的朋友... 求推荐1000~2000中高性价比的水货手机 急!!个人喜欢LG HTC... 关于亲情的名言、谚语、歌词、古诗文、段落9 杜甫的风吹云动心不动的下一句是什么?18 桂林山水甲天下 下一句是什么,桂林山水甲天下全诗1769 ...把馒头沾墨汁吃了都不知道。请问这篇课文叫什么。 “风吹花开蝶自来”的下一句是什么?35 电热水器不工作,加热指示灯不亮,不出热水是什么原因?5 笑看风轻云淡的下一句是什么192 把这22个字组成一句话恨忍我爱情你真没世今一为在活生乐有好快过帮个... 有一篇语文课文,写的是一个古代小孩吃馒头蘸墨水吃,那篇课文叫什么(三... 每个磁铁都有两个磁极,一个叫( ),用字母( )表示,;另一...55 海猫是一部电视剧的一个人物名字,查这部电视剧名字是?7 触漫海猫套装中头发裙子和眼睛分别叫什么名字?2 商务考察有什么途径吗?1 unicode和utf-8是什么关系66 Unicode 和 UTF-8 有何区别2 她刚失恋,我想追她。我有可能吗?2 我喜欢一个失恋的女孩子,是我的心动女生,该如何追求她? 我喜欢的女孩刚刚失恋!我们也刚刚认识!我想追她,可是又感觉现... 将盐水放入蒸发皿中加热蒸发,观察到食盐颗粒;此方法可以运用在... 秋天的怀念为什么以秋天的怀念为题19 沃尔沃s402.0是否有烧机油现像 秋天的怀念 为什么用秋天的怀念为题212 亚马孙河平原为什么人口少? 亚马逊平原为什么人少3 ...生.为.乐.有.好.快.过.不.用.把这23个字连成一句话! 为什么PS3在中国都是水货,索尼为什么不出中国版的,中国这么大,肯定有... 民国文人谁最有钱 将盐水放入蒸发皿中加热蒸发,观察到食盐颗粒;此方法可以运用在... 秋冬什么颜色的男士萝卜裤百搭好看 I Think I Love You 这句歌词出自哪首歌5 新洲到黄石公汽什么时间开啊,还有到黄石的哪个站 电热水器指示灯不亮,也不出热水?2