utf8的3字节转unicode
发布网友
发布时间:2023-03-08 12:50
我来回答
共1个回答
热心网友
时间:2023-10-09 16:08
UTF-8汉字采用三字节编码,有如下固定格式 :1110xxxx 10xxxxxx 10xxxxxx
其中用x代表的16位使用unicode相应的位来填充,可得到汉字的代码点,这个可以直接用来输出
,如下面给出的例子,分别是三字节序列,可转换成Unicode
例如 :
%E8%AE%B8(许的三字节编码) :11101000 10101110 10111000
取第一个字节4-7位(假设是从左到右0-7位):1000十六进制为8,
取第二个字节的2-5位:1011为B
取第二个字节6-7位和第三个字节2-3位 :1011为B
取第三个字节4-7位:1000为8
故可以得到“许”的Unicode码为\u8bb8