这篇文章主要介绍Windows记事本里可选的字符编码有哪些,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
<强>简析Windows记事本里可选的字符编码强>
群里@lizheming问到了Windows记事本(记事本)中保存文件的编码选项都是什么意思……
这篇文章就简单测试一下Windows记事本的行为。
▲Windows记事本的编码包含ANSI, Unicode, Unicode big endian和utf - 8。
警告
本文仅仅阐述一个广泛使用的软件的技术事实,不代表作者支持或反对使用该软件。
事实上作者推荐任何时候都不使用Windows Notepad来处理计算机程序代码。
本文仅在某一个简体中文版64位Windows 7的实例下验证,仅供参考。不保证在其他相同或相异系统下能够重现一致的结果。
注意
本文严格区分Unicode的<强>编码强>和<强>字节序列化强>。
Unicode的<强>编码强>仅指使用数(通常写成16进制数)来一对一的代表字符的工作。这个数的范围仅受Unicode标准的约束,与计算机毫无关联。
Unicode的<>强字节序列化强>指为了能够写入计算机存储器,而把一个Unicode标准范围内的数,表示成N个字节的工作。
测试用例
测试用例为:“锟斤拷【断行】的【断行】”。(锟斤拷是一种信仰)。
所有字符的GBK和Unicode编码为:
- <李>
锟GBK=<代码> EFBF Unicode=<代码> 代码> U + 951 f 代码>
李> <李>斤GBK=<代码> BDEF Unicode=<代码> 代码> U + 65 a4 代码>
李> <李>拷GBK=<代码> BFBD Unicode=<代码> 代码> U + 62 f7 代码>
李>以下ASCII字符的GBK和Unicode编码与ASCII一致:
=<代码> 0 x61 代码> CR=<代码> 0 x0d 代码>低频=<代码> 0 x0a 代码>
引用>
,(Windows一个换行符占有两个字符:CR + LF)ANSI
在简体中文系统下,ANSI就是中华人民共和国国家标准定义的GBK编码。
Windows记事本使用ANSI存储这个文件的结果如下:
EF BF , BD EF , BF BD , 0 d , 0 a , 61,, 0 d 0 a ----- ----- ----- -- -- -- -- --简单的使用GBK编码存储了所有的字符。最高位不是1的单字节并等同于ASCII,否则双字节。
这里要注意字节序(Endian)的问题
[注A]
。可以看到这里的字节序是大端在先(big-endian)的。但是不必特意强调“大端在先的GBK”——因为从GB2312开始,标准就规定了存储方式是大端在先的
[注B]
。后来的GBK和GB18030-2000向下兼容。ANSI的麻烦就是依赖系统——其他语言系统的ANSI就不是GBK了,打开GBK的文件必然乱码。并且GBK的字符集本身也太小。
(千万不要说“我只用中文”——少了Unicode那些符号,网上那些颜文字都打不出来)Unicode系列
Windows Notepad所说的“Unicode”、“Unicode big endian”和UTF-8,全都是同样的Unicode编码的不同的字节序列化存储方法。
UTF-16 和 BOM
这里的Unicode指UTF-16
[注C]
。UTF-16是极其简单粗暴的序列化方法——绝大多数的Unicode字符都在U+0000~U+FFFF的范围内[注D]
,那就每个字符用两个字节,把Unicode编码的原始值写盘。注意ASCII字符也必须浪费一倍的空间存储高8位的0x00——因为如果把高8位的0略了,解析时就再也没有其他的依据去断字。
对于UTF-16就存在大端和小端的问题了——UTF-16并不规定字节的大端在前还是小端在前。但UTF-16并不包含表示字节序的信息,总不能人工看看哪个解析是不乱码的吧……
Unicode提供的解决方式是,把一个零宽无断字空格符(
U+FEFF
ZERO WIDTH NO-BREAK SPACE)以UTF-16的方式序列化之后,塞到文件的最前边。这样UTF-16解析器读取文件的前两个字节,如果是FE FF
就是大端在前,FF FE
就是小端在前。这个塞进去的东西就叫BOM(Byte Order Mark,字节顺序标记)。
值得一提的是,零宽无断字空格符也常用于充当1个有效字符,破拆各种场合的字数限制。包括SegmentFault的问答和评论内容在内。
记事本的“Unicode”和“Unicode big endian”
Windows记事本里可选的字符编码有哪些