标签归档:unicode

关于字符编码的小测试

建立一个文本文档,输入下列内容:

1234567890
abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
一二三四五六七八九十零
随便输入的一句话

另存为成四个文件,编码分别选择ANSI,Unicode,Unicode big endian,UTF-8。
比如:
t1.txt 使用ANSI编码
t2.txt 使用Unicode编码,这个选项用的little endian格式,低位在前 继续阅读关于字符编码的小测试

ASCII、Unicode和ISO10646

ASCII
  ASCII是用来表示英文字符的一种编码规范,每个ASCII字符占用1个字节(8bits)。ASCII编码可以表示的最大字符数是256个,范围是0~255。八位一般只用低7位(最高位为0),共128个其中包括了控制字符、数字、大小写字母和其他一些符号。而最高位为1的另128个字符被称为“扩展ASCII码”,一般用来存放英文的制表符、部分音标字符等等的一些其他符号。

Unicode字符集
  Unicode标准定义了一个字符集和几种编码。
  Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,可以只通过一个唯一的数字(Unicode码点)来访问和操作字符。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 继续阅读ASCII、Unicode和ISO10646