版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处。否则将追究法律责任。

这个设置项不会对编译器处理字符编码产生直接的影响(注意这里的“直接”二字,第3节会说到),只会在工程属性配置属性-->C/C++-->预处理器加入相应的宏:

使用Unicode字符集 --> _UNICODE和UNICODE宏 使用多字节字符集   --> _MBCS宏

这几个宏一般用来判断是使用char还是wchar_t,在系统API中使用比较多,如MessegeBox通过是否定义了UNICODE宏来决定是使用LPCSTR还是LPCWSTR(LPCSTR即const char, LPCWSTR即const wchar_t):

#ifdef UNICODE #define MessageBox  MessageBoxW #else #define MessageBox  MessageBoxA #endif // !UNICODE

2. char和wchar_t

上面提到了,定义API时通过判断UNICODE宏是否定义来决定是使用char还是wchar_t,那么char和wchar_t有什么不同了?

char和wchar_t是标准C/C++字符类型,并不是windows特有的。 char固定占1个字节,wchar_t固定占2个字节,从内存的角度来看,char、wchar_t和其他数据类型一样,只是代表一段内存块,用来存储固定长度的二进制0或1。 在编程时,我们一般习惯于将字符串储到char或wchar_t定义的内存空间中,将整形存储在int定义的内存空间中。

所以,用char还是wchar_t来存储字符,只是内存分配和数据存储上面的事情,它们本身也是与字符编码无直接关系的( 同样注意这里的“直接”二字,第3节会说到)。

3. 编译器如何处理硬编码字符

VC++编译器编译源代码的步骤中,涉及编码处理的步骤主要有2个:
第1步:预处理
1.1) 读取源文件,判断源文件采用的字符编码类型。(这一步不会改变文件内容)

编译器判断源文件编码类型的步骤为: 1. 若文件开始处有BOM(EF BB BF),则判定为UTF-8编码; 2. 若没有BOM,则试图从文件的前8个字节来判断文件是否像UTF-16编码,如果像,则就判断为UTF-16编码。 3. 如果既没BOM,也不是UTF-16编码,则使用系统当前的代码页(简体中文操作系统为CP936)。

不了解字符编码的朋友可以参考前一篇博客

现在我们就可以说清楚Visual Studio字符集设置、char、wchar_t是如何间接影响到编译器对字符编码的处理了:

Visual Studio字符集设置       | 决定声明哪一个宏(UNICODE还是_MBCS宏)       | 宏又决定了API参数使用char还是wchar_t       | 编译器在进行【执行字符集】编码时对char和wchar_采用不同的处理方式,从而对字符编码产生了影响。

4. 实例分析

GBK        D6 D0 Unicode    2D 4E UTF-8      E4 B8 AD