字符字面量
字符常量是单引号引起来的字符序列 ,字符常量通常由一个字符组成 , 也可以包含多个字符,比如'\n',在C中字符字面量是以int类型表示的,因此字符字面量的sizeof运算结果是4。更确切地说,在C中字符字面量是ASCII系统编码对应的索引,所以例如'a'就对应整数37.'A'对应的就是65.可见"C Programming Language"这本书的第35-36页的相关文档.
必须要提到一个概念就是数据对象(Data Objects),这里简称对象,这是很多写C教程很少提到的一个概念,也不是我凭空捏造的.文献来源http://www.newtonlabs.com/ic/ic_5.html
像基于C衍生出来其他高层语言所理解的"对象"是有些区别的.C中的对象更偏向于内存模型,数据对象就是规范C中所有基本数据类型的两个基本属性.
- 数据值(value):就是存储在某片特定数据类型大小的内存块中二进制数据的表示形式。
- 存储位置 (storage location),该存储位置由操作系统为分配一个该位置对应的地址
备注:一般来说,数据值对应的是右值,而存储位置对应的是左值,也就是变量;
而字符字面量是数据对象中的一个数据值,C的编译器根本不允许你这么做,因为数据值只是在某个一字节的内存块中二进制码表示形式,所以不会存在用取址操作符(&)去获取一个值的地址这种荒谬的说法.
char类型和字符字面量
其实这个问题就是上面同一个问题,换了一种问题描述而已。
因为在C中的声明一个char类型的变量就是一个左值(存储位置),它仅仅在char类型的变量对应的内存空间中保存字符字面量对应的ASCII编码的int类型的值而已.例如:
char c='A';
就告诉了C编译器完成两件事:
- 需要分配char类型该有的内存空间(通常是8bit,但实际大小跟运行的硬件平台有关);
-
在为char变量分配的内存空间中保存ASCII码字面量'A'对应的整数值65(二进制形式)
字符字面量:C vs C++
我们来考虑一下两个简单的代码
- 在C中char是一个基本的数据对象,默认1个字节;
- 在C++中同样继承了C的char类型,当然默认也是1个字节;
printf("%ld",sizeof(char)); //1个字节
C++中的字符字面量
下面这个代码的输出就非常有意思了
printf("%ld",sizeof('a'));
- 在C中,因为'a'本质上就是返回ASCII编码对应的int类型的整数值,而该C中int默认就是4个字节.这个没疑问.
- 在C ++语言中,当字符字面量被sizeof作为一个操作数时,C++编译器就会在调用代码的上下文隐含地定义了 一个临时char变量,并且该字符字面量对应的编码值保存到该临时变量中.因此你在C++源文件中用sizeof('a')会被替换为 以下伪代码
char tmp='a'; sizeof(tmp); //打印char类型变量的尺寸,而不是ASCII码对应int类型的尺寸
来源中文翻译:窄字符字面量或原始字符文字,例如 'a'或'\ n'或'\ 13'。 这样的字面量具有char类型,并且值等于执行字符集中c-char表示的值。 如果c-char不能表示为执行字符集中的单个字节,则字面量具有int类型和实现定义的值。
文献来源:https://en.cppreference.com/w/cpp/language/character_literal
其中为什么C++中要字符字面量视为一个char类型来看待其中一个例证那就是C++为了兼顾函数在面向对象编成思想中的两个特性,就是同样函数名称的原型的多态和重写的这两个特性,试想以下例子。
char kiss_me(char c);
int kiss_me(int c);
void main(void){
kiss_me('A');
kiss_me(65);
}
作一个反证的假设,如果C++将字符串字面量和C的约定是一样的话,那么字符字面量就视为一个ASCII码对应的int类型的整数值,那么C++就无法分辨下面的关于kiss_me的不同函数原型了,这就很矛盾了,反证C++中要字符字面量视为一个char类型的必要性.
区分字符字面量和字符串字面量
字符串字面量即用双引号括着的多个字符字面量就是字符字面量的序列。并且字符串字面量是存在于字面量池中,字面量池中的字符串字面量是在程序初始化的时候填出入字面量池中,其生命周期直到加载该字面串字面量的程序退出。我们可以将字面量池想象成一份“签到表”,而字符串字面量就比喻成众多的签名,但这份签到表比较特殊。
字面量池的特征
字面量池就是位于C/C++中内存布局中较向低地址的一片内存区域,这片内存区域的通常是公开的,整个程序的上下文用到所有字符字面量都会在初始化过程中填入该池,并且全局维护整个程序上下文的唯一副本。也就是其他内存区域用到字符串字面量副本是从该池中“初次”(注意我的用词)拷贝过去的发源地。该池的特征如下。
- 不允许有重复的字符串字面量出现,这样做的目的是为了节省空间,例如"hello word"不可能出现两次,但“hello world ”,注意后者的字符字面量最后是一个空格即
因此被字面量池认为不同于前者的字符串字面量。下面的例子同样的字符串字面量出现了两次,但两个char指针都指向字面量池中同一个字符串字面量,也就是说指向其池中的内存地址是一样的。char s[]=['h','e','l','l','o',' ','\0'];
int main (void){ char *s="it-dog"; char *b="it-dog"; //指针s和b指向同一个字符字面量的内存地址 //0x557375b2b21d }
- “字符串字面量”之间都是连贯的,每个字符串字面量之间结尾存在一个特殊字符'\0'
- 每个字符串字面量都存在一个唯一的内存地址,也就是说前一个字符串字面量末端字符'\0'的下一个字符字面量的内存地址就是对应字符串字面量的内存地址,即&“hello word”这样的用法在C/C++中是合法的。
char* s="hello word"; &"hello word" //和上面的 printf("%lp\n",&s) //和下一条语句输出的内存地址是一样的 printf("%lp\n",&"hello word")
- 字面量池中的字符串字面量是只读的,但池外中的其他内存区域的变量持有的相同的字符串字面量只是一个相同的副本而已,只要没有声名为常量字符串,都可以修改。