问题背景
最近有小伙伴对于C语言中指针的运算有点疑问:指针变量加1之后,到底向后偏移了几个字节呢?示例代码如下,这段代码运行在32位CPU平台上:
#include<stdio.h>
#pragma pack(1)
struct tree
{
int height;
int age;
char tag;
};
#pragma pack()
int main()
{
char buffer[512] = {0};
struct tree *t_ptr = NULL;
char *t_ptr_new = NULL;
char *tmp_ptr = NULL;
tmp_ptr = buffer;
t_ptr = (struct tree *)tmp_ptr;
t_ptr_new = (char *)(t_ptr + 1);
printf("t_ptr_new point to buffer[%ld]\n", t_ptr_new - tmp_ptr);
return 0;
}
请问,指针变量t_ptr_new 指向数组buffer的哪个位置?
如果能快速得出答案,恭喜你,已经掌握指针算术运算的原理,以及结构体占用空间大小的计算。如果不能,也不要气馁,正好可以将这部分欠缺的知识补充上。下面,让我们来逐步揭开它的内幕。
结构体
C语言中struct声明创建一个数据类型(结构体),能将不同类型的对象聚合到一个对象中,用名字来引用结构体的各个组成部分。结构体的所有组成部分都存放在一段连续的内存中。指向结构的指针就是结构第一个成员的地址。
示例中结构体类型定义
#pragma pack(1)
struct tree
{
int height;
int age;
char tag;
};
#pragma pack()
结构体内部有三个成员变量,其中两个为int型,一个char型。编译器按照成员列表顺序挨个给每个成员分配内存。此结构体占用的内存空间是多少个字节呢?
height和age各占用4个字节,tag占用1个字节。那结构体占用的空间就是9个字节呗。是这样码?
让我们先来了解一个概念:数据对齐。
许多计算机系统对基本的数据类型的合法地址做了一些限制。要求某种类型对象的地址必须是某个值(通常为2、4、8)的倍数。对齐原则是:任何占用K字节空间大小的基本对象,其地址必须是K的倍数。
由此,编译器可能需要在结构体成员内存的分配中插入间隙,保证每个结构成员都满足它的对齐要求。或者需要在结构体的末尾加入填充,从而使得结构体数组中的每个元素都会满足它的对齐要求。
本例中,结构体的首地址满足4字节对齐(第一个成员类型为int)要求后,height、age、tag三个成员均满足对齐原则。不过要考虑下面的声明:
Struct tree a[3];
如果分配9个字节,就不能满足数组a的每个元素的对齐要求。假设数组的起始地址为x,则每个元素的地址分别为x、x+9、x+18、x+27,有三个元素不满足对齐原则。由此,编译器会为结构tree分配12个字节,最后三个字节是补充的空间(浪费的空间)。
注意编译指令,#pragma pack(1)和#pragma pack()
pragma pack的主要作用就是改变编译器的内存对齐方式。在不使用这条指令的情况下,编译器采取默认方式对齐。这两条编译预处理指令,使得在这之间定义的结构体按照1字节方式对齐。在本例中,使用这两条指令的效果是,编译器不会在结构体尾部填充空间了。
最终,这个结构体占用的内存空间大小为9个字节。
理解指针
每个指针都对应一个类型。这个类型表明该指针指向的是哪一类对象。指针的类型不是机器码中的一部分,而是C语言提供的一种抽象,帮助程序员避免寻址错误。
每个指针都有一个值。这个值是某个指定类型的对象的地址。
示例代码中,
struct tree *t_ptr = NULL;
这语句是什么意思呢?其含义为:定义一个指针变量t_ptr并赋予了初值NULL。
详细解释:星号* 说明标识符t_ptr为“一个指向…的指针”;struct tree为类型说明符;可知,t_ptr为指向结构体tree类型的指针。
指针的类型由指向对象的数据类型和星号* 组合起来表示。例如,指针t_ptr的指针类型为“struct tree *”。
同理,示例代码中,t_ptr_new和tm_ptr为指向char类型的指针,并赋初始值NULL。
NULL指针
C语言标准中定义了NULL指针,作为一特殊的指针变量,其指向的内容为空(即不指向任何东西)。将其赋值给某个指针变量,表示该指针目前并未指向任何东西。
数组的名字
一个数组的名字也是一种指针,但这个指针的值是不能改变的。这种指针永远指向数组中的第一个元素,其指向的类型为数组元素的数据类型。示例结构体
char buffer[512];
数组名字buffer为指向char数据类型的指针,它指向数组的首个元素buffer[0]。
指针转换
通过类型转换,可以将指针从一种类型转换为另一种形式,改变的只是它的类型,值是不会改变的。C语言中的类型转换有两种:隐式类型转换和强制类型转换。
示例
t_ptr_new = (char *)(t_ptr + 1);
通过“(char *)”强制将struct tree *类型的指针转换为char *类型,并将其赋值给一个char *类型的指针。如果去掉“(char *)”,在编译过程中,编译器会根据“=”左侧变量的类型自动进行转换,但会产生告警信息。告警信息如下:
example.c: In function ‘main’:
example.c:21:12: warning: assignment from incompatible pointer type [-Wincompatible-pointer-types]
t_ptr_new = (t_ptr + 1);
本例中用强制类型转换,一方面是为了消除编译过程产生的警告,另一方面是为了使程序便于理解。
指针运算
C语言的指针运算有两种形式。
第一种:指针 ± 整数
这种计算出来的值,会根据该指针指向的某种数据类型的大小进行伸缩。例如,指针的值为x,指向的数据类型大小为L,整数为n,则计算出来的结果值为x+n*L。
示例代码,
t_ptr_new = (char *)(t_ptr + 1);
此表达式等价于(a_ptr符号在此处是为了便于理解而添加)
a_ptr = (t_ptr + 1);
t_ptr_new = (char *)a_ptr;
指针t_ptr加1(t_ptr + 1)的结果,会根据数据类型struct tree的大小进行增加。假设指针t_ptr的值为x(即地址值为x),而结构体类型tree的大小为9字节,则(t_ptr + 1)的值为x+9。然后,将此结果进行强制类型转换后,赋值给指针变量t_ptr_new。
第二种:指针 – 指针
只有当两个指针都指向同一个数组中的元素时,计算才有意义。减法运算的值是两个指针在内存中的距离(等于两个地址之差除以该元素数据类型的大小)。两个指针相减的结果的类型是ptrdiff_t,它是一种有符号整数类型。
如果两个指针值(地址值)的差值为12字节,每个元素占用4个字节,则两个指针相减得到的结果将是3(两个指针的差值12将除以每个元素的长度4)。
示例代码
printf("t_ptr_new point to buffer [%ld]\n", t_ptr_new - tmp_ptr);
由以上分析,两个指针相减(t_ptr_new - tmp_ptr),地址差值为9字节,而数组中每个元素的大小为1字节(char类型数据),则指针相减得到结果为9(9字节/1字节)。
综上分析
有了以上分析的基础,让我们看看最终答案是如何得出的。
tmp_ptr = buffer;
tmp_ptr指针指向数组buffer的第0个元素,即buffer[0]。
t_ptr = (struct tree *) tmp_ptr;
将指针tmp_ptr强制转换为 struct tree * 类型的指针后,赋值给指针变量t_ptr。
t_ptr_new = (char *)(t_ptr + 1);
这个表达式是问题的关键。t_ptr + 1运算得到的结果指针,指向下一个结构体tree元素,而结构体占用的空间大小为9个字节,因此指针加1后,实际偏移了9个字节。经过强制类型转换后,赋值给指针t_ptr_new。
printf("t_ptr_new point to buffer[%ld]\n", t_ptr_new - tmp_ptr);
t_ptr_new - tmp_ptr运算得到结果是9。由于tmp_ptr指向数组的第0个元素buffer[0],则t_ptr_new指向数组的第9个元素buffer[9]。
最终答案:指针加一后,偏移9个字节;t_ptr_new指向buffer数组的第9个元素。打印输出结果如下
t_ptr_new point to buffer[9]
扫码关注,获取更多精彩内容
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)