背景

最近准备一个教程，案例的过程中准备了如下代码碎片，演示解析http scheme

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

char *parse_scheme(const char *url)
{
    char *p = strstr(url,"://");
    return strndup(url,p-url);
}

int main()
{
    const char *url = "http://static.mengkang.net/upload/image/2019/0907/1567834464450406.png";
    char *scheme = parse_scheme(url);
    printf("%s\n",scheme);
    free(scheme);
    return 0;
}

上面是通过strndup的方式，背后也依托了malloc，所以最后也需要free。
有人在微信群私信parse_scheme能用char []来做返回值吗？我们知道栈上的数组也能用来存储字符串，那我们可以改写成下面这样吗？

char *parse_scheme(const char *url)
{
    char *p = strstr(url,"://");
    long l = p - url + 1;
    char scheme[l];
    strncpy(scheme, url, l-1);
    return scheme;
}

大多数人都知道不能这样写，因为返回的是栈上的地址，当从该函数返回之后，那段栈空间的操作权也释放了，当再次使用该地址的时候，值就是不确定的了。

那我们今天就一起探讨下出现这样情况的背后的真正原理。

基础预备

每个函数运行的时候因为需要内存来存放函数参数以及局部变量等，需要给每个函数分配一段连续的内存，这段内存就叫做函数的栈帧（Stack Frame）。
因为是一块连续的内存地址，所以叫帧；为什么叫要加一个栈呢？
想必大家都熟悉了函数调用栈，为什么叫函数调用栈呢？比如下面的表达式

array_values(explode(",",file_get_contents(...)));

函数的执行顺序是最内层的函数最先执行，然后依次返回执行外层的函数。所以函数的执行就是利用了栈的数据结构，所以就叫栈帧。

x86_64 cpu上的 rbp 寄存器存函数栈底地址，rsp 寄存器存函数栈顶地址。

实验

#include <stdio.h>

void foo(void)
{
    int i;
    printf("%d\n", i);
    i = 666;
}

int main(void)
{
    foo();
    foo();
    return 0;
}

$gcc -g 2.c

$./a.out
0
666

为什么第二次调用foo函数输出的结果都是上次函数调用的赋值呢？先看下反汇编之后的代码

000000000040052d <foo>:
#include <stdio.h>

void foo(void)
{
  40052d:    55                       push   %rbp
  40052e:    48 89 e5                 mov    %rsp,%rbp
  400531:    48 83 ec 10              sub    $0x10,%rsp
    int i;
    printf("%d\n", i);
  400535:    8b 45 fc                 mov    -0x4(%rbp),%eax
  400538:    89 c6                    mov    %eax,%esi
  40053a:    bf 00 06 40 00           mov    $0x400600,%edi
  40053f:    b8 00 00 00 00           mov    $0x0,%eax
  400544:    e8 c7 fe ff ff           callq  400410 <printf@plt>
    i = 666;
  400549:    c7 45 fc 9a 02 00 00     movl   $0x29a,-0x4(%rbp)
}
  400550:    c9                       leaveq
  400551:    c3                       retq

0000000000400552 <main>:

int main(void)
{
  400552:    55                       push   %rbp
  400553:    48 89 e5                 mov    %rsp,%rbp
    foo();
  400556:    e8 d2 ff ff ff           callq  40052d <foo>
    foo();
  40055b:    e8 cd ff ff ff           callq  40052d <foo>
    return 0;
  400560:    b8 00 00 00 00           mov    $0x0,%eax
}
  400565:    5d                       pop    %rbp
  400566:    c3                       retq
  400567:    66 0f 1f 84 00 00 00     nopw   0x0(%rax,%rax,1)
  40056e:    00 00

理论分析

第一次进入 foo函数前后

在进入foo函数之前，因为main里没有参数也没有局部变量，所以，main 的栈帧的长度就是0，rbp和rsp相等（0x7fffffffe2c0）。当执行

callq  40052d <foo>

会把main函数的在调用foo之后需要返回执行的下一行代码的地址压栈，因为是64位机器，地址8字节。
进入foo之后

push   %rbp

把rbp的值压栈，因为也是存的地址，所以又占了8字节，所以当初始化foo函数的rbp的时候

mov    %rsp,%rbp

rsp已经在原来的基础上加了16字节，所以从0x7fffffffe2c0变成了0x7fffffffe2b0。

sub    $0x10,%rsp

因为foo函数里面局部变量，编译的时候就预留了16字节，所以rsp变为了0x7fffffffe2a0
最后执行了

movl   $0x29a,-0x4(%rbp)

将666放在了0x7fffffffe2ac，当第二次调用的时候，打印i的汇编代码如下

    printf("%d\n", i);
  400535:    8b 45 fc                 mov    -0x4(%rbp),%eax
  400538:    89 c6                    mov    %eax,%esi
  40053a:    bf 00 06 40 00           mov    $0x400600,%edi
  40053f:    b8 00 00 00 00           mov    $0x0,%eax
  400544:    e8 c7 fe ff ff           callq  400410 <printf@plt>

第二次进入 foo函数前后

因为上次-0x4(%rbp)存了666，而第二次调用foo的rbp的值又和第一次一样，所以是一个地址。所以666就被打印出来了。

回到主题

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

char *parse_scheme(const char *url)
{
    char *p = strstr(url,"://");
    long l = p - url + 1;
    char scheme[l];
    strncpy(scheme, url, l-1);
    printf("%s\n",scheme);
    return scheme;
}

int main()
{
    const char *url = "http://static.mengkang.net/upload/image/2019/0907/1567834464450406.png";
    char *scheme = parse_scheme(url);
    printf("%s\n",scheme);

    return 0;
}

调试信息如下，当从parse_scheme返回时，打印scheme的结果还是http，但是当我们调用printf之后，和上面样例中一样，parse_scheme出栈，printf入栈，则栈上内存就又替换了，所以打印出来的结果则不一定是http了。

本文作者：周梦康

阅读原文

本文为云栖社区原创内容，未经允许不得转载。

彻底弄懂为什么不能把栈上分配的数组字符串作为返回值

背景

基础预备

实验

理论分析

回到主题

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

彻底弄懂为什么不能把栈上分配的数组字符串作为返回值

背景

基础预备

实验

理论分析

回到主题

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复