关于tcp-ip:最详细的Linux-TCPIP-协议栈源码分析

一.linux内核网络栈代码的筹备常识

1. linux内核ipv4网络局部分层构造：

BSD socket层： 这一部分解决BSD socket相干操作，每个socket在内核中以struct socket构造体现。这一部分的文件

次要有：/net/socket.c /net/protocols.c etc INET socket层：BSD socket是个能够用于各种网络协议的接口，而当用于tcp/ip，即建设了AF_INET模式的socket时，

还须要保留些额定的参数，于是就有了struct sock构造。文件次要

有：/net/ipv4/protocol.c /net/ipv4/af_inet.c /net/core/sock.c etc TCP/UDP层：解决传输层的操作，传输层用struct inet_protocol和struct proto两个构造示意。文件次要

有：/net/ipv4/udp.c /net/ipv4/datagram.c /net/ipv4/tcp.c /net/ipv4/tcp_input.c /net/ipv4//tcp_output.c /net/ipv4/tcp_minisocks.c /net/ipv4/tcp_output.c /net/ipv4/tcp_timer.c

etc IP层：解决网络层的操作，网络层用struct packet_type构造示意。文件次要有：/net/ipv4/ip_forward.c

ip_fragment.c ip_input.c ip_output.c etc. 数据链路层和驱动程序：每个网络设备以struct net_device示意，通用的解决在dev.c中，驱动程序都在/driver/net目

录下。

2. 两台主机建设udp通信所走过的函数列表

skb_recv_datagram net/core/datagram.c
sock_queue_rcv_skb include/net/sock.h
udp_queue_rcv_skb net/ipv4/udp.c
udp_rcv net/ipv4/udp.c
ip_local_deliver_finish net/ipv4/ip_input.c
ip_local_deliver net/ipv4/ip_input.c
ip_recv net/ipv4/ip_input.c
net_rx_action net/dev.c
netif_rx net/dev.c
el3_rx driver/net/3c309.c
el3_interrupt driver/net/3c309.c

dev_queue_xmit net/dev.c
el3_start_xmit driver/net/3c309.c

须要C/C++ Linux服务器架构师学习材料加群563998835（材料包含C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg等），收费分享

二.linux的tcp-ip栈代码的详细分析

1.数据结构(msghdr,sk_buff,socket,sock,proto_ops,proto)

bsd套接字层,操作的对象是socket,数据寄存在msghdr这样的数据结构：

创立socket须要传递family,type,protocol三个参数，创立socket其实就是创立一个socket实例，而后创立一个文件描述符构造，并且相互建设一些关联，即建设相互连贯的指针，并且初始化这些对文件的写读操作映射到socket的read，write函数上来。

同时初始化socket的操作函数（proto_ops构造),如果传入的type参数是STREAM类型，那么就初始化为SOCKET->ops为inet_stream_ops，如果是DGRAM类型，则SOCKET-ops为inet_dgram_ops。对于inet_stream_ops其实是一个构造体，蕴含了stream类型的socket操作的一些入口函数，在这些函数里次要做的是对socket进行相干的操作，同时通过调用上面提到的sock中的相干操作实现socket到sock层的传递。比方在inet_stream_ops里有个inet_release的操作，这个操作除了开释socket的类型空间操作外，还通过调用socket连贯的sock的close操作，对于stream类型来说，即tcp_close来敞开sock

开释sock。

创立socket同时还创立sock数据空间，初始化sock,初始化过程次要做的事件是初始化三个队列，receive_queue（接管到的数据包sk_buff链表队列),send_queue(须要发送数据包的sk_buff链表队列),backlog_queue(次要用于tcp中三次握手胜利的那些数据包,本人猜的),依据family、type参数，初始化sock的操作，比方对于family为inet类型的，type为stream类型的，sock->proto初始化为tcp_prot.其中包含stream类型的协定sock操作对应的入口函数。

在一端对socket进行write的过程中，首先会把要write的字符串缓冲区整顿成msghdr的数据结构模式(参见linux内核2.4版源代码剖析大全),而后调用sock_sendmsg把msghdr的数据传送至inet层，对于msghdr构造中数据区中的每个数据包，创立sk_buff构造，填充数据，挂至发送队列。一层层往上层协定传递。一下每层协定不再对数据进行拷贝。而是对sk_buff构造进行操作。

inet套接字及以上层数据寄存在sk_buff这样的数据结构里：

路由：

在linux的路由零碎次要保留了三种与路由相干的数据，第一种是在物理上和本机相连接的主机地址信息表，第二种是保留了在网络拜访中判断一个网络地址应该走什么路由的数据表；第三种是最新应用过的查问路由地址的缓存地址数据表。

1.neighbour构造 neighbour_table{ }是一个蕴含和本机所连贯的所有邻元素的信息的数据结构。该构造中有个元素是neighbour构造的数组，数组的每一个元素都是一个对应于邻机的neighbour构造，零碎中因为协定的不同，会有不同的判断街坊的形式，每种都有neighbour_table{}类型的实例，这些实例是通过neighbour_table{}中的指针next串联起来的。在neighbour构造中，蕴含有与该街坊相连的网络接口设施net_device的指针，网络接口的硬件地址，街坊的硬件地址，蕴含有neigh_ops{}指针，这些函数指针是间接用来连贯传输数据的，蕴含有queue_xmit(struct * sk_buff)函数入口地址，这个函数可能会调用硬件驱动程序的发送函数。

2.FIB构造在FIB中保留的是最重要的路由规定,通过对FIB数据的查找和换算，肯定可能取得路由一个地址的办法。零碎中路由个别采取的伎俩是：先到路由缓存中查找表项，如果可能找到，间接对应的一项作为路由的规定；如果不能找到，那么就到FIB中依据规定换算传算进去，并且减少一项新的，在路由缓存中将我的项目增加进去。

3.route构造（即路由缓存中的构造)

数据链路层：

net_device{}构造，对应于每一个网络接口设施。这个构造中蕴含很多能够间接获取网卡信息的函数和变量，同时蕴含很多对于网卡操作的函数，这些间接指向该网卡驱动程序的许多函数入口，包含发送接收数据帧到缓冲区等。当这些实现后，比方数据接管到缓冲区后便由netif_rx(在net/core/dev.c各种设施驱动程序的下层框架程序)把它们组成sk_buff模式挂到零碎接管的backlog队列而后交由下层网络协议解决。同样，对于下层协定解决下来的那些sk_buff。便由dev_queue_xmit函数放入网络缓冲区，交给网卡驱动程序的发送程序处理。

在零碎中存在一张链表dev_base将零碎中所有的net_device{}构造连在一起。对应于内核初始化而言，系统启动时便为每个所有可能反对的网络接口设施申请了一个net_device{}空间并串连起来，而后对每个接点运行检测过程，如果检测胜利，则在dev_base链表中保留这个接点，否则删除。对应于模块加载来说，则是调用register_netdev()注册net_device,在这个函数中运行检测过程，如果胜利，则加到dev_base链表。否则就返回检测不到信息。删除同理，调用

unregister_netdev。

2.启动剖析

2.1 初始化过程 ：start-kernel(main.c)---->do_basic_setup(main.c)---->sock_init(/net/socket.c)---->do_initcalls(main.c)

void __init sock_init(void) { int i;printk(KERN_INFO "Linux NET4.0 for Linux 2.4/n"); printk(KERN_INFO "Based upon Swansea University Computer Society NET3.039/n");/*   * Initialize all address (protocol) families. 每一项示意的是针对一个地址族的操作汇合，例如对于ipv4来说，在net/ipv4/af_inet.c文件中的函数inet_proto_init()就调用sock_register()函数将inet_families_ops初始化到属于IPV4的net_families数组中的一项。   */ for (i = 0; i < NPROTO; i++)   net_families[i] = NULL; /*   * Initialize sock SLAB cache.初始化对于sock构造预留的内存的slab缓存。   */ sk_init();#ifdef SLAB_SKB /*   * Initialize skbuff SLAB cache 初始化对于skbuff构造的slab缓存。当前对于skbuff的申请能够通过函数kmem_cache_alloc()在这个缓存中申请空间。   */ skb_init(); #endif/*   * Wan router layer.   */#ifdef CONFIG_WAN_ROUTER wanrouter_init(); #endif/*   * Initialize the protocols module. 向零碎注销sock文件系统，并且将其装置到零碎上来。   */register_filesystem(&sock_fs_type); sock_mnt = kern_mount(&sock_fs_type); /* The real protocol initialization is performed when   *  do_initcalls is run.    *//*   * The netlink device handler may be needed early.   */#ifdef CONFIG_NET rtnetlink_init(); #endif #ifdef CONFIG_NETLINK_DEV init_netlink(); #endif #ifdef CONFIG_NETFILTER netfilter_init(); #endif#ifdef CONFIG_BLUEZ bluez_init(); #endif/*yfhuang ipsec*/ #ifdef CONFIG_IPSEC pfkey_init(); #endif /*yfhuang ipsec*/ }

2.2 do_initcalls() 中做了其它的初始化，其中包含

协定初始化，路由初始化，网络接口设施初始化

(例如inet_init函数以_init结尾示意是零碎初始化时做，函数完结后跟module_init(inet_init),这是一个宏，在include/linux/init.c中定义，开展为_initcall(inet_init),示意这个函数在do_initcalls被调用了)

2.3 协定初始化

此处次要列举inet协定的初始化过程。

static int __init inet_init(void) { struct sk_buff *dummy_skb; struct inet_protocol *p; struct inet_protosw *q; struct list_head *r;printk(KERN_INFO "NET4: Linux TCP/IP 1.0 for NET4.0/n");if (sizeof(struct inet_skb_parm) > sizeof(dummy_skb->cb)) {   printk(KERN_CRIT "inet_proto_init: panic/n");   return -EINVAL; }/*   * Tell SOCKET that we are alive... 注册socket，通知socket inet类型的地址族曾经筹备好了   */    (void) sock_register(&inet_family_ops);/*   * Add all the protocols. 包含arp,ip、ICMP、UPD、tcp_v4、tcp、igmp的初始化，次要初始化各种协定对应的inode和socket变量。其中arp_init实现零碎中路由局部neighbour表的初始化ip_init实现ip协定的初始化。在这两个函数中，都通过定义一个packet_type构造的变量将这种数据包对应的协定发送数据、容许发送设施都做初始化。  */printk(KERN_INFO "IP Protocols: "); for (p = inet_protocol_base; p != NULL;) {   struct inet_protocol *tmp = (struct inet_protocol *) p->next;   inet_add_protocol(p);   printk("%s%s",p->name,tmp?", ":"/n");   p = tmp; }/* Register the socket-side information for inet_create. */ for(r = &inetsw[0]; r < &inetsw[SOCK_MAX]; ++r)   INIT_LIST_HEAD(r);for(q = inetsw_array; q < &inetsw_array[INETSW_ARRAY_LEN]; ++q)   inet_register_protosw(q);/*   * Set the ARP module up    */arp_init();   /*     * Set the IP module up     */ip_init();tcp_v4_init(&inet_family_ops);/* Setup TCP slab cache for open requests. */ tcp_init();/*   * Set the ICMP layer up   */icmp_init(&inet_family_ops);/* I wish inet_add_protocol had no constructor hook...     I had to move IPIP from net/ipv4/protocol.c :-( --ANK   */ #ifdef CONFIG_NET_IPIP ipip_init(); #endif #ifdef CONFIG_NET_IPGRE ipgre_init(); #endif/*   * Initialise the multicast router   */ #if defined(CONFIG_IP_MROUTE) ip_mr_init(); #endif/*   * Create all the /proc entries.   */ #ifdef CONFIG_PROC_FS proc_net_create ("raw", 0, raw_get_info); proc_net_create ("netstat", 0, netstat_get_info); proc_net_create ("snmp", 0, snmp_get_info); proc_net_create ("sockstat", 0, afinet_get_info); proc_net_create ("tcp", 0, tcp_get_info); proc_net_create ("udp", 0, udp_get_info); #endif  /* CONFIG_PROC_FS */ipfrag_init();return 0; }  module_init(inet_init);

2.4 路由初始化(包含neighbour表、FIB表、和路由缓存表的初始化工作)

2.4.1 rtcache表 ip_rt_init()函数在net/ipv4/ip_output中调用，net/ipv4/route.c中定义

2.4.2 FIB初始化在ip_rt_init()中调用在net/ipv4/fib_front.c中定义

2.4.3 neigbour表初始化 arp_init（）函数中定义

2.5 网络接口设施初始化

在零碎中网络接口都是由一个dev_base链表进行治理的。通过内核的启动形式也是通过这个链表进行操作的。在系统启动之初，将所有内核可能反对的网络接口都初始化成这个链表中的一个节点，并且每个节点都须要初始化出init函数指针，用来检测网络接口设施。而后，零碎遍历整个dev_base链表，对每个节点别离调用init函数指针，如果胜利，证实网络接口设施可用，那么这个节点就能够进一步初始化，如果返回失败，那么证实该网络设备不存在或是不可用，只能将该节点删除。启动完结之后，在dev_base中剩下的都是能够用的网络接口设施。

2.5.1 do_initcalls---->net_dev_init()(net/core/dev.c)------>ethif_probe()(drivers/net/Space.c,在netdevice{}构造的init中调用，这边ethif_probe是以太网卡针对的调用)

3.网络设备驱动程序（略)

4.网络连接

4.1 连贯的建设和敞开

tcp连贯建设的代码如下:

server=gethostbyname(SERVER_NAME);sockfd=socket(AF_INET,SOCK_STREAM,0);address.sin_family=AF_INET；address.sin_port=htons(PORT_NUM);memcpy(&address.sin_addr,server->h_addr,server->h_length);connect(sockfd,&address,sizeof(address));

连贯的初始化与建设期间次要产生的事件如下：

1）sys_socket调用：调用socket_creat(),创立出一个满足传入参数family、type、和protocol的socket,调用sock_map_fd()获取一个未被应用的文件描述符，并且申请并初始化对应的file{}构造。

2）sock_creat()：创立socket构造，针对每种不同的family的socket构造的初始化，就须要调用不同的create函数来实现。对应于inet类型的地址来说，在网络协议初始化时调用sock_register()函数中实现注册的定义如下：

 struct net_proto_family inet_family_ops={                PF_INET;                inet_create        };

所以inet协定最初会调用inet_create函数。

3）inet_create: 初始化sock的状态设置为SS_UNCONNECTED,申请一个新的sock构造，并且初始化socket的成员ops初始化为inet_stream_ops,而sock的成员prot初始化为tcp_prot。而后调用sock_init_data,将该socket构造的变量sock和sock类型的变量关联起来。

4）在零碎初始化结束后便是进行connect的工作，零碎调用connect将一个和socket构造关联的文件描述符和一个sockaddr{}构造的地址对应的近程机器相关联，并且调用各个协定本人对应的connect连贯函数。对应于tcp类型，则sock->ops->connect便为inet_stream_connect。

5）inet_stream_connect: 失去sk,sk=sock->sk,锁定sk，对主动获取sk的端口号寄存在sk->num中，并且用htons()函数转换寄存在sk->sport中。而后调用sk->prot->connect()函数指针，对tcp协定来说就是tcp_v4_connect()函数。而后将sock->state状态字设置为SS_CONNECTING,期待前面一系列的解决实现之后，就将状态改成SS_CONNECTTED。

6) tcp_v4_connect()：调用函数ip_route_connect()，寻找适合的路由寄存在rt中。ip_route_connect找两次，第一次找到下一跳的ip地址，在路由缓存或fib中找到，而后第二次找到下一跳的具体街坊，到neigh_table中找到。而后申请出tcp头的空间寄存在buff中。将sk中相干地址数据做一些针对路由的变动，并且初始化一个tcp连贯的序列号，调用函数tcp_connect（），初始化tcp头，并设置tcp解决须要的定时器。一次connect（）建设的过程就完结了。

连贯的敞开次要如下：

1）close: 一个socket文件描述符对应的file{}构造中，有一个file_operations{}构造的成员f_ops，它的初始化敞开函数为sock_close函数。

2）sock_close：调用函数sock_release(),参数为一个socket{}构造的指针。

3）sock_release：调用inet_release，并开释socket的指针和文件空间

4）inet_release: 调用和该socket对应协定的敞开函数inet_release,如果是tcp协定，那么调用的是tcp_close；最初开释sk。

4.2 数据发送流程图

各层次要函数以及地位性能阐明：

1)sock_write：初始化msghdr{}构造 net/socket.c

2)sock_sendmsg:net/socket.c

3)inet_sendmsg:net/ipv4/af_net.c

4)tcp_sendmsg：申请sk_buff{}构造的空间，把msghdr{}构造中的数据填入sk_buff空间。net/ipv4/tcp.c

5)tcp_send_skb:net/ipv4/tcp_output.c

6)tcp_transmit_skb:net/ipv4/tcp_output.c

7)ip_queue_xmit:net/ipv4/ip_output.c

8)ip_queue_xmit2:net/ipv4/ip_output.c

9)ip_output:net/ipv4/ip_output.c

10)ip_finish_output:net/ipv4/ip_output.c

11)ip_finish_output2:net/ipv4/ip_output.c

12)neigh_resolve_output:net/core/neighbour.c

13)dev_queue_xmit:net/core/dev.c

4.3 数据接管流程图

各层次要函数以及地位性能阐明：

1)sock_read:初始化msghdr{}的构造类型变量msg，并且将须要接管的数据寄存的地址传给msg.msg_iov->iov_base. net/socket.c

2)sock_recvmsg: 调用函数指针sock->ops->recvmsg()实现在INET Socket层的数据接管过程.其中sock->ops被初始化为inet_stream_ops,其成员recvmsg对应的函数实现为inet_recvmsg()函数. net/socket.c

3)sys_recv()/sys_recvfrom():别离对应着面向连贯和面向无连贯的协定两种状况. net/socket.c

4)inet_recvmsg:调用sk->prot->recvmsg函数实现数据接管,这个函数对于tcp协定便是tcp_recvmsg net/ipv4/af_net.c

5)tcp_recvmsg:从网络协议栈接收数据的动作,自上而下的触发动作始终到这个函数为止,呈现了一次期待的过程.函数tcp_recvmsg可能会被动地期待在sk的接收数据队列上,也就是说,零碎中必定有其余中央会去批改这个队列使得tcp_recvmsg能够进行上来.入口参数sk是这个网络连接对应的sock{}指针,msg用于寄存接管到的数据.接收数据的时候会去遍历接管队列中的数据,找到序列号适合的.

但读取队列为空时tcp_recvmsg就会调用tcp_v4_do_rcv应用backlog队列填充接管队列.

6)tcp_v4_rcv:tcp_v4_rcv被ip_local_deliver函数调用,是从IP层协定向INET Socket层提交的"数据到"申请,入口参数skb寄存接管到的数据,len是接管的数据的长度,这个函数首先挪动skb->data指针,让它指向tcp头,而后更新tcp层的一些数据统计,而后进行tcp的一些值的校验.再从INET Socket层中曾经建设的sock{}构造变量中查找正在期待以后达到数据的哪一项.可能这个sock{}构造曾经建设,或者还处于监听端口、期待数据连贯的状态。返回的sock构造指针寄存在sk中。而后依据其余过程对sk的操作状况,将skb发送到适合的地位.调用如下:

TCP包接收器(tcp_v4_rcv)将TCP包投递到目标套接字进行接管解决. 当套接字正被用户锁定,TCP包将临时排入该套接字的后备队列(sk_add_backlog).这时如果某一用户线程希图锁定该套接字(lock_sock),该线程被排入套接字的后备解决期待队列(sk->lock.wq).当用户开释上锁的套接字时(release_sock,在tcp_recvmsg中调用),后备队列中的TCP包被立刻注入TCP包处理器(tcp_v4_do_rcv)进行解决,而后唤醒期待队列中最先的一个用户来取得其锁定权. 如果套接字未被上锁,当用户正在读取该套接字时, TCP包将被排入套接字的预备队列(tcp_prequeue),将其传递到该用户线程上下文中进行解决.如果增加到sk->prequeue不胜利,便能够增加到 sk->receive_queue队列中(用户线程能够注销到预备队列,当预备队列中呈现第一个包时就唤醒期待线程.) /net/tcp_ipv4.c

7)ip_rcv、ip_rcv_finish:从以太网接收数据，放到skb里，作ip层的一些数据及选项查看，调用ip_route_input()做路由解决,判断是进行ip转发还是将数据传递到高一层的协定.调用skb->dst->input函数指针,这个指针的实现可能有多种状况,如果路由失去的后果阐明这个数据包应该转发到其余主机,这里的input便是ip_forward;如果数据包是给本机的,那么input指针初始化为ip_local_deliver函数./net/ipv4/ip_input.c

8)ip_local_deliver、ip_local_deliver_finish:入口参数skb寄存须要传送到下层协定的数据,从ip头中获取是否曾经分拆的信息,如果曾经分拆,则调用函数ip_defrag将数据包重组。而后通过调用ip_prot->handler指针调用tcp_v4_rcv(tcp)。ip_prot是inet_protocol构造指针,是用来ip层注销协定的，比方由udp,tcp,icmp等协定。 /net/ipv4/ip_input.c

Linux通过同时对多种通信协议的反对来提供通用的底层根底服务。它的第一个网络模型的版本是4.3 BSD，也称为Net/1，明天的Linux曾经应用Net/4 （Linux 2.2），其中大多数代码曾经齐全和BSD的版本不同，然而它仍然反对UINX平台之间程序的移植。

Linux网络套接字实现的模式是UNIX下的广泛规范。同时，Net/4的网络层是齐全重整旗鼓重写的。首先，新的网络层尽可能地履行并行处理，因而其伸缩性比起以前的版本，不可同日而语。其次，它包含了许多的优化，以便绕过不少风行操作系统网络实现中的不合理处（例如Windows）。到目前为止，Linux 是惟一与IPv4和IPv6协定规范齐全放弃兼容的操作系统，而Linux2.4的IPv4伸缩性又大有进步。

Linux反对的六种不同通信协议族：

1） TCP/IP （应用TCP/IP的Internet 协定族），本文探讨的重点。

2） UNIX域协定（一种过程间通信的协定）

3） X25协定

4） AX25协定（业余无线X25）

5）IPX协定（Novell IPX）

6） APPLETALK协定（AppleTalk DDP）

1.1 内核源代码的组织

表1是本文要应用的Linux Net/4网络源代码的,其中大部分位于目录/usr/src/linux-2.2.x/net,列表如下，

插口层
BSD Socket
/net/socket.c
/net/protocols.c
INET Socket
/ipv4/protocol.c
/ipv4/af_inet.c
/net/ipv4/core/sock.c
协定层
TCP/UDP
/net/ipv4/udp.c
/net/ipv4/datagram.c
/net/ipv4/tcp_input.c
/net/ipv4//tcp_output.c
/net/ipv4/tcp.c
/net/ipv4/tcp_minisocks.c
/net/ipv4/tcp_timer.c etc...
IP
/net/ipv4/ip_forward.c
/net/ipv4/ip_fragment.c
/net/ipv4/ip_input.c
/net/ipv4/ip_output.c
接口层
Ethernet
......

1.2 Linux中TCP/IP网络层次结构与实现
Linux通过一组相邻的软件层实现了TCP/IP模型，它由BSD Socket层、INET

Socket层、传输层、网络层，和链路层形成。应用程序应用零碎调用向内核函数传递参数和数据从而进入内核空间，由内核中注册的内核函数对相应的数据结构进行解决。Linux的TCP/IP层次结构和实现形式如图所示。