关于后端:浅谈容器网络

分享下 Kubernetes 社区资深成员与我的项目维护者「张磊」对于这个话题的思考。

你好，我是张磊。明天我和你分享的主题是：浅谈容器网络。

在后面解说容器根底时，我已经提到过一个Linux容器能看见的“网络栈”，实际上是被隔离在它本人的Network Namespace当中的。

而所谓“网络栈”，就包含了：网卡（Network Interface）、回环设施（Loopback Device）、路由表（Routing Table）和iptables规定。对于一个过程来说，这些因素，其实就形成了它发动和响应网络申请的根本环境。

须要指出的是，作为一个容器，它能够申明间接应用宿主机的网络栈（–net=host），即：不开启Network Namespace，比方：

$ docker run –d –net=host --name nginx-host nginx

在这种状况下，这个容器启动后，间接监听的就是宿主机的80端口。

像这样间接应用宿主机网络栈的形式，尽管能够为容器提供良好的网络性能，但也会不可避免地引入共享网络资源的问题，比方端口抵触。所以，在大多数状况下，咱们都心愿容器过程能应用本人Network Namespace里的网络栈，即：领有属于本人的IP地址和端口。

这时候，一个不言而喻的问题就是：[strong_begin]这个被隔离的容器过程，该如何跟其余Network Namespace里的容器过程进行交互呢？[strong_end]

为了了解这个问题，你其实能够把每一个容器看做一台主机，它们都有一套独立的“网络栈”。

如果你想要实现两台主机之间的通信，最间接的方法，就是把它们用一根网线连接起来；而如果你想要实现多台主机之间的通信，那就须要用网线，把它们连贯在一台交换机上。

在Linux中，可能起到虚构交换机作用的网络设备，是网桥（Bridge）。它是一个工作在数据链路层（Data Link）的设施，次要性能是依据MAC地址学习来将数据包转发到网桥的不同端口（Port）上。

当然，至于为什么这些主机之间须要MAC地址能力进行通信，这就是网络分层模型的基础知识了。不相熟这块内容的读者，能够通过这篇文章来学习一下。

而为了实现上述目标，Docker我的项目会默认在宿主机上创立一个名叫docker0的网桥，但凡连贯在docker0网桥上的容器，就能够通过它来进行通信。

可是，咱们又该如何把这些容器“连贯”到docker0网桥上呢？

这时候，咱们就须要应用一种名叫Veth Pair的虚构设施了。

Veth Pair设施的特点是：它被创立进去后，总是以两张虚构网卡（Veth Peer）的模式成对呈现的。并且，从其中一个“网卡”收回的数据包，能够间接呈现在与它对应的另一张“网卡”上，哪怕这两个“网卡”在不同的Network Namespace里。

这就使得Veth Pair经常被用作连贯不同Network Namespace 的“网线”。

比方，当初咱们启动了一个叫作nginx-1的容器：

$ docker run –d --name nginx-1 nginx

而后进入到这个容器中查看一下它的网络设备：

# 在宿主机上
$ docker exec -it nginx-1 /bin/bash
# 在容器里
root@2b3c181aecf1:/# ifconfig
eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 172.17.0.2  netmask 255.255.0.0  broadcast 0.0.0.0
        inet6 fe80::42:acff:fe11:2  prefixlen 64  scopeid 0x20<link>
        ether 02:42:ac:11:00:02  txqueuelen 0  (Ethernet)
        RX packets 364  bytes 8137175 (7.7 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 281  bytes 21161 (20.6 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        
lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1000  (Local Loopback)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        
$ route
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
default         172.17.0.1      0.0.0.0         UG    0      0        0 eth0
172.17.0.0      0.0.0.0         255.255.0.0     U     0      0        0 eth0

能够看到，这个容器里有一张叫作eth0的网卡，它正是一个Veth Pair设施在容器里的这一端。

通过route命令查看nginx-1容器的路由表，咱们能够看到，这个eth0网卡是这个容器里的默认路由设施；所有对172.17.0.0/16网段的申请，也会被交给eth0来解决（第二条172.17.0.0路由规定）。

而这个Veth Pair设施的另一端，则在宿主机上。你能够通过查看宿主机的网络设备看到它，如下所示：

# 在宿主机上
$ ifconfig
...
docker0   Link encap:Ethernet  HWaddr 02:42:d8:e4:df:c1  
          inet addr:172.17.0.1  Bcast:0.0.0.0  Mask:255.255.0.0
          inet6 addr: fe80::42:d8ff:fee4:dfc1/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:309 errors:0 dropped:0 overruns:0 frame:0
          TX packets:372 errors:0 dropped:0 overruns:0 carrier:0
 collisions:0 txqueuelen:0 
          RX bytes:18944 (18.9 KB)  TX bytes:8137789 (8.1 MB)
veth9c02e56 Link encap:Ethernet  HWaddr 52:81:0b:24:3d:da  
          inet6 addr: fe80::5081:bff:fe24:3dda/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:288 errors:0 dropped:0 overruns:0 frame:0
          TX packets:371 errors:0 dropped:0 overruns:0 carrier:0
 collisions:0 txqueuelen:0 
          RX bytes:21608 (21.6 KB)  TX bytes:8137719 (8.1 MB)
          
$ brctl show
bridge name bridge id  STP enabled interfaces
docker0  8000.0242d8e4dfc1 no  veth9c02e56

通过ifconfig命令的输入，你能够看到，nginx-1容器对应的Veth Pair设施，在宿主机上是一张虚构网卡。它的名字叫作veth9c02e56。并且，通过brctl show的输入，你能够看到这张网卡被“插”在了docker0上。

这时候，如果咱们再在这台宿主机上启动另一个Docker容器，比方nginx-2：

$ docker run –d --name nginx-2 nginx
$ brctl show
bridge name bridge id  STP enabled interfaces
docker0  8000.0242d8e4dfc1 no  veth9c02e56
       vethb4963f3

你就会发现一个新的、名叫vethb4963f3的虚构网卡，也被“插”在了docker0网桥上。

这时候，如果你在nginx-1容器里ping一下nginx-2容器的IP地址（172.17.0.3），就会发现同一宿主机上的两个容器默认就是互相连通的。

[strong_begin]这其中的原理其实非常简单，我来解释一下。[strong_end]

当你在nginx-1容器里拜访nginx-2容器的IP地址（比方ping 172.17.0.3）的时候，这个目标IP地址会匹配到nginx-1容器里的第二条路由规定。能够看到，这条路由规定的网关（Gateway）是0.0.0.0，这就意味着这是一条直连规定，即：但凡匹配到这条规定的IP包，应该通过本机的eth0网卡，通过二层网络间接发往目标主机。

而要通过二层网络达到nginx-2容器，就须要有172.17.0.3这个IP地址对应的MAC地址。所以nginx-1容器的网络协议栈，就须要通过eth0网卡发送一个ARP播送，来通过IP地址查找对应的MAC地址。

备注：ARP（Address Resolution Protocol），是通过三层的IP地址找到对应的二层MAC地址的协定。

咱们后面提到过，这个eth0网卡，是一个Veth Pair，它的一端在这个nginx-1容器的Network Namespace里，而另一端则位于宿主机上（Host Namespace），并且被“插”在了宿主机的docker0网桥上。

一旦一张虚构网卡被“插”在网桥上，它就会变成该网桥的“从设施”。从设施会被“剥夺”调用网络协议栈解决数据包的资格，从而“降级”成为网桥上的一个端口。而这个端口惟一的作用，就是接管流入的数据包，而后把这些数据包的“生杀大权”（比方转发或者抛弃），全副交给对应的网桥。

所以，在收到这些ARP申请之后，docker0网桥就会表演二层交换机的角色，把ARP播送转发到其余被“插”在docker0上的虚构网卡上。这样，同样连贯在docker0上的nginx-2容器的网络协议栈就会收到这个ARP申请，从而将172.17.0.3所对应的MAC地址回复给nginx-1容器。

有了这个目标MAC地址，nginx-1容器的eth0网卡就能够将数据包收回去。

而依据Veth Pair设施的原理，这个数据包会立即呈现在宿主机上的veth9c02e56虚构网卡上。不过，此时这个veth9c02e56网卡的网络协议栈的资格曾经被“剥夺”，所以这个数据包就间接流入到了docker0网桥里。

docker0解决转发的过程，则持续表演二层交换机的角色。此时，docker0网桥依据数据包的目标MAC地址（也就是nginx-2容器的MAC地址），在它的CAM表（即交换机通过MAC地址学习保护的端口和MAC地址的对应表）里查到对应的端口（Port）为：vethb4963f3，而后把数据包发往这个端口。

而这个端口，正是nginx-2容器“插”在docker0网桥上的另一块虚构网卡，当然，它也是一个Veth Pair设施。这样，数据包就进入到了nginx-2容器的Network Namespace里。

所以，nginx-2容器看到的状况是，它本人的eth0网卡上呈现了流入的数据包。这样，nginx-2的网络协议栈就会对申请进行解决，最初将响应（Pong）返回到nginx-1。

以上，就是同一个宿主机上的不同容器通过docker0网桥进行通信的流程了。我把这个流程总结成了一幅示意图，如下所示：

须要留神的是，在理论的数据传递时，上述数据的传递过程在网络协议栈的不同档次，都有Linux内核Netfilter参加其中。所以，如果感兴趣的话，你能够通过关上iptables的TRACE性能查看到数据包的传输过程，具体方法如下所示：

# 在宿主机上执行
$ iptables -t raw -A OUTPUT -p icmp -j TRACE
$ iptables -t raw -A PREROUTING -p icmp -j TRACE

通过上述设置，你就能够在/var/log/syslog里看到数据包传输的日志了。这一部分内容，你能够在课后联合iptables的相干常识进行实际，从而验证我和你分享的数据包传递流程。

相熟了docker0网桥的工作形式，你就能够了解，在默认状况下，被限度在Network Namespace里的容器过程，实际上是通过Veth Pair设施+宿主机网桥的形式，实现了跟同其余容器的数据交换。

与之相似地，当你在一台宿主机上，拜访该宿主机上的容器的IP地址时，这个申请的数据包，也是先依据路由规定达到docker0网桥，而后被转发到对应的Veth Pair设施，最初呈现在容器里。这个过程的示意图，如下所示：

同样地，当一个容器试图连贯到另外一个宿主机时，比方：ping 10.168.0.3，它收回的申请数据包，首先通过docker0网桥呈现在宿主机上。而后依据宿主机的路由表里的直连路由规定（10.168.0.0/24 via eth0)），对10.168.0.3的拜访申请就会交给宿主机的eth0解决。

所以接下来，这个数据包就会经宿主机的eth0网卡转发到宿主机网络上，最终达到10.168.0.3对应的宿主机上。当然，这个过程的实现要求这两台宿主机自身是连通的。这个过程的示意图，如下所示：

所以说，当你遇到容器连不通“外网”的时候，你都应该先试试docker0网桥能不能ping通，而后查看一下跟docker0和Veth Pair设施相干的iptables规定是不是有异样，往往就可能找到问题的答案了。

不过，在最初一个“Docker容器连贯其余宿主机”的例子里，你可能曾经联想到了这样一个问题：如果在另外一台宿主机（比方：10.168.0.3）上，也有一个Docker容器。那么，咱们的nginx-1容器又该如何拜访它呢？

这个问题，其实就是容器的“跨主通信”问题。

在Docker的默认配置下，一台宿主机上的docker0网桥，和其余宿主机上的docker0网桥，没有任何关联，它们相互之间也没方法连通。所以，连贯在这些网桥上的容器，天然也没方法进行通信了。

不过，万变不离其宗。

如果咱们通过软件的形式，创立一个整个集群“专用”的网桥，而后把集群里的所有容器都连贯到这个网桥上，不就能够互相通信了吗？

说得没错。

这样一来，咱们整个集群里的容器网络就会相似于下图所示的样子：

能够看到，构建这种容器网络的外围在于：咱们须要在已有的宿主机网络上，再通过软件构建一个笼罩在已有宿主机网络之上的、能够把所有容器连通在一起的虚构网络。所以，这种技术就被称为：Overlay Network（笼罩网络）。

而这个Overlay Network自身，能够由每台宿主机上的一个“非凡网桥”独特组成。比方，当Node 1上的Container 1要拜访Node 2上的Container 3的时候，Node 1上的“非凡网桥”在收到数据包之后，可能通过某种形式，把数据包发送到正确的宿主机，比方Node 2上。而Node 2上的“非凡网桥”在收到数据包后，也可能通过某种形式，把数据包转发给正确的容器，比方Container 3。

甚至，每台宿主机上，都不须要有一个这种非凡的网桥，而仅仅通过某种形式配置宿主机的路由表，就可能把数据包转发到正确的宿主机上。这些内容，我在前面的文章中会为你一一讲述。

总结

在明天这篇文章中，我次要为你介绍了在本地环境下，单机容器网络的实现原理和docker0网桥的作用。

这里的关键在于，容器要想跟外界进行通信，它收回的IP包就必须从它的Network Namespace里进去，来到宿主机上。

而解决这个问题的办法就是：为容器创立一个一端在容器里充当默认网卡、另一端在宿主机上的Veth Pair设施。

上述单机容器网络的常识，是前面咱们解说多机容器网络的重要根底，请务必认真消化了解。

思考题

只管容器的Host Network模式有一些毛病，然而它性能好、配置简略，并且易于调试，所以很多团队会间接应用Host Network。那么，如果要在生产环境中应用容器的Host Network模式，你感觉须要做哪些额定的筹备工作呢？

关于后端:浅谈容器网络

总结

思考题

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于后端:浅谈容器网络

总结

思考题

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复