前文说到容器网络对Linux虚拟化技术的依赖,这一篇章咱们将一探到底,看看Docker到底是怎么做的。
通常,Linux容器的网络是被隔离在它本人的Network Namespace中,其中就包含:网卡(Network Interface)、回环设施(Loopback Device)、路由表(Routing Table)和iptables规定。
对于一个过程来说,这些因素,就形成了它发动和响应网络申请的根本环境。
管中窥豹
咱们在执行docker run -d --name xxx
之后,进入容器外部:
## docker ps 可查看所有docker## 进入容器docker exec -it 228ae947b20e /bin/bash
并执行 ifconfig:
$ ifconfigeth0 Link encap:Ethernet HWaddr 22:A4:C8:79:DD:1A inet addr:192.168.65.28 Bcast:0.0.0.0 Mask:255.255.255.255 UP BROADCAST RUNNING MULTICAST MTU:1440 Metric:1 RX packets:2231528 errors:0 dropped:0 overruns:0 frame:0 TX packets:3340914 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:249385222 (237.8 MiB) TX bytes:590701793 (563.3 MiB)lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:0 errors:0 dropped:0 overruns:0 frame:0 TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:0 (0.0 B) TX bytes:0 (0.0 B)
咱们看到一张叫eth0的网卡,它正是一个Veth Pair设施在容器的这一端。咱们再通过 route 查看该容器的路由表:
$ routeKernel IP routing tableDestination Gateway Genmask Flags Metric Ref Use Ifacedefault 169.254.1.1 0.0.0.0 UG 0 0 0 eth0169.254.1.1 * 255.255.255.255 UH 0 0 0 eth0
咱们能够看到这个eth0是这个容器的默认路由设施。咱们也能够通过第二条路由规定,看到所有对 169.254.1.1/16 网段的申请都会交由eth0来解决。而Veth Pair 设施的另一端,则在宿主机上,咱们同样也能够通过查看宿主机的网络设备来查看它:
$ ifconfig......eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 172.16.241.192 netmask 255.255.240.0 broadcast 172.16.255.255 ether 00:16:3e:0a:f3:75 txqueuelen 1000 (Ethernet) RX packets 3168620550 bytes 727592674740 (677.6 GiB) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 2937180637 bytes 8661914052727 (7.8 TiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0......docker0: flags=4099<UP,BROADCAST,MULTICAST> mtu 1500 inet 172.17.0.1 netmask 255.255.0.0 broadcast 172.17.255.255 ether 02:42:16:58:92:43 txqueuelen 0 (Ethernet) RX packets 0 bytes 0 (0.0 B) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 0 bytes 0 (0.0 B) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0......vethd08be47: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 ether 16:37:8d:fe:36:eb txqueuelen 0 (Ethernet) RX packets 193 bytes 22658 (22.1 KiB) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 134 bytes 23655 (23.1 KiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0......
在宿主机上,容器对应的Veth Pair设施是一张虚构网卡,咱们再用brctl show
命令查看网桥:
$ brctl showbridge name bridge id STP enabled interfacesdocker0 8000.0242afb1a841 no vethd08be47
能够分明的看到Veth Pair的一端 vethd08be47 就插在 docker0 上。我当初执行docker run 启动两个容器,就会发现docker0上插入两个容器的 Veth Pair的一端。如果咱们在一个容器外部相互ping另外一个容器的IP地址,是不是也能ping通?
$ brctl showbridge name bridge id STP enabled interfacesdocker0 8000.0242afb1a841 no veth26cf2cc veth8762ad2
容器1:
$ docker exec -it f8014a4d34d0 /bin/bash$ ifconfigeth0 Link encap:Ethernet HWaddr 02:42:AC:11:00:03 inet addr:172.17.0.3 Bcast:172.17.255.255 Mask:255.255.0.0 UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:76 errors:0 dropped:0 overruns:0 frame:0 TX packets:106 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:16481 (16.0 KiB) TX bytes:14711 (14.3 KiB)lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:48 errors:0 dropped:0 overruns:0 frame:0 TX packets:48 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:2400 (2.3 KiB) TX bytes:2400 (2.3 KiB)$ routeKernel IP routing tableDestination Gateway Genmask Flags Metric Ref Use Ifacedefault 172.17.0.1 0.0.0.0 UG 0 0 0 eth0172.17.0.0 * 255.255.0.0 U 0 0 0 eth0
容器2:
$ docker exec -it 9a6f38076c04 /bin/bash$ ifconfigeth0 Link encap:Ethernet HWaddr 02:42:AC:11:00:02 inet addr:172.17.0.2 Bcast:172.17.255.255 Mask:255.255.0.0 UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:133 errors:0 dropped:0 overruns:0 frame:0 TX packets:193 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:23423 (22.8 KiB) TX bytes:22624 (22.0 KiB)lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:198 errors:0 dropped:0 overruns:0 frame:0 TX packets:198 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:9900 (9.6 KiB) TX bytes:9900 (9.6 KiB)$ routeKernel IP routing tableDestination Gateway Genmask Flags Metric Ref Use Ifacedefault 172.17.0.1 0.0.0.0 UG 0 0 0 eth0172.17.0.0 * 255.255.0.0 U 0 0 0 eth0
从一个容器ping另外一个容器:
# -> 容器1外部 ping 容器2$ ping 172.17.0.3PING 172.17.0.3 (172.17.0.3): 56 data bytes64 bytes from 172.17.0.3: seq=0 ttl=64 time=0.142 ms64 bytes from 172.17.0.3: seq=1 ttl=64 time=0.096 ms64 bytes from 172.17.0.3: seq=2 ttl=64 time=0.089 ms
咱们看到,在一个容器外部ping另外一个容器的ip,是能够ping通的。也就意味着,这两个容器是能够相互通信的。
容器通信
咱们无妨联合前文时所说的,了解下为什么一个容器能拜访另一个容器?先简略看如一幅图:
当在容器1里拜访容器2的地址,这个时候目标IP地址会匹配到容器1的第二条路由规定,这条路由规定的Gateway是0.0.0.0,意味着这是一条直连规定,也就是说但凡匹配到这个路由规定的申请,会间接通过eth0网卡,通过二层网络发往目标主机。而要通过二层网络达到容器2,就须要127.17.0.3对应的MAC地址。
所以,容器1的网络协议栈就须要通过eth0网卡来发送一个ARP播送,通过IP找到MAC地址。所谓ARP(Address Resolution Protocol),就是通过三层IP地址找到二层的MAC地址的协定。这里说到的eth0,就是Veth Pair的一端,另一端则插在了宿主机的docker0网桥上。eth0这样的虚构网卡插在docker0上,也就意味着eth0变成docker0网桥的“从设施”。从设施会降级成docker0设施的端口,而调用网络协议栈解决数据包的资格全副交给docker0网桥。
所以,在收到ARP申请之后,docker0就会表演二层交换机的角色,把ARP播送发给其它插在docker0网桥的虚构网卡上,这样,127.17.0.3就会收到这个播送,并把其MAC地址返回给容器1。有了这个MAC地址,容器1的eth0的网卡就能够把数据包发送进来。这个数据包会通过Veth Pair在宿主机的另一端veth26cf2cc,间接交给docker0。
docker0转发的过程,就是持续表演二层交换机,docker0依据数据包的指标MAC地址,在CAM表查到对应的端口为veth8762ad2,而后把数据包发往这个端口。而这个端口,就是容器2的Veth Pair在宿主机的另一端,这样,数据包就进入了容器2的Network Namespace,最终容器2将响应(Ping)返回给容器1。在实在的数据传递中,Linux内核Netfilter/Iptables也会参加其中,这里不再赘述。
CAM就是交换机通过MAC地址学习保护端口和MAC地址的对应表。
这里介绍的容器间的通信形式就是docker中最常见的bridge模式,当然此外还有host模式、container模式、none模式等,对其它模式有趣味的能够去浏览相干材料。
跨主通信
好了,这里不禁问个问题,到目前为止只是单主机外部的容器间通信,那跨主机网络呢?在Docker默认配置下,一台宿主机的docker0网桥是无奈和其它宿主机连通的,它们之间没有任何关联,所以这些网桥上的容器,天然就没方法多主机之间相互通信。然而无论怎么变动,情理都是一样的,如果咱们创立一个公共的网桥,是不是集群中所有容器都能够通过这个公共网桥去连贯?
当然在失常的状况下,节点与节点的通信往往能够通过NAT的形式,然而,这个在互联网倒退的明天,在容器化环境下未必实用。例如在向注册核心注册实例的时候,必定会携带IP,在失常物理机内的利用当然没有问题,然而容器化环境却未必,容器内的IP很可能就是上文所说的172.17.0.2,多个节点都会存在这个IP,大概率这个IP是抵触的。
如果咱们想防止这个问题,就会携带宿主机的IP和映射的端口去注册。然而这又带来一个问题,即容器内的利用去意识到这是一个容器,而非物理机,当在容器内,利用须要去拿容器所在的物理机的IP,当在容器外,利用须要去拿以后物理机的IP。显然,这并不是一个很好的设计,这须要利用去配合配置。所以,基于此,咱们必定要寻找其余的容器网络解决方案。
在上图这种容器网络中,咱们须要在咱们已有的主机网络上,通过软件构建一个笼罩在多个主机之上,且能把所有容器连通的虚构网络。这种就是Overlay Network(笼罩网络)。对于这些具体的网络解决方案,例如Flannel、Calico等,我会在后续篇幅持续陈说。
福利:豆花同学为大家精心整顿了一份对于linux和python的学习材料大合集!有须要的小伙伴们,关注豆花集体公众号:python头条!回复关键词“材料合集”即可收费支付!