关于docker:在Docker环境下TDengine的客户端为什么连不上集群

作者｜陈玉

最近，在TDengine的一个社区群中突发了一场重大的灌水事件。几位群友不眠不休地聊天，能够说是废寝忘食。那么到底是什么话题能让他们凌晨四点还在忘我地探讨？

这个话题就是——如何欠缺Docker环境下TDengine的集群搭建。“什么？除了你们官网本人人之外，怎么会有用户加班加点地探讨如何欠缺Docker环境的集群搭建，这也太假了。”

好吧，咱们抵赖：其实是有一个叫Oliver（群昵称）的用户遇到了这样的问题——辛辛苦苦搭起来Docker环境下的TDengine集群在客户端连不上了。接下来，就引发了群里的二位热心大佬的探讨不休，直到想出最初的解决方案。

事件的通过是这样的：

该用户的数据库集群装在这台Linux服务器上（ip:10.0.31.2），容器ip所在的网络是由Docker在宿主机创立的虚构网络172.19.0.0/16。三个容器的hostname和节点ip别离：taosnode1（172.19.0.41）、taosnode2（172.19.0.42）、taosnode3（172.19.0.43）。

各个节点配置如下：

taosnode1: firstEp=taosnode1:6030,secondEp=taosnode2:6030,fqdn=taosnode1;端口映射：16030-16042:6030-6042（tcp/udp）

taosnode2: firstEp=taosnode1:6030,secondEp=taosnode2:6030,fqdn=taosnode2;端口映射：26030-26042:6030-6042（tcp/udp）

taosnode3: firstEp=taosnode1:6030,secondEp=taosnode2:6030,fqdn=taosnode3;端口映射：36030-36042:6030-6042（tcp/udp）

依照官网文档的批示致力折腾一番后，Oliver终于搭起了这个集群。增加完节点之后，他忐忑地敲下了“show dnodes”，随着三个READY映入眼帘后———舒坦了。

服务端没有问题，接下来该客户端了。他关上了本人的一台ip为10.0.31.5（与集群宿主机同一网段）的Windows主机，迅速地在下面装置了个TDengine客户端，增加hosts信息，做好路由，2.8MB，傻瓜式装置，轻松便捷，连贯集群零打碎敲。“show dnodes”随着三个READY再次映入眼帘后———又舒坦了。

Oliver十分满意，然而，他马上发现事件可能并不像设想中的那么简略。

因为业务须要，他还须要实现客户端（10.0.2.61）跨网段连贯服务端集群（基于ip:10.0.31.2的Docker环境下的集群）。ping得通宿主机，telnet得通集群映射进去的端口，应用taos连贯集群，一样的操作也和此前一样顺利。于是他再次敲下“show dnodes”——万万没想到，这时令所有TDengine用户都疾恶如仇的“DB error：Unable to establish connection”呈现了。于是，他便在群中抛出了本人的问题。

上文说到的两位热心的同学就是在这个时候呈现的。一位是TDengine的内部Contributor——Freemine。另一位是路见问题拔刀相助的热心大佬pigwing。

因为集群自身没有任何应用问题，惟一的区别就是客户端连贯服务器的形式变成了跨网段。所以，一开始大家的思路就是——既然走宿主机的端口不行，那就试试间接连到Docker环境下的ip吧。遗憾的是，跨网段连贯Docker环境下外部ip的想法没能实现。

接着大家揣测：TDengine靠的是EndPoint（EP）来辨认数据节点，而EP=FQDN+端口。可客户端连贯曾经胜利，只是无奈对数据操作，在FQDN无误的状况下，大家猜想是集群内的端口呈现了问题，从而没拿到集群的拓扑信息。接下来，从最后的理解环境，到一步一步的排查问题，三个持之以恒的工程师在群里从4月22日探讨到4月25，最晚的时候凌晨4点多都有人在线。

终于，在三人的通力合作屡次试错下，4月24日凌晨1点——freemine提出了一个卓有成效的最终解决方案（文字过多只截图要害局部）

功败垂成，通过测试后，一切顺利！

那么，freemine的集群搭建计划和最后的集群搭建有什么区别呢？

尽管过程波折，然而最初咱们认真比照一下两者的计划就会发现，它们的区别就只有在端口配置这一块不一样。freemine的计划是在每一个单机的serverport都批改了不一样的值。taosnode1节点的serverport为6030—映射主机的6030端口；taosnode2节点的serverport为7030–映射主机的7030端口；taosnode3节点的serverport为8030–映射主机的8030端口。

而提问者Oliver最后的各个节点的serverport都是没做批改的默认6030，映射到宿主机的时候是16030，26030，36030。就是这样的配置在客户端与集群宿主机的同网段连贯时并没有产生问题，而是在跨网段连贯时呈现问题。

看起来一丝小小的改变竟然有这么大的区别？Why？

其实是这样，当客户端与服务端同属一个网段的时候，在增加路由后，客户端是能够间接拜访到Docker外部的。这样一来，IP地址就能够依据须要被正确地解析进去。如：taosnode1（172.19.0.41）、taosnode2（172.19.0.42）、taosnode3（172.19.0.43）。在不同的IP地址下，即使端口都是一样的6030，TDengine还是能够实现不同节点的辨别。

然而，当跨网段之后就不一样了。对于不同网段的客户端和服务端而言，客户端要通过实在路由去连贯服务端，但实在路由中并没有注册咱们设置的Docker外部网络，所以客户端天然就拜访不了Docker外部的网络。因而，当taosc须要失去集群提供的不同节点的信息时，FQDN曾经无奈正确解析IP地址了。这时候，就须要通过端口来实现不同节点的辨别。

这就是不能再在Docker环境下的节点中同时应用6030端口的起因。

因而，当你应用了Docker主机内外统一的端口映射，且每个节点的serverPort参数不雷同的设置时，集群就能够通过不同的端口来辨别不同的节点。这样一来，客户端才能够拿到拓扑信息进行集群的顺利操作。

这就是整个“案件”的最终答案。

总结一下，对于用户应用而言，Docker环境下搭建TDengine集群的水还是颇深。因为环境的绝对简单，所以咱们也并不是非常举荐大家应用这种形式搭建集群。所以，对于TDengine在Docker环境的应用，大家还是要小心谨慎。

最初咱们想说的是，作为一个开源的产品，社区的沉闷与业余是咱们涛思数据最为关注的中央。尽管目前官网上并没有对于Docker环境下TDengine集群搭建的文档。然而这些社区用户们的沉闷思考显然很大水平填补了这样的一个空白。

真心感激Oliver，freemine，pigwing三位敌人。非常心愿日后能够持续看到你们在物联网大数据技术前沿群中的沉闷身影，同时咱们也心愿有更多的敌人们可能参加进来。

点击“这里”，查看Oliver整顿的TDengine在Docker环境下的集群搭建笔记。

关于docker:在Docker环境下TDengine的客户端为什么连不上集群

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于docker:在Docker环境下TDengine的客户端为什么连不上集群

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复