关于Netty:如何用Netty写一个高性能的分布式服务框架

简介： Netty 是一个致力于创立高性能网络应用程序的成熟的 IO 框架。相比拟与间接应用底层的 Java IO API，不须要先成为网络专家就能够基于 Netty 去构建简单的网络应用。业界常见的波及到网络通信的相干中间件大部分基于 Netty 实现网络层。

作者 | 家纯
起源 | 阿里技术公众号

一什么是 Netty? 能做什么?

Netty 是一个致力于创立高性能网络应用程序的成熟的 IO 框架。

相比拟与间接应用底层的 Java IO API，你不须要先成为网络专家就能够基于 Netty 去构建简单的网络应用。

业界常见的波及到网络通信的相干中间件大部分基于 Netty 实现网络层。

二设计一个分布式服务框架

1 Architecture

2 近程调用的流程

启动服务端(服务提供者)并公布服务到注册核心。
启动客户端(服务消费者)并去注册核心订阅感兴趣的服务。
客户端收到注册核心推送的服务地址列表。
调用者发动调用，Proxy从服务地址列表中抉择一个地址并将申请信息 <group，providerName，version>，methodName，args[] 等信息序列化为字节数组并通过网络发送到该地址上。
服务端收到收到并反序列化申请信息，依据 <group，providerName，version> 从本地服务字典里查找到对应providerObject，再依据 <methodName，args[]> 通过反射调用指定办法，并将办法返回值序列化为字节数组返回给客户端。
客户端收到响应信息再反序列化为 Java 对象后由 Proxy 返回给办法调用者。

以上流程对办法调用者是通明的，所有看起来就像本地调用一样。

3 近程调用客户端图解

重要概念：RPC三元组 <ID，Request，Response>。

PS: 若是 netty4.x 的线程模型，IO Thread(worker) —> Map<InvokeId，Future> 代替全局 Map 能更好的防止线程竞争。

4 近程调用服务端图解

5 近程调用传输层图解

6 设计传输层协定栈
协定头

协定体

1）metadata: <group，providerName，version>

2）methodName

3）parameterTypes[] 真的须要吗?

（a）有什么问题?

反序列化时 ClassLoader.loadClass() 潜在锁竞争。
协定体码流大小。
泛化调用多了参数类型。

（b）能解决吗?

Java办法动态分派规定参考JLS <Java语言标准> $15.12.2.5 Choosing the Most Specific Method 章节。

（c）args[]

（d）其余：traceId，appName…

三一些Features&好的实际&压迫性能

1 创立客户端代理对象

1）Proxy 做什么?

集群容错 —> 负载平衡 —> 网络

2）有哪些创立 Proxy 的形式?

jdk proxy/javassist/cglib/asm/bytebuddy

3）要留神的：

留神拦挡toString，equals，hashCode等办法防止近程调用。

4）举荐的(bytebuddy)：

2 优雅的同步/异步调用

先往上翻再看看“近程调用客户端图解”
再往下翻翻看看 Failover 如何解决更好
思考下如何拿到 future?

3 单播/组播

音讯派发器
FutureGroup

4 泛化调用

5 序列化/反序列化

协定 header 标记 serializer type，同时反对多种。

6 可扩展性

Java SPI：

java.util.ServiceLoader
META-INF/services/com.xxx.Xxx

7 服务级别线程池隔离

要挂你先挂，别拉着我。

8 责任链模式的拦截器

太多扩大须要从这里起步。

9 指标度量(Metrics)

10 链路追踪

OpenTracing

11 注册核心

12 流控(利用级别/服务级别)

要有能不便接入第三方流控中间件的扩大能力。

13 Provider线程池满了怎么办?

14 软负载平衡

1）加权随机 (二分法，不要遍历)

2）加权轮训(最大公约数)

3）最小负载

4）一致性 hash (有状态服务场景)

5）其余

留神：要有预热逻辑。

15 集群容错

1）Fail-fast

2）Failover

异步调用怎么解决?

Bad

Better

3）Fail-safe

4）Fail-back

5）Forking

6）其余

16 如何压迫性能(Don’t trust it，Test it)

1）ASM 写个 FastMethodAccessor 来代替服务端那个反射调用

2）序列化/反序列化

在业务线程中序列化/反序列化，防止占用 IO 线程：

序列化/反序列化占用数量极少的 IO 线程工夫片。
反序列化经常会波及到 Class 的加载，loadClass 有一把锁竞争重大(可通过 JMC 察看一下)。

抉择高效的序列化/反序列化框架：

如kryo/protobuf/protostuff/hessian/fastjson/…

抉择只是第一步，它(序列化框架)做的不好的，去扩大和优化之：

传统的序列化/反序列化+写入/读取网络的流程：java对象--> byte[] -->堆外内存 / 堆外内存--> byte[] -->java对象。
优化：省去 byte[] 环节，间接读/写堆外内存，这须要扩大对应的序列化框架。
String 编码/解码优化。
Varint 优化：屡次 writeByte 合并为 writeShort/writeInt/writeLong。
Protostuff 优化举例：UnsafeNioBufInput 间接读堆外内存/UnsafeNioBufOutput 间接写堆外内存。

3）IO 线程绑定 CPU

4）同步阻塞调用的客户端和容易成为瓶颈，客户端协程：

Java层面可选的并不多，临时也都不完满。

5）Netty Native Transport & PooledByteBufAllocator：

减小GC带来的稳定。

6）尽快开释 IO 线程去做他该做的事件，尽量减少线程上下文切换。

四 Why Netty?

1 BIO vs NIO

2 Java 原生 NIO API 从入门到放弃

复杂度高

API简单难懂，入门困。
粘包/半包问题劳神。
需超强的并发/异步编程功底，否则很难写出高效稳固的实现。

稳定性差，坑多且深

调试艰难，偶然遭逢匪夷所思极难重现的bug，边哭边查是常有的事儿。
linux 下 EPollArrayWrapper.epollWait 间接返回导致空轮训进而导致 100% cpu 的 bug 始终也没解决利索，Netty帮你 work around (通过rebuilding selector)。

NIO代码实现方面的一些毛病

1）Selector.selectedKeys() 产生太多垃圾

Netty 批改了 sun.nio.ch.SelectorImpl 的实现，应用双数组代替 HashSet 存储来 selectedKeys：

相比HashSet(迭代器，包装对象等)少了一些垃圾的产生(help GC)。
轻微的性能收益(1~2%)。

Nio 的代码到处是 synchronized (比方 allocate direct buffer 和 Selector.wakeup() )：

对于 allocate direct buffer，Netty 的 pooledBytebuf 有前置 TLAB(Thread-local allocation buffer)可无效的缩小去竞争锁。
wakeup 调用多了锁竞争重大并且开销十分大(开销大起因: 为了在 select 线程外跟 select 线程通信，linux 平台上用一对 pipe，windows 因为 pipe 句柄不能放入 fd_set，只能忍辱负重用两个 tcp 连贯模仿)，wakeup 调用少了容易导致 select 时不必要的阻塞(如果懵逼了就间接用 Netty 吧，Netty中有对应的优化逻辑)。
Netty Native Transport 中锁少了很多。

2）fdToKey 映射

EPollSelectorImpl#fdToKey 维持着所有连贯的 fd(描述符)对应 SelectionKey 的映射，是个 HashMap。
每个 worker 线程有一个 selector，也就是每个 worker 有一个 fdToKey，这些 fdToKey 大抵均分了所有连贯。
设想一下单机 hold 几十万的连贯的场景，HashMap 从默认 size=16，一步一步 rehash...

3）Selector在linux 平台是 Epoll LT 实现

Netty Native Transport反对Epoll ET。

4）Direct Buffers 事实上还是由 GC 治理

DirectByteBuffer.cleaner 这个虚援用负责 free direct memory，DirectByteBuffer 只是个壳子，这个壳子如果刚强的活下去熬过新生代的年龄限度最终降职到老年代将是一件让人伤心的事件…
无奈申请到足够的 direct memory 会显式触发 GC，Bits.reserveMemory() -> { System.gc() }，首先因为 GC 中断整个过程不说，代码中还 sleep 100 毫秒，醒了要是发现还不行就 OOM。
更糟的是如果你听信了个别<XX优化宝典>谗言设置了-XX:+DisableExplicitGC 参数，喜剧会静悄悄的产生...
Netty的UnpooledUnsafeNoCleanerDirectByteBuf 去掉了 cleaner，由 Netty 框架保护援用计数来实时的去开释。

五 Netty 的实在面目

1 Netty 中几个重要概念及其关系

EventLoop

一个 Selector。
一个工作队列(mpsc_queue: 多生产者单消费者 lock-free)。
一个提早工作队列(delay_queue: 一个二叉堆构造的优先级队列，复杂度为O(log n))。
EventLoop 绑定了一个 Thread，这间接防止了pipeline 中的线程竞争。

Boss: mainReactor 角色，Worker: subReactor 角色

Boss 和 Worker 共用 EventLoop 的代码逻辑，Boss 解决 accept 事件，Worker 解决 read，write 等事件。
Boss 监听并 accept 连贯(channel)后以轮训的形式将 channel 交给 Worker，Worker 负责解决此 channel 后续的read/write 等 IO 事件。
在不 bind 多端口的状况下 BossEventLoopGroup 中只须要蕴含一个 EventLoop，也只能用上一个，多了没用。
WorkerEventLoopGroup 中个别蕴含多个 EventLoop，经验值个别为 cpu cores *

2(依据场景测试找出最佳值才是王道)。

Channel 分两大类 ServerChannel 和 Channel，ServerChannel 对应着监听套接字(ServerSocketChannel)，Channel 对应着一个网络连接。
2 Netty4 Thread Model

3 ChannelPipeline

4 Pooling&reuse

PooledByteBufAllocator

基于 jemalloc paper (3.x)
ThreadLocal caches for lock free：这个做法导致已经有坑——申请(Bytebuf)线程与偿还(Bytebuf)线程不是同一个导致内存透露，起初用一个mpsc_queue解决，代价就是就义了一点点性能。
Different size classes。

Recycler

ThreadLocal + Stack。
已经有坑，申请(元素)线程与偿还(元素)线程不是同一个导致内存透露。
起初改良为不同线程偿还元素的时候放入一个 WeakOrderQueue 中并关联到 stack 上，下次 pop 时如果 stack 为空则先扫描所有关联到以后 stack 上的 weakOrderQueue。
WeakOrderQueue 是多个数组的链表，每个数组默认size=16。
存在的问题：思考一下老年代对象援用新生代对象对 GC 的影响？

5 Netty Native Transport
相比 Nio 创立更少的对象，更小的 GC 压力。

针对 linux 平台优化，一些 specific features：

SO_REUSEPORT - 端口复用(容许多个 socket 监听同一个 IP+端口，与 RPS/RFS 合作，可进一步晋升性能)：可把 RPS/RFS 含糊的了解为在软件层面模仿多队列网卡，并提供负载平衡能力，防止网卡收包发包的中断集中的一个 CPU core 上而影响性能。
TCP_FASTOPEN - 3次握手时也用来替换数据。
EDGE_TRIGGERED (反对Epoll ET是重点)。
Unix 域套接字(同一台机器上的过程间通信，比方Service Mesh)。

6 多路复用简介

select/poll

自身的实现机制上的限度(采纳轮询形式检测就绪事件，工夫复杂度: O(n)，每次还要将臃肿的 fd_set 在用户空间和内核空间拷贝来拷贝去)，并发连贯越大，性能越差。
poll 相比 select 没有很大差别，只是勾销了最大文件描述符个数的限度。
select/poll 都是 LT 模式。

epoll

采纳回调形式检测就绪事件，工夫复杂度: O(1)，每次 epoll_wait 调用只返回已就绪的文件描述符。
epoll 反对 LT 和 ET 模式。

7 略微深刻理解一点 Epoll

LT vs ET

概念：

LT：level-triggered 程度触发
ET：edge-triggered 边际触发

可读：

buffer 不为空的时候 fd 的 events 中对应的可读状态就被置为1，否则为0。

可写：

buffer 中有空间可写的时候 fd 的 events 中对应的可写状态就被置为1，否则为0。

图解：

epoll 三个办法简介

1）次要代码：linux-2.6.11.12/fs/eventpoll.c

2）int epoll_create(int size)

创立 rb-tree(红黑树)和 ready-list (就绪链表)：

红黑树O(logN)，均衡效率和内存占用，在容量需要不能确定并可能量很大的状况下红黑树是最佳抉择。
size参数曾经没什么意义，晚期epoll实现是hash表，所以须要size参数。

3）int epoll_ctl(int epfd，int op，int fd，struct epoll_event *event)

把epitem放入rb-tree并向内核中断处理程序注册ep_poll_callback，callback触发时把该epitem放进ready-list。

4）int epoll_wait(int epfd，struct epoll_event * events，int maxevents，int timeout)

ready-list —> events[]。

epoll 的数据结构

epoll_wait 工作流程概述

对照代码：linux-2.6.11.12/fs/eventpoll.c：

1）epoll_wait 调用 ep_poll

当 rdlist(ready-list) 为空(无就绪fd)时挂起以后线程,直到 rdlist 不为空时线程才被唤醒。

2）文件描述符 fd 的 events 状态扭转

buffer由不可读变为可读或由不可写变为可写，导致相应fd上的回调函数ep_poll_callback被触发。

3）ep_poll_callback 被触发

将相应fd对应epitem退出rdlist，导致rdlist不空，线程被唤醒，epoll_wait得以继续执行。

4）执行 ep_events_transfer 函数

将rdlist中的epitem拷贝到txlist中，并将rdlist清空。
如果是epoll LT，并且fd.events状态没有扭转(比方buffer中数据没读完并不会扭转状态)，会再从新将epitem放回rdlist。

5）执行 ep_send_events 函数

扫描txlist中的每个epitem，调用其关联fd对应的poll办法获得较新的events。
将获得的events和相应的fd发送到用户空间。

8 Netty 的最佳实际

1）业务线程池必要性

业务逻辑尤其是阻塞工夫较长的逻辑，不要占用netty的IO线程，dispatch到业务线程池中去。

2）WriteBufferWaterMark

留神默认的高下水位线设置(32K~64K)，依据场景适当调整(能够思考一下如何利用它)。

3）重写 MessageSizeEstimator 来反馈实在的高下水位线

默认实现不能计算对象size，因为write时还没路过任何一个outboundHandler就曾经开始计算message size，此时对象还没有被encode成Bytebuf，所以size计算必定是不精确的(偏低)。

4）留神EventLoop#ioRatio的设置(默认50)

这是EventLoop执行IO工作和非IO工作的一个工夫比例上的管制。

5）闲暇链路检测用谁调度?

Netty4.x默认应用IO线程调度，应用eventLoop的delayQueue，一个二叉堆实现的优先级队列，复杂度为O(log N)，每个worker解决本人的链路监测，有助于缩小上下文切换，然而网络IO操作与idle会相互影响。
如果总的连接数小，比方几万以内，下面的实现并没什么问题，连接数大倡议用HashedWheelTimer实现一个IdleStateHandler，HashedWheelTimer复杂度为 O(1)，同时能够让网络IO操作和idle互不影响，但有上下文切换开销。

6）应用ctx.writeAndFlush还是channel.writeAndFlush?

ctx.write间接走到下一个outbound handler，留神别让它违反你的初衷绕过了闲暇链路检测。
channel.write从开端开始倒着向前挨个路过pipeline中的所有outbound handlers。

7）应用Bytebuf.forEachByte() 来代替循环 ByteBuf.readByte()的遍历操作，防止rangeCheck()

8）应用CompositeByteBuf来防止不必要的内存拷贝

毛病是索引计算工夫复杂度高，请依据本人场景掂量。

9）如果要读一个int，用Bytebuf.readInt()，不要Bytebuf.readBytes(buf，0，4)

这能防止一次memory copy (long，short等同理)。

10）配置UnpooledUnsafeNoCleanerDirectByteBuf来代替jdk的DirectByteBuf，让netty框架基于援用计数来开释堆外内存

io.netty.maxDirectMemory：

< 0: 不应用cleaner，netty方面间接继承jdk设置的最大direct memory size，(jdk的direct memory size是独立的，这将导致总的direct memory size将是jdk配置的2倍)。
== 0: 应用cleaner，netty方面不设置最大direct memory size。

0：不应用cleaner，并且这个参数将间接限度netty的最大direct memory size，(jdk的direct memory size是独立的，不受此参数限度)。

11）最佳连接数

一条连贯有瓶颈，无奈无效利用cpu，连贯太多也白扯，最佳实际是依据本人场景测试。

12）应用PooledBytebuf时要长于利用 -Dio.netty.leakDetection.level 参数

四种级别：DISABLED(禁用)，SIMPLE(简略)，ADVANCED(高级)，PARANOID(偏执)。
SIMPLE，ADVANCED采样率雷同，不到1%(按位与操作 mask ==128 - 1)。
默认是SIMPLE级别，开销不大。
呈现透露时日志会呈现“LEAK: ”字样，请时不时grep下日志，一旦呈现“LEAK: ”立即改为ADVANCED级别再跑，能够报告透露对象在哪被拜访的。
PARANOID：测试的时候倡议应用这个级别，100%采样。

13）Channel.attr()，将本人的对象attach到channel上

拉链法实现的线程平安的hash表，也是分段锁(只锁链表头)，只有hash抵触的状况下才有锁竞争(相似ConcurrentHashMapV8版本)。
默认hash表只有4个桶，应用不要太任性。

9 从 Netty 源码中学到的代码技巧

1）海量对象场景中 AtomicIntegerFieldUpdater --> AtomicInteger

Java中对象头12 bytes(开启压缩指针的状况下)，又因为Java对象依照8字节对齐，所以对象最小16 bytes，AtomicInteger大小为16 bytes，AtomicLong大小为 24 bytes。
AtomicIntegerFieldUpdater作为static field去操作volatile int。

2）FastThreadLocal，相比jdk的实现更快

线性探测的Hash表 —> index原子自增的裸数组存储。

3）IntObjectHashMap / LongObjectHashMap …

Integer—> int
Node[] —> 裸数组

4）RecyclableArrayList

基于后面说的Recycler，频繁new ArrayList的场景可思考。

5）JCTools

一些jdk没有的 SPSC/MPSC/SPMC/MPMC 无锁并发队以及NonblockingHashMap(能够比照ConcurrentHashMapV6/V8)

原文链接
本文为阿里云原创内容，未经容许不得转载。

一 什么是 Netty? 能做什么?

二 设计一个分布式服务框架

三 一些Features&好的实际&压迫性能

四 Why Netty?

五 Netty 的实在面目

一什么是 Netty? 能做什么?

二设计一个分布式服务框架

三一些Features&好的实际&压迫性能