工作当中应用etcd作为配置核心,次要应用了etcdclient提供的watch接口对存储的配置进行实时监听更新,很好奇etcd外部是如何做到不丢数据并联通上下游的,于是翻看了局部v3版本实现代码,在惊叹大佬们的代码程度同时又在鄙视本人写的lowB代码。
简略应用
简略应用etcdctl命令行做一个演示,次要展现一下性能。
# 首先启动一个etcd$ ./etcd# 存入数据,存三次$ etcdctl put testwatch 1$ etcdctl put testwatch 2$ etcdctl put testwatch 3# watch key,--rev=1示意从版本号为1开始watch$ etcdctl --endpoints=127.0.0.1:23790 watch testwatch --rev=1 -w=json{ "Header":{ "cluster_id":14841639068965178418, "member_id":10276657743932975437, "revision":27, "raft_term":25 }, "Events":[ { "kv":{ "key":"dGVzdHdhdGNo", "create_revision":25, "mod_revision":25, "version":1, "value":"MQ==" } }, { "kv":{ "key":"dGVzdHdhdGNo", "create_revision":25, "mod_revision":27, "version":3, "value":"Mw==" } } ], "CompactRevision":0, "Canceled":false, "Created":false}#此时下面返回了从rev为1开始的变动,这时候再次对该key做批改(put testwatch 4),还会源源不断#输入更改后的内容等信息{ "Header":{ "cluster_id":14841639068965178418, "member_id":10276657743932975437, "revision":28, "raft_term":25 }, "Events":[ { "kv":{ "key":"dGVzdHdhdGNo", "create_revision":25, "mod_revision":28, "version":4, "value":"NA==" } } ], "CompactRevision":0, "Canceled":false, "Created":false}
当指定版本号时候会返回所有版本号前面的历史的批改记录,如果不指定则只会在发生变化时候返回变动后的键值。理解了最简略的用法后,咱们从上到下挖一挖watch机制的原理。
解决流程
etcd服务启动后会启动grpc服务端,并注册Watch服务,写过proto文件的应该很相熟,客户端与服务端之间通过流式grpc做交互,每个客户端的watch申请对应到一个Watch办法,这个Watch办法就联通了客户端与etcd上游存储的变更,能够源源不断将变更的键值告诉到客户端,也能够监听客户端的一些操作(如勾销监听)并同步到etcd的上游。接下来从下层到上层的源码来剖析watcher机制的实现形式。
service Watch { rpc Watch(stream WatchRequest) returns (stream WatchResponse) { option (google.api.http) = { post: "/v3/watch" body: "*" }; }}
下层解决
每一个Watch申请都会创立一个serverWatchStream构造体,该构造体向上通过gRPCStream与客户端做交互,向下通过watchStream与etcd存储mvcc局部打交道。
//etcd/server/etcdserver/api/v3rpc/watch.gofunc (ws *watchServer) Watch(stream pb.Watch_WatchServer) (err error) { //初始化一个serverWatchStream构造体 sws := serverWatchStream{ ...... //etcd启动时初始化的watchableStore赋值给watchable,下文会提到。 watchable: ws.watchable, //用于和客户端进行流式grpc交互的接口,提供了Send和Recv等办法,Send示意发送信息到客户端,Recv示意从客户端取信息 gRPCStream: stream, //次要用于取出变更或者订阅的键值变动,详见下方源码 watchStream: ws.watchable.NewWatchStream(), // chan for sending control response like watcher created and canceled. ctrlStream: make(chan *pb.WatchResponse, ctrlStreamBufLen), ...... closec: make(chan struct{}), } sws.wg.Add(1) go func() { //向客户端发送变更事件 sws.sendLoop() sws.wg.Done() }() errc := make(chan error, 1) go func() { //解决客户端的申请,订阅kv或勾销操作等 if rerr := sws.recvLoop(); rerr != nil { ......错误判断 errc <- rerr } }() //期待勾销操作 select { case err = <-errc: ...... //如果recvloop出错返回,敞开ctrlStream close(sws.ctrlStream) case <-stream.Context().Done(): ......错误处理 } //敞开连贯与申请,敞开channel,期待两个协程退出 sws.close() return err}func (sws *serverWatchStream) close() { sws.watchStream.Close() close(sws.closec)//敞开closec,用于告诉sendLoop协程退出 sws.wg.Wait()//期待全副退出}//etcd/server/mvcc/watchable_store.gofunc (s *watchableStore) NewWatchStream() WatchStream { return &watchStream{ //etcd启动时初始化的watchableStore watchable: s, //这个管道用于从etcd外面拿到变更数据,调用Chan()能够取出数据,buf长度是128 ch: make(chan WatchResponse, chanBufLen), ...... }}
serverWatchStream与高低互通的形式是通过两个协程。一个sendLoop,次要向客户端同步变更订阅数据。一个recvloop,次要接管客户端的申请并向上游发送创立对某个键值的订阅申请,以及勾销等操作。
管制协程退出以及后续解决的形式应用了waitGroup的形式,能够在sws.close()的实现里看到敞开watchStream以及期待组等操作。
recvLoop
recvLoop负责了创立监听键值的操作,通过监听grpc流式的操作,调用Recv办法取出客户端的申请,并作出对应的响应。recvLoop的数据次要流向是从外向内。
//etcd/server/etcdserver/api/v3rpc/watch.gofunc (sws *serverWatchStream) recvLoop() error { for { req, err := sws.gRPCStream.Recv() //出错解决操作 ...... //对申请进行断言判断,并别离解决各种类型的request switch uv := req.RequestUnion.(type) { case *pb.WatchRequest_CreateRequest: //客户端的watch创立申请 ...... //在上游创立一个服务这个客户端监听的watcher,客户端订阅的可能是一个key,也可能是一个范畴内的key,返回一个watchid。 id, err := sws.watchStream.Watch(mvcc.WatchID(creq.WatchId), creq.Key, creq.RangeEnd, rev, filters...) if err == nil { //将申请体信息中局部参数写入serverWatchStream sws.mu.Lock() if creq.ProgressNotify { sws.progress[id] = true }//是否返回上一个kv if creq.PrevKv { sws.prevKV[id] = true }//是否分包 if creq.Fragment { sws.fragment[id] = true } sws.mu.Unlock() } ...... case *pb.WatchRequest_CancelRequest: //勾销订阅申请,会实现删除订阅的watcher等操作 ...... //其余操作解决 ...... }}
sendLoop
watchStream作为重要的变更数据源,sendLoop会轮询调用它的Chan()办法,该办法就是在获取watchStream中的ch管道中的数据。
func (sws *serverWatchStream) sendLoop() { ...... //因为客户端勾销或者其余起因导致程序返回,收尾操作,清理沉积的音讯事件 defer func() { ...... // 革除ch中积压的数据,不便垃圾回收? for ws := range sws.watchStream.Chan() { mvcc.ReportEventReceived(len(ws.Events)) } for _, wrs := range pending { for _, ws := range wrs { mvcc.ReportEventReceived(len(ws.Events)) } } }() for { select { case wresp, ok := <-sws.watchStream.Chan(): //从chan中读取数据 //ch被敞开,间接返回 if !ok { return } evs := wresp.Events events := make([]*mvccpb.Event, len(evs)) ...... //遍历接管到的变更事件封装到events for i := range evs { events[i] = &evs[i] ...... } //将events封装到WatchResponse wr := &pb.WatchResponse{ Header: sws.newResponseHeader(wresp.Revision), WatchId: int64(wresp.WatchID), Events: events, CompactRevision: wresp.CompactRevision, Canceled: canceled, } //如果不是指定的watchid,放到pending队列 if _, okID := ids[wresp.WatchID]; !okID { // buffer if id not yet announced wrs := append(pending[wresp.WatchID], wr) pending[wresp.WatchID] = wrs continue } ..... //判断是否须要分包,并调用Send办法将事件发送到客户端 var serr error if !fragmented && !ok { serr = sws.gRPCStream.Send(wr) } else { serr = sendFragments(wr, sws.maxRequestBytes, sws.gRPCStream.Send) } ......//错误处理 case c, ok := <-sws.ctrlStream://解决ctrlStream //敞开则间接返回 ...... case <-sws.closec://判断closec是否敞开,如果敞开,间接返回 return } }}
下层解决的流程能够用下图来示意,次要体现了serverWatchStream这个桥梁的作用。
上层解决
下面说到,再recvLoop中会调用watchStream.Watch办法,该办法会生成一个watchID,而后调用其成员watchable的watch办法创立一个对于订阅键值的watcher。
//etcd/server/mvcc/watcher.gofunc (ws *watchStream) Watch(id WatchID, key, end []byte, startRev int64, fcs ...FilterFunc) (WatchID, error) { //生成watchID操作 ...... //调用watch办法,次要关注key以及ch的流向 w, c := ws.watchable.watch(key, end, startRev, id, ws.ch, fcs...) ......}//etcd/server/mvcc/watchable_store.gofunc (s *watchableStore) watch(key, end []byte, startRev int64, id WatchID, ch chan<- WatchResponse, fcs ...FilterFunc) (*watcher, cancelFunc) { //key以及ch被封装到了watcher构造体中 wa := &watcher{ key: key, end: end, minRev: startRev, id: id, ch: ch, fcs: fcs, } .....}
watcher的ch收到变更数据,就会被下层的sendLoop捕捉并推送给客户端。在此之前watcher会被放在watchableStore的某个汇合中,期待监听的key变更。
watchableStore
上文提到watchableStore是在etcd初始化时候创立的一个全局的配置项。因为客户端不止一个,监听的键值不止一对,并且ch如果满了可能会被阻塞,所以该配置项共配置了三个批次的watcher汇合,别离是synced,unsynced,victims,别离寄存位于不同阶段的watcher。
//etcd/server/mvcc/watchable_store.gotype watchableStore struct { *store // victims是在变更产生,发送数据到ch然而通道满时,被阻塞的watcher汇合 victims []watcherBatch victimc chan struct{}//通道用于告诉是否须要清理victims //未同步实现的watcher, unsynced watcherGroup //曾经同步实现,在期待新的新的变更事件的watcher队列 synced watcherGroup ......}
在etcd启动初始化watchableStore时候,会启动两个异步协程清理unsynced和victims汇合中的watcher。
//etcd/server/mvcc/watchable_store.gofunc newWatchableStore(lg *zap.Logger, b backend.Backend, le lease.Lessor, cfg StoreConfig) *watchableStore { ...... s := &watchableStore{ store: NewStore(lg, b, le, cfg), victimc: make(chan struct{}, 1), unsynced: newWatcherGroup(), synced: newWatcherGroup(), stopc: make(chan struct{}), } //创立两个协程,用于解决watcher数据 s.wg.Add(2) go s.syncWatchersLoop() //革除unsync,每隔 100ms调用一次 syncWatchers go s.syncVictimsLoop() //革除victim中沉积的event return s}
unsynced
产生watcher沉积的起因次要是两种,一种是当客户端执行watch时候指定了历史版本号,该操作须要从boltDB中取值,不能间接放到synced队列中期待新的变更,须要放到unsync中。
//etcd/server/mvcc/watchable_store.gofunc (s *watchableStore) watch(key, end []byte, startRev int64, id WatchID, ch chan<- WatchResponse, fcs ...FilterFunc) (*watcher, cancelFunc) { //key以及ch被封装到了watcher构造体中 wa := &watcher{ key: key, end: end, minRev: startRev, id: id, ch: ch, fcs: fcs, } s.mu.Lock() s.revMu.RLock() //如果指定的版本号version是历史的版本号,则将watcher放到unsynced中 synced := startRev > s.store.currentRev || startRev == 0 if synced { //放到synced s.synced.add(wa) //使sync队列加上watcher } else { //放到unsynced s.unsynced.add(wa) } return wa, func() { s.cancelWatcher(wa) }//返回watcher以及勾销的办法 }
victims
第二种是积压的起因是因为检测到了watch变更,在将数据发送到ch时候,ch缓冲已满,此时须要将watcher存到其余区域(victims)。如果硬往里放数据,该协程会被park住,阻塞其余操作。
检测到watcher变更产生在put一个键值时候,此时事务提交,最终写入之前会调用notify()办法检测是否有针对该键值的watcher。
//etcd/server/mvcc/watchable_store_txn.gofunc (tw *watchableStoreTxnWrite) End() { ...... tw.s.mu.Lock() //提交事件之前调用notify() tw.s.notify(rev, evs) tw.TxnWrite.End() tw.s.mu.Unlock()}func (s *watchableStore) notify(rev int64, evs []mvccpb.Event) { var victim watcherBatch //newWatcherBatch会遍历watchableStore的synced队列,并拿evs中kv比照是否有监听的key,返回一个watcher汇合 //for range遍历newWatcherBatch返回的watcher汇合 for w, eb := range newWatcherBatch(&s.synced, evs) { ...... //调用send办法将event发送到ch中,未阻塞的话,会被最上层的sendLoop接管到。 if w.send(WatchResponse{WatchID: w.id, Events: eb.evs, Revision: rev}) { pendingEventsGauge.Add(float64(len(eb.evs))) //promethous操作 } else { //将watcher增加到victims汇合中 w.minRev = rev + 1 if victim == nil { victim = make(watcherBatch) } w.victim = true victim[w] = eb //删除synced队列中的该watch s.synced.delete(w) } } s.addVictim(victim)}//etcd/server/mvcc/watchable_store.gofunc (w *watcher) send(wr WatchResponse) bool { progressEvent := len(wr.Events) == 0 //过滤事件 ...... //将音讯发送到channel,如果ch满了就走default select { case w.ch <- wr: return true default: return false }}func (s *watchableStore) addVictim(victim watcherBatch) { //空间接返回 if victim == nil { return } //减少watcher到victims,并发送信号告诉 s.victims = append(s.victims, victim) select { case s.victimc <- struct{}{}: default: }}
unsynced清理
上文提到,两个沉积队列的watcher清理的形式是通过两个异步协程做到的。接下来咱们先看unsynced队列的清理形式。
//etcd/server/mvcc/watchable_store.gofunc (s *watchableStore) syncWatchersLoop() { for { ...... //如果队列大于0,则进入syncWatchers()同步watcher if lastUnsyncedWatchers > 0 { unsyncedWatchers = s.syncWatchers() } ...... //定时器解决 ...... }}func (s *watchableStore) syncWatchers() int { //选出unsync队列中的watcher,返回一个watcherGroup wg, minRev := s.unsynced.choose(maxWatchersPerSync, curRev, compactionRev) ...... //从boltdb中取出所有键值以及对应版本号 tx := s.store.b.ReadTx() tx.RLock() revs, vs := tx.UnsafeRange(buckets.Key, minBytes, maxBytes, 0) tx.RUnlock() //因为下面取出的是所有的kv对以及版本号,所有要应用watcherGroup筛选进去监听的键值对应事件 evs := kvsToEvents(s.store.lg, wg, revs, vs) var victims watcherBatch wb := newWatcherBatch(wg, evs) for w := range wg.watchers { ........ //发送音讯到watcher对应的ch,如果阻塞,放入victims队列中 if w.send(WatchResponse{WatchID: w.id, Events: eb.evs, Revision: curRev}) { pendingEventsGauge.Add(float64(len(eb.evs))) } else { if victims == nil {//为空就make一个 victims = make(watcherBatch) } w.victim = true//置标记位 } if w.victim { victims[w] = eb } else { ....... //音讯发送完了,把watcher放入synced队列,期待新的变更事件 s.synced.add(w) } //把unsynced中的watcher勾销掉 s.unsynced.delete(w) } //减少victim s.addVictim(victims) ...... return s.unsynced.size()}
syncWatchersLoop通过一个定时器每隔100ms轮询一次unsynced watcher队列,如果队列不为空,就筛选出数据中的对应键值对以及相应版本号,并最终返还给客户端,将watcher挪动到synced队列。
victims清理
victims的清理也是通过一个异步协程的形式,如果victims队列不为空状况下,会始终以10ms的轮询速度来进行清理,在不产生拥挤时候该异步协程会阻塞在最上面的select,当上游开释信号,则开始一波清理。
//etcd/server/mvcc/watchable_store.gofunc (s *watchableStore) syncVictimsLoop() { defer s.wg.Done() for { //通过moveVictims革除沉积数据 for s.moveVictims() != 0 { } s.mu.RLock() isEmpty := len(s.victims) == 0 s.mu.RUnlock() var tickc <-chan time.Time if !isEmpty { tickc = time.After(10 * time.Millisecond) } select { case <-tickc: case <-s.victimc://接管到信号,开始进行清理 case <-s.stopc: return } }}func (s *watchableStore) moveVictims() (moved int) { //把victims队列取出来,并置s.victims为空,后续应用newVictim代替 s.mu.Lock() victims := s.victims s.victims = nil s.mu.Unlock() var newVictim watcherBatch //遍历队列,尝试发送 for _, wb := range victims { // 尝试发送,发送阻塞放到newVictim for w, eb := range wb { rev := w.minRev - 1 if w.send(WatchResponse{WatchID: w.id, Events: eb.evs, Revision: rev}) { pendingEventsGauge.Add(float64(len(eb.evs))) } else { if newVictim == nil { newVictim = make(watcherBatch) } newVictim[w] = eb continue } moved++ } ...... //遍历并判断是否将音讯发送完了 for w, eb := range wb { if newVictim != nil && newVictim[w] != nil { // couldn't send watch response; stays victim continue } w.victim = false if eb.moreRev != 0 { w.minRev = eb.moreRev } //如果版本号小于以后版本,则导入unsync队列 if w.minRev <= curRev { s.unsynced.add(w) } else { //放入sync队列 s.synced.add(w) } } s.store.revMu.RUnlock() s.mu.Unlock() } //把新的队列搁置到victims中 if len(newVictim) > 0 { s.mu.Lock() s.victims = append(s.victims, newVictim) s.mu.Unlock() } return moved}
清理过程也是通过尝试发送,发送受到阻塞则放入新的victims,发送胜利则进一步判断是将watcher队列挪动到synced或unsynced队列中,最初应用新的victims赋值,这样做保障了不会产生数据的失落。
勾销监听
在创立监听操作时候,在watchableStore中返回了对应的勾销办法。
//etcd/server/mvcc/watchable_store.gofunc (s *watchableStore) watch(key, end []byte, startRev int64, id WatchID, ch chan<- WatchResponse, fcs ...FilterFunc) (*watcher, cancelFunc) { //创立watcher以及放入队列操作 ...... //返回watcher以及勾销的办法 return wa, func() { s.cancelWatcher(wa) }}//cancelWatcher的实现func (s *watchableStore) cancelWatcher(wa *watcher) { for { s.mu.Lock() //尝试从各个队列删除 if s.unsynced.delete(wa) { ..... break } else if s.synced.delete(wa) { ...... break } ....... //victims删除 var victimBatch watcherBatch ....... if victimBatch != nil { ...... delete(victimBatch, wa) break } s.mu.Unlock() time.Sleep(time.Millisecond) } wa.ch = nil s.mu.Unlock()}//etcd/server/mvcc/watcher.gofunc (ws *watchStream) Watch(id WatchID, key, end []byte, startRev int64, fcs ...FilterFunc) (WatchID, error) { ...... w, c := ws.watchable.watch(key, end, startRev, id, ws.ch, fcs...) //将cancelWatcher办法赋值到watchStream的名为cancel的map中 ws.cancels[id] = c ws.watchers[id] = w return id, nil}
在客户端勾销对键值的监听时候,会对应到下层的recvLoop中。
func (sws *serverWatchStream) recvLoop() error { //接管客户端的申请 for { req, err := sws.gRPCStream.Recv() ...... //对申请进行断言判断,并别离解决各种类型的request switch uv := req.RequestUnion.(type) { case *pb.WatchRequest_CreateRequest: //监听的可能是一个范畴 ...... case *pb.WatchRequest_CancelRequest: if uv.CancelRequest != nil { //获取勾销监听的watchID id := uv.CancelRequest.WatchId //勾销监听操作 err := sws.watchStream.Cancel(mvcc.WatchID(id)) ...... } ...... }} func (ws *watchStream) Cancel(id WatchID) error { ws.mu.Lock() cancel, ok := ws.cancels[id]//取出cancel函数 ...... //执行cancel cancel() ...... return nil}
小结
咱们从上到下梳理了watch机制的实现形式,对于咱们了解watch来说,最重要的是了解两个数据结构,serverWatchStream和watchableStore。
serverWatchStream贯通客户端的grpc流与上层的变更通道,watchableStore则保护了监听的键值汇合并在上层解决用户订阅的键值。整体流程框架能够用下图示意,能够看出,这一乏味且可靠的设计背地是对channel与goroutine的奇妙使用。