关于golang:gozero-如何应对海量定时延迟任务

11次阅读

共计 5392 个字符，预计需要花费 14 分钟才能阅读完成。

一个零碎中存在着大量的调度工作，同时调度工作存在工夫的滞后性，而大量的调度工作如果每一个都应用本人的调度器来治理工作的生命周期的话，节约 cpu 的资源而且很低效。

本文来介绍 go-zero 中 提早操作 ，它可能让开发者调度多个工作时， 只需关注具体的业务执行函数和执行工夫「立刻或者提早」。而 提早操作，通常能够采纳两个计划：

Timer：定时器保护一个优先队列，到工夫点执行，而后把须要执行的 task 存储在 map 中
collection 中的 timingWheel，保护一个寄存工作组的数组，每一个槽都保护一个存储 task 的双向链表。开始执行时，计时器每隔指定工夫执行一个槽外面的 tasks。

计划 2 把保护 task 从 优先队列 O(nlog(n)) 降到 双向链表 O(1)，而执行 task 也只有轮询一个工夫点的 tasks O(N)，不须要像优先队列，放入和删除元素 O(nlog(n))。

咱们先看看 go-zero 中本人对 timingWheel 的应用：

首先咱们先来在 collection 的 cache 中对于 timingWheel 的应用：

timingWheel, err := NewTimingWheel(time.Second, slots, func(k, v interface{}) {key, ok := k.(string)
  if !ok {return}
  cache.Del(key)
})
if err != nil {return nil, err}

cache.timingWheel = timingWheel

这是 cache 初始化中也同时初始化 timingWheel 做 key 的过期解决，参数顺次代表：

interval：工夫划分刻度
numSlots：时间槽
execute：工夫点执行函数

在 cache 中执行函数则是 删除过期 key，而这个过期则由 timingWheel 来管制推动工夫。

接下来，就通过 cache 对 timingWheel 的应用来意识。

// 真正做初始化
func newTimingWheelWithClock(interval time.Duration, numSlots int, execute Execute, ticker timex.Ticker) (*TimingWheel, error) {
    tw := &TimingWheel{
        interval:      interval,                     // 单个工夫格工夫距离
        ticker:        ticker,                       // 定时器，做工夫推动，以 interval 为单位推动
        slots:         make([]*list.List, numSlots), // 工夫轮
        timers:        NewSafeMap(),                 // 存储 task{key, value}的 map [执行 execute 所须要的参数]
        tickedPos:     numSlots - 1,                 // at previous virtual circle
        execute:       execute,                      // 执行函数
        numSlots:      numSlots,                     // 初始化 slots num
        setChannel:    make(chan timingEntry),       // 以下几个 channel 是做 task 传递的
        moveChannel:   make(chan baseEntry),
        removeChannel: make(chan interface{}),
        drainChannel:  make(chan func(key, value interface{})),
        stopChannel:   make(chan lang.PlaceholderType),
    }
    // 把 slot 中存储的 list 全副筹备好
    tw.initSlots()
    // 开启异步协程，应用 channel 来做 task 通信和传递
    go tw.run()

    return tw, nil
}

以上比拟直观展现 timingWheel 的 “工夫轮”，前面会围绕这张图解释其中推动的细节。

go tw.run() 开一个协程做工夫推动：

func (tw *TimingWheel) run() {
    for {
        select {// 定时器做工夫推动 -> scanAndRunTasks()
        case <-tw.ticker.Chan():
            tw.onTick()
      // add task 会往 setChannel 输出 task
        case task := <-tw.setChannel:
            tw.setTask(&task)
        ...
        }
    }
}

能够看出，在初始化的时候就开始了 timer 执行，并以 internal 时间段转动，而后底层不停的获取来自 slot 中的 list 的 task，交给 execute 执行。

紧接着就是设置 cache key：

func (c *Cache) Set(key string, value interface{}) {c.lock.Lock()
    _, ok := c.data[key]
    c.data[key] = value
    c.lruCache.add(key)
    c.lock.Unlock()

    expiry := c.unstableExpiry.AroundDuration(c.expire)
    if ok {c.timingWheel.MoveTimer(key, expiry)
    } else {c.timingWheel.SetTimer(key, value, expiry)
    }
}

先看在 data map 中有没有存在这个 key
存在，则更新 expire -> MoveTimer()
第一次设置 key -> SetTimer()

所以对于 timingWheel 的应用上就清晰了，开发者依据需要能够 add 或是 update。

同时咱们跟源码进去会发现：SetTimer() MoveTimer() 都是将 task 输送到 channel，由 run() 中开启的协程一直取出 channel 的 task 操作。

SetTimer() -> setTask()：

not exist task：getPostion -> pushBack to list -> setPosition

exist task：get from timers -> moveTask()

MoveTimer() -> moveTask()

由下面的调用链，有一个都会调用的函数：moveTask()

func (tw *TimingWheel) moveTask(task baseEntry) {// timers: Map => 通过 key 获取 [positionEntry「pos, task」]
    val, ok := tw.timers.Get(task.key)
    if !ok {return}

    timer := val.(*positionEntry)
      // {delay < interval} => 延迟时间比一个工夫格距离还小，没有更小的刻度，阐明工作应该立刻执行
    if task.delay < tw.interval {threading.GoSafe(func() {tw.execute(timer.item.key, timer.item.value)
        })
        return
    }
    // 如果 > interval，则通过 延迟时间 delay 计算其出工夫轮中的 new pos, circle
    pos, circle := tw.getPositionAndCircle(task.delay)
    if pos >= timer.pos {
        timer.item.circle = circle
                // 记录前后的挪动 offset。为了前面过程从新入队
        timer.item.diff = pos - timer.pos
    } else if circle > 0 {
        // 转移到下一层，将 circle 转换为 diff 一部分
        circle--
        timer.item.circle = circle
        // 因为是一个数组，要加上 numSlots [也就是相当于要走到下一层]
        timer.item.diff = tw.numSlots + pos - timer.pos
    } else {
        // 如果 offset 提前了，此时 task 也还在第一层
        // 标记删除老的 task，并从新入队，期待被执行
        timer.item.removed = true
        newItem := &timingEntry{
            baseEntry: task,
            value:     timer.item.value,
        }
        tw.slots[pos].PushBack(newItem)
        tw.setTimerPosition(pos, newItem)
    }
}

以上过程有以下几种状况：

delay < internal：因为 < 单个工夫精度，示意这个工作曾经过期，须要马上执行
针对扭转的 delay：
- new >= old：<newPos, newCircle, diff>
- newCircle > 0：计算 diff，并将 circle 转换为下一层，故 diff + numslots
- 如果只是单纯延迟时间缩短，则将老的 task 标记删除，重新加入 list，期待下一轮 loop 被 execute

之前在初始化中，run() 中定时器的一直推动，推动的过程次要就是把 list 中的 task 传给执行的 execute func。咱们从定时器的执行开始看：

// 定时器「每隔 internal 会执行一次」func (tw *TimingWheel) onTick() {
        // 每次执行更新一下以后执行 tick 地位
    tw.tickedPos = (tw.tickedPos + 1) % tw.numSlots
        // 获取此时 tick 地位 中的存储 task 的双向链表
    l := tw.slots[tw.tickedPos]
    tw.scanAndRunTasks(l)
}

紧接着是如何去执行 execute：

func (tw *TimingWheel) scanAndRunTasks(l *list.List) {// 存储目前须要执行的 task{key, value}  [execute 所须要的参数，顺次传递给 execute 执行]
    var tasks []timingTask

    for e := l.Front(); e != nil; {task := e.Value.(*timingEntry)
                // 标记删除，在 scan 中做真正的删除「删除 map 的 data」if task.removed {next := e.Next()
            l.Remove(e)
            tw.timers.Del(task.key)
            e = next
            continue
        } else if task.circle > 0 {
            // 以后执行点曾经过期，然而同时不在第一层，所以以后层即然曾经实现了，就会降到下一层
                        // 然而并没有批改 pos
            task.circle--
            e = e.Next()
            continue
        } else if task.diff > 0 {
            // 因为之前曾经标注了 diff，须要再进入队列
            next := e.Next()
            l.Remove(e)
            pos := (tw.tickedPos + task.diff) % tw.numSlots
            tw.slots[pos].PushBack(task)
            tw.setTimerPosition(pos, task)
            task.diff = 0
            e = next
            continue
        }
        // 以上的状况都是不能执行的状况，可能执行的会被退出 tasks 中
        tasks = append(tasks, timingTask{
            key:   task.key,
            value: task.value,
        })
        next := e.Next()
        l.Remove(e)
        tw.timers.Del(task.key)
        e = next
    }
    // for range tasks，而后把每个 task->execute 执行即可
    tw.runTasks(tasks)
}

具体的分支状况在正文中阐明了，在看的时候能够和后面的 moveTask() 联合起来，其中 circle 降落，diff 的计算是关联两个函数的重点。

至于 diff 计算就波及到 pos, circle 的计算：

// interval: 4min, d: 60min, numSlots: 16, tickedPos = 15
// step = 15, pos = 14, circle = 0
func (tw *TimingWheel) getPositionAndCircle(d time.Duration) (pos int, circle int) {steps := int(d / tw.interval)
    pos = (tw.tickedPos + steps) % tw.numSlots
    circle = (steps - 1) / tw.numSlots
    return
}

下面的过程能够简化成上面：
steps = d / interval
pos = step % numSlots - 1
circle = (step - 1) / numSlots

timingWheel 靠定时器推动，工夫后退的同时会取出 以后工夫格 中 list「双向链表」的 task，传递到 execute 中执行。因为是是靠 internal 固定工夫刻度推动，可能就会呈现：一个 60s 的 task，internal = 1s，这样就会空跑 59 次 loop。
而在扩大工夫上，采取 circle 分层，这样就能够一直复用原有的 numSlots，因为定时器在一直 loop，而执行能够把下层的 slot 降落到上层，在一直 loop 中就能够执行到下层的 task。这样的设计能够在不发明额定的数据结构，冲破长时间的限度。