关于prometheus:prometheus源码分析discovery自动发现

discovery反对文件、http、consul等主动发现targets，targets会被发送到scrape模块进行拉取。

一.整体框架

discovery组件通过Manager对象治理所有的逻辑，当有数据变动时，通过syncChannel将数据发送给scrape组件。

discovery组件会为每个Job_name创立一个provider对象，它蕴含Discover对象：

Discover对象会主动发现target；
当有targets变动时：
- 首先，通过updateGroup()更新Manager中的targets对象；
- 而后，向Manager的triggerSend channel发送音讯，通知Manager要更新；
- 最初，Manager收到triggerSend channel中的音讯，将Manager中的所有targets发送给syncChannel；

scrape组件接管syncChannel中的数据，而后应用reload()进行抓取对象更新：

若有新job，则创立scrapePool并启动它；
若有新target，则创立scrapeLoop并启动它；
若有隐没的target，则进行其scrapeLoop；

二.discovery组件的代码入口

先创立provider和dicover对象；
再启动provider；

// discovery/manager.go
func (m *Manager) ApplyConfig(cfg map[string]sd_config.ServiceDiscoveryConfig) error {
    .......
    m.targets = make(map[poolKey]map[string]*targetgroup.Group)
    //依据配置创立provider和discover对象
    for name, scfg := range cfg {
        failedCount += m.registerProviders(scfg, name)
    }
    //启动provder
    for _, prov := range m.providers {
        m.startProvider(m.ctx, prov)
    }
    return nil
}

三.provider和discover对象的初始化

provider对象的初始化在Manager.registerProviders():

对主动发现的配置，为其每个配置创立provider和discover对象；
将provider对象退出m.providers;

// discovery/manager.go
// registerProviders returns a number of failed SD config.
func (m *Manager) registerProviders(cfg sd_config.ServiceDiscoveryConfig, setName string) int {
    add := func(cfg interface{}, newDiscoverer func() (Discoverer, error)) {
        t := reflect.TypeOf(cfg).String()
        //创立Discover对象
        d, err := newDiscoverer()
        //结构provider对象
        provider := provider{
            name:   fmt.Sprintf("%s/%d", t, len(m.providers)),
            d:      d,
            config: cfg,
            subs:   []string{setName},
        }
        //退出m.providers
        m.providers = append(m.providers, &provider)
    }
    // 对file_sd_configs中的每个配置，创立provider和discover
    for _, c := range cfg.FileSDConfigs {
        add(c, func() (Discoverer, error) {
            return file.NewDiscovery(c, log.With(m.logger, "discovery", "file")), nil
        })
    }
    ......
    for _, c := range cfg.KubernetesSDConfigs {
       add(c, func() (Discoverer, error) {
          return kubernetes.New(log.With(m.logger, "discovery", "k8s"), c)
       })
    }
    ………
}

discover对象的创立，以file_sd.Discover为例：

// discovery/file/file.go
// 应用file_sd_config，创立file Discovery对象
func NewDiscovery(conf *SDConfig, logger log.Logger) *Discovery {
    disc := &Discovery{
        paths:      conf.Files,
        interval:   time.Duration(conf.RefreshInterval),
        timestamps: make(map[string]float64),
        logger:     logger,
    }
    fileSDTimeStamp.addDiscoverer(disc)
    return disc
}

discover是interface，不同的发现形式均实现了该interface:

// discovery/manager.go
type Discoverer interface {
    Run(ctx context.Context, up chan<- []*targetgroup.Group)
}

discover对象当发现有数据变动，会将数据写入Run()中的chan参数。

四.discover对象产生数据

每个provider对象启动时：

启动1个goroutine: 执行disover.Run()去主动发现targets；
启动1个goroutine: 执行m.update()更新数据并告诉Manager；

// discovery/manager.go
func (m *Manager) startProvider(ctx context.Context, p *provider) {
    ctx, cancel := context.WithCancel(ctx)
    updates := make(chan []*targetgroup.Group)
    m.discoverCancel = append(m.discoverCancel, cancel)
    // 让provider中的discover对象，应用Run()去主动发现
    // 当有数据变动，将数据写入updates
    go p.d.Run(ctx, updates)
    // 更新Manager中的targets并告诉Manager
    go m.updater(ctx, p, updates)
}

1) goroutine1: p.d.Run()

以file.Discovery为例：

它感知file内容的变动，应用d.refresh()解析file内容：
- 通过fsnotify感知file变动；
- 应用Ticker定期刷新(默认5min)；
d.refresh()负责读文件，而后将后果发送到channel:

// discovery/file/file.go
func (d *Discovery) Run(ctx context.Context, ch chan<- []*targetgroup.Group) {
    watcher, err := fsnotify.NewWatcher()
    d.watcher = watcher
    d.refresh(ctx, ch)

    ticker := time.NewTicker(d.interval)    //默认5min
    defer ticker.Stop()
    for {
        select {
        case <-ctx.Done():
            return
        case event := <-d.watcher.Events:    // fsnotify感知到file变动
            d.refresh(ctx, ch)
        case <-ticker.C:
            // Setting a new watch after an update might fail. Make sure we don't lose
            // those files forever.
            d.refresh(ctx, ch)
    }
}

// discovery/file/file.go
func (d *Discovery) refresh(ctx context.Context, ch chan<- []*targetgroup.Group) {
    for _, p := range d.listFiles() {
        tgroups, err := d.readFile(p)
        select {
        // 发送到chan
        case ch <- tgroups:
        case <-ctx.Done():
            return
        }
    }
}

2) goroutine2: m.updater()

该goroutine负责将接管并解决上一步chan中的数据：

首先，将接管的数据更新至m.targets中；
而后，向m.triggerSend这个chan发送音讯；

// discovery/manager.go
func (m *Manager) updater(ctx context.Context, p *provider, updates chan []*targetgroup.Group) {
    for {
        select {
        case <-ctx.Done():
            return
        case tgs, ok := <-updates:
            //更新m.targets中的数据
            for _, s := range p.subs {
                m.updateGroup(poolKey{setName: s, provider: p.name}, tgs)
            }
            //向m.triggerSend发送音讯
            select {
            case m.triggerSend <- struct{}{}:
            default:
            }
        }
    }
}

Manager对象会接管并解决m.triggerSend音讯：

收到m.triggerSend后，将Manager中的所有targets发送到m.syncChan；
scrape组件会接管并解决syncChan；

// discovery/manager.go
func (m *Manager) sender() {
    ticker := time.NewTicker(m.updatert)
    defer ticker.Stop()

    for {
        select {
        case <-m.ctx.Done():
            return
        case <-ticker.C: // Some discoverers send updates too often so we throttle these with the ticker.
            select {
            // 接管m.triggerSend音讯
            case <-m.triggerSend:
                select {
                // 将Manager中的targets发送到syncCh
                case m.syncCh <- m.allGroups():
                default:
            }
        }
    }
}

五.scrape组件接收数据

上一步讲到，discovery.Manager将以后所有的targets，发送到m.syncChan；

scrape组件会接管并解决m.syncChan中的数据：

// cmd/prometheus/main.go
func main() {
    ......
    scrapeManager.Run(discoveryManagerScrape.SyncCh())
    ......
}

scrapeManager.Run()收到数据后：

读取chan中的数据，更新至scrape.Manager.targets中；
发送triggerReload音讯，由m.reload()进行解决；

// scrape/manager.go
func (m *Manager) Run(tsets <-chan map[string][]*targetgroup.Group) error {
    go m.reloader()        //解决reload音讯
    for {
        select {
        case ts := <-tsets:
            m.updateTsets(ts)    //更新Manager中的targets对象

            select {
            case m.triggerReload <- struct{}{}:    //发送reload音讯
            default:
            }
        }
    }
}

m.reloader()解决m.triggerReload音讯：

接管m.triggerReload音讯；
调用m.reload()进行解决；

// scrape/manager.go
func (m *Manager) reloader() {
    ticker := time.NewTicker(5 * time.Second)
    defer ticker.Stop()
    for {
        select {
        case <-ticker.C:
            select {
            case <-m.triggerReload:
                m.reload()
            case <-m.graceShut:
                return
            }
        }
    }
}

m.reload()解析新的targetSets:

若有新job_name，则创立scrapePool；
对每个scrapePool进行sync();

func (m *Manager) reload() {
    m.mtxScrape.Lock()
    var wg sync.WaitGroup
    for setName, groups := range m.targetSets {
        // 新job_name配置，创立scrapePool
        if _, ok := m.scrapePools[setName]; !ok {
            scrapeConfig, ok := m.scrapeConfigs[setName]
            sp, err := newScrapePool(scrapeConfig, m.append, m.jitterSeed, log.With(m.logger, "scrape_pool", setName))
            m.scrapePools[setName] = sp
        }
        wg.Add(1)
        // 并行的同步每个scrapePool
        // Run the sync in parallel as these take a while and at high load can't catch up.
        go func(sp *scrapePool, groups []*targetgroup.Group) {
            sp.Sync(groups)
            wg.Done()
        }(m.scrapePools[setName], groups)
    }
    m.mtxScrape.Unlock()
    wg.Wait()
}

scrapePool.sync()：

对新的target，创立scrapeLoop并执行；
对隐没的target，进行其scrapeLoop并删除其对象；

// scrape/scrape.go
func (sp *scrapePool) sync(targets []*Target) {
    for _, t := range targets {
        t := t
        hash := t.hash()
        if _, ok := sp.activeTargets[hash]; !ok {
            s := &targetScraper{Target: t, client: sp.client, timeout: timeout}
            // 新target，创立scrapeLoop
            l := sp.newLoop(scrapeLoopOptions{
                target:          t,
                scraper:         s,
                limit:           limit,
                honorLabels:     honorLabels,
                honorTimestamps: honorTimestamps,
                mrc:             mrc,
            })
            sp.activeTargets[hash] = t
            sp.loops[hash] = l
            // 执行scrapeLoop
            go l.run(interval, timeout, nil)
        }
    }
        
    var wg sync.WaitGroup
    for hash := range sp.activeTargets {
       // 隐没的target
       if _, ok := uniqueTargets[hash]; !ok {
           wg.Add(1)
           go func(l loop) {
              l.stop()                    //进行scrapeLoop
              wg.Done()
           }(sp.loops[hash])
           delete(sp.loops, hash)        //删除对象
           delete(sp.activeTargets, hash)
        }
    }
    wg.Wait()
}

关于prometheus:prometheus源码分析discovery自动发现

一.整体框架

二.discovery组件的代码入口

三.provider和discover对象的初始化

四.discover对象产生数据

1) goroutine1: p.d.Run()

2) goroutine2: m.updater()

五.scrape组件接收数据

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于prometheus:prometheus源码分析discovery自动发现

一.整体框架

二.discovery组件的代码入口

三.provider和discover对象的初始化

四.discover对象产生数据

1) goroutine1: p.d.Run()

2) goroutine2: m.updater()

五.scrape组件接收数据

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复