关于ios:iOS云音乐APM性能监控实践

本文作者：xxq

背景

客户端 APM 监控是发现和解决产品质量问题的重要伎俩，通常用于排查线上解体等问题，随着业务迭代，单纯的解体监控不能满足要求，特地是对于云音乐这样业务场景很简单的产品，滑动不晦涩、设施发热、UI 卡死、无端闪退等异样问题对用户体验挫伤都很大，因而咱们自研了一套能力更欠缺的 APM 监控零碎并在云音乐上获得了不错的成果，本文是对于客户端监控局部的具体实现计划以及施行成果的一些总结。

行业调研

互联网大厂根本都有自研的 APM，其中有些甚至曾经开源，市面已有计划中有大厂将本人积攒多年的 APM 监控能力商业化（字节、阿里、手Q），也有许多优良的开源我的项目或具体计划介绍（matrix、Wedjat、Sentry），这些 APM 我的项目中不乏品质较高的开源我的项目比方 matrix 的内存监控，也有原理和思路比拟全面比方 Wedjat 以及一些技术分享文章。

但对于云音乐这样比较复杂且独立的大型项目来讲，亟需一款技术可控且合乎本身业务特点的 APM，因而咱们不仅吸纳了市面上优良计划的实践经验，同时联合业务场景做了深度的优化与改良，咱们的计划次要有如下特点：

场景丰盛全面：笼罩了 OOM、ANR、Jank 卡顿、CPU 发热、UI 假死等场景；
异样精密管控：设计了一套异样问题分级规范，对不同级别的问题采纳不同的监控和治理策略；
堆栈精准高效：
- 通过聚合型堆栈构造晋升问题堆栈的准确率；
- 通过过滤无用堆栈缩小烦扰信息；
- 上报堆栈的线程名以便于过滤特定问题堆栈；
调试能力丰盛：调试工具能够无效晋升问题排查效率
- 监控台实时展示CPU/GPU/FPS等信息；
- 反对各类异样场景的模仿；
- 反对本地符号化堆栈信息；
- 反对函数耗时统计。

计划介绍

一、堆栈

指标

一款 APM 我的项目的外围指标是帮忙业务提前发现和疾速定位性能问题，在大家熟知的解体监控中解体堆栈是其最为外围的信息，在大部分场景能间接定位到呈现解体问题的代码行，在本文提到的各类异样监控中亦是如此，本我的项目中绝大部分异样 Issue 都会将堆栈作为其外围信息上报，因而堆栈是 APM 我的项目中最根底也是最重要的模块。
但与此同时性能性能异样的堆栈和解体型堆栈也存在很大区别，解体堆栈是在问题产生时抓取全线程堆栈，而性能异样的监控很多时候不能精确抓取到过后的调用栈，须要利用统计学伎俩去猜问题场景最有可能的堆栈，所以咱们设计了一套聚合型堆栈计划，本文也先从这里开始论述。

堆栈聚合

Apple 的 ips 堆栈

堆栈格局参考自苹果ips文件，它将多组堆栈聚合到一起展现，通过缩进来示意堆栈的深度，这样即节俭了堆栈的存储空间，也便于直观展现多组堆栈信息，还能依据堆栈的命中次数提取出命中率最高的要害堆栈，这对 Issue 的聚合有很大的帮忙。

云音乐的聚合型堆栈

存储构造：这种聚合型堆栈实现办法比较简单，通过二叉树存储堆栈数据，打印后果时只需遍历二叉树，其中二叉树生成的算法如下：

传入堆栈数组以及以后遍历的深度，如果深度曾经超过数组大小，则退出递归；否则执行 > 步骤2；

从栈底开始匹配以后二叉树节点，如果雷同，则跳转至 步骤3；不雷同则跳转至 步骤> 4；

挪动到下一个深度并交给 right节点解决，right为nil时创立节点，递归跳转至 > 步骤1；

不挪动深度并交给 left解决，left为nil时创立节点，递归跳转至 步骤1。

打印堆栈则是通过 DFS 后续遍历二叉树，再格式化输入每一栈帧的信息即可，须要依据树深度来输入正确的缩进，同时将堆栈的命中次数/占比打印在后面，后文有聚合型堆栈的展现成果，此处不赘述。

压缩原理：函数调用栈有一个特点，栈底的调用变动远远小于栈顶，这很好了解，一个调用树必定是越往树枝末端分叉越多，这也使得从栈底向上聚合时能压缩大量的存储空间，粗略统计相比不必聚合型堆栈的数据，能够节俭50%以上的存储空间。

下图中演示了3组堆栈聚合的过程，其中堆栈数据通过二叉树来治理。

要害堆栈

每次传入堆栈更新/构建二叉树时，将以后节点的计数+1，示意以后节点匹配的次数，次数最高的权重也就最高，权重最高的为要害堆栈。

因而获取要害堆栈的过程也是搜寻权重最大的二叉树门路，实现比较简单此处不再赘述。

有效堆栈

为什么要过滤？

在实际上报的堆栈里，咱们发现大量堆栈如下，都是一些纯零碎调用。

这类堆栈对咱们排查问题简直没有什么帮忙，因而咱们默认剔除这类堆栈，最大水平缩小烦扰。

一个堆栈是由一组调用帧组成，每个调用帧由 image addr offset 或与之等价的信息形成，咱们只需判断 image 是不是 app 本人即可晓得当次调用是否来自咱们利用本身的代码。须要留神的是APP本身引入的动静库也要纳入外部调用，因而判断 image 是否来自 app 本身时，文件门路要去掉 *.app/*这部分的匹配。

判断 main函数地址

下面的三个图中，第一个图里有 main函数，不管何时抓取主线程简直必然有这个调用，因为 APP 是由它启动的。然而 main 函数的 image 就是利用本身，如何独自排除掉这个非凡状况？能够通过 main 函数地址进行判断，首先获取到 main 函数地址，而后判断调用帧的 addr是否来自main函数。

main函数地址存在 mach-o 文件信息 LC_MAIN CMD 中

// 获取 main 函数地址
struct uuid_command * cmd = (struct uuid_command *)macho_search_command(image, LC_MAIN);
if (cmd != NULL) {
    struct entry_point_command * entry_pt = (struct entry_point_command *)cmd;
    Dl_info info = {0};
    dladdr((const void *)header, &info);
    main_func_addr = (void *)(info.dli_saddr + entry_pt->entryoff);
}

须要留神的是，获取到的函数地址与frame的 addr会存在一个固定差值，判断时须要解决一下。

二、监控

指标

有了新的堆栈能力后，接下来咱们须要针对不同的异样场景设计相应的监控计划，个别比拟常见的性能异样场景和归因如下：

场景	归因
设施发热、耗电快	CPU 长时间高占用、频繁磁盘IO
卡顿	主线程执行或同步期待耗时工作，比方磁盘IO、文件加解密计算、图片提前解压等
界面不响应	主队列不响应工作，比方主线程死锁、死循环占用等
异样闪退	内存占用过高OOM、界面卡死、磁盘空间有余、CPU继续过低等

咱们须要利用设备的零碎信息对不同的场景施行与之相应的监控计划，其中零碎信息与异样场景之间能够简略依照上面的映射进行关联：

CPU => 设施发热问题
Runloop 耗时 => 卡顿问题
main queue => 界面不响应
内存占用 => OOM

理论中会略微简单一些，接下来本文会围绕一些典型场景讲述其监控原理。

CPU 高耗费

原理

窗口统计机制

CPU过高的占用会带来设施发热、耗电快、后盾过程被零碎强杀等问题，重大影响用户体验，但失常应用下，比方滚动列表视图，通常会因为频繁I/O以及UI高频刷新，而以致CPU很容易达到100%占用率，但短时间的CPU高占用并不能掂量APP的衰弱度，甚至很多时候是失常景象，咱们更关注的那些长时间占用 CPU 的问题线程，像 Xcode 自带的耗电监控也是相似的逻辑，因而咱们应用窗口扫描机制策略来发现这类异样问题。

Apple Xcode自带的耗电监控异样日志

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25328116852/7775/6b6c/6b20/0645d1a7a64722d3d69fa14722607027.png” alt=”image.png” width=”200″ />

实际中咱们发现大部分CPU异样场景会集中在单个线程，因而监控更偏重线程维度的表白，异样Issue与线程一对一的关系，同时将线程名称一并上报。

此外CPU异样最要害的信息是堆栈，对于堆栈的格局、抓取策略、关键帧提取等内容，后面曾经具体论述，总的来说计划有如下几个关键点：

通过窗口扫描机制，聚焦长时间占用 CPU 的异常情况
将异样问题依据均匀CPU占用率划分 info/warn/error 三种级别
一个 Issue 对应一个线程，Issue 中蕴含线程名信息
默认状况下，过滤齐全没有APP外部调用的堆栈数据

窗口扫描机制

固定的统计窗口内CPU超过限度的次数超过肯定次数时，抓取以后线程堆栈，当抓取线程堆栈数量超过设定阈值时，将采集到的堆栈聚合、排序并上报。

解释阐明：

CPU usage 范畴是0~1000，即 usage 为 100示意占用率为 10%

图中窗口为 5/8，即窗口8次中有5次超限（超过80阈值），抓取堆栈

窗口1中只有120、100、100，共计3次超限

窗口2中有120、100、100、100，共计4次超限

窗口3中有120、100、100、100、100，共计5次超限，满足5/8窗口，抓取堆栈

…

成果

通过CPU监控定位了一处后盾线程高占用从而导致云音乐后盾听歌被强杀的线上问题。

某个线程CPU高占用上报量突增，解决后上报量升高到个位数

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25328584190/4f2b/7f84/3229/8f49a5b73aa95a6eb1cd744814b7b65a.png” alt=”image.png” width=”90%” />

上报堆栈显示主线程某个动画模块继续高CPU占用

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25332319498/466f/e37d/4cc3/cc93e7d075d8a448374084af7d396932.png” alt=”image.png” width=”90%” />

Jank 卡顿

原理

后盾线程监控

业内对于卡顿监控的计划根本大同小异，通过一个独自的线程一直轮训检测 Main Runloop 的耗时状况，超时则认为产生卡顿，咱们定义超时工夫为3帧即 50ms。同时咱们还管制了堆栈抓取的频次以及页面采集频次，因为卡顿事件切实是太多了😹。

示例代码

// 监控线程
dispatch_async(self.monitorQueue, ^{
    //子线程开启一个继续的loop用来进行监控
    while (YES) {
        NSTimeInterval tsBeforeWaiting = GetTimestamp();
        long semaphoreWait = dispatch_semaphore_wait(self.dispatchSemaphore, dispatch_time(DISPATCH_TIME_NOW, s_jank_monitor_runloop_timeout * NSEC_PER_MSEC));
        CFRunLoopActivity runloopActivity = atomic_load_explicit(&self->_runLoopActivity, memory_order_acquire);
        NSTimeInterval currentTime = GetTimestamp();
        NSTimeInterval tsInterval = currentTime - tsBeforeWaiting;
        if (semaphoreWait != 0) {
            // 信号量超时，认为产生卡顿
            ...
        }
    }
}

...

// 主线程runloop回调

static void RunLoopObserverCallBack(CFRunLoopObserverRef observer, CFRunLoopActivity activity, void *info) {
    APMJankRunloopMonitor *jankMonitor = (__bridge APMJankRunloopMonitor *)info;
    atomic_store_explicit(&jankMonitor->_runLoopActivity, activity, memory_order_release);
    dispatch_semaphore_t semaphore = jankMonitor.dispatchSemaphore;
    dispatch_semaphore_signal(semaphore);
}

频控

每个页面每日只统计1次，除此之外，为了防止过于密集地抓取堆栈以及扩充堆栈采集的时间跨度，并不是每次卡顿事件产生时都抓取堆栈，约定在第1、3、5、10、15、20…5n次卡登时抓取主线程堆栈，当抓取到的堆栈数量超过一个阈值时上报数据。

成果

从上线后成果来看，聚合的准确度还不错，通过几个头部卡顿 Issue 能够看到，页面卡顿的典型场景集中在磁盘IO方面，与理论的后果是相符的。

主线程操作 FMDB

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25329044523/6483/91d0/01df/c13ee886ef5f6525693abe57325fed99.png” alt=”image.png” height=”80″ />

主线程 md5 计算

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25329044525/dec4/2b09/fbfd/8db8f61c2bde5851ca434af1a3cb350f.png” alt=”image.png” height=”80″ />

主线程下载文件

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25329044524/c9d5/36b8/c0a5/85e9a00e8794960a09aae5c48ac6f66e.png” alt=”image.png” height=”80″ />

ANR 卡死

原理

ping机制

ANR 是指UI线程无响应的状况，此时UI线程因为某种原因被阻塞，不执行任何新提交的主线程队列工作，基于这个特点，监控原理则是通过定时向 main_queue中发送工作批改 ack值，每次轮训检测 ack的值是否产生批改来判断主线程是否产生了ANR。

检测流程示意

示意代码

// ack: recv success
if (atomic_load_explicit(&s_ack, memory_order_acquire)) {
    // ack胜利，值被批改
    // 状态复原，ANR完结/未产生
    // ...
    // ANR 计数清零
    atomic_store_explicit(&s_anr_count, 0u, memory_order_release);
} else {
    // 无应答，ANR 计数+1
    unsigned long anr_count = atomic_fetch_add_explicit(&s_anr_count, 1u, memory_order_acq_rel);
    anr_count ++;
    // 产生 ANR 事件
    // ...
}

// ack: send
atomic_store_explicit(&s_ack, false, memory_order_release);
dispatch_async(dispatch_get_main_queue(), ^{
    // ack: recv
    atomic_store_explicit(&s_ack, true, memory_order_release);
});

每次产生 ANR 时抓取堆栈，抓取规定如下

ANR 的第 4、8、16 秒时，抓取全线程堆栈并聚合
ANR 的第 2、3、4、5、6…n 秒时，抓取主线程堆栈并聚合

实时将抓取到的堆栈数据存储到本地，如果程序从 ANR 状态复原执行，则删除本地 ANR 数据；

每次启动时查看本地是否存在 ANR 数据，如果有数据则上报 ANR 异样，上报后删除这份数据。

成果

常见的ANR场景有死锁（CPU占用低）、死循环（CPU占用高）、大工作等，上面展现了几种典型的ANR异样堆栈。

死锁问题

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25744281243/ce29/fea9/778a/d1c4bd1938a5d61a29c5d85e60f7dc4a.png” alt=”image.png” height=”200″ />

h5 页面死锁

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25332455565/d658/b3f7/e792/5b8002312c7372dfd500b9a60aca7960.png” alt=”image.png” height=”200″ />

IO 操作超时

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25332457068/9d01/34ec/8ac9/e6c93e3e653e3eebc8f3e314ef21ad19.png” alt=”image.png” height=”200″ />

内存异样

原理

内存异样次要蕴含OOM、大内存对象和巨量小内存对象三类异样，其中 OOM 属于解体型异样，而后两者属于运行时异样内存调配，比方某个对象创立了是百万次，或者一次申请了10M大小的内存对象。

计划原理在肯定水平参考了 matrix 的计划，通过零碎的 malloc_logger 回调时抓取内存申请的堆栈，依据内存大小维度聚合内存对象，记录内存的申请数量、内存大小以及堆栈等信息，在上报时dump出堆栈数据并上报，堆栈格局和后面一样都是聚合型堆栈。

须要留神的是，Dump 内存信息是比拟耗性能的工作，监控只在APP内存占用超过500M时触发 dump，同时在 >500M 的前提下，每次内存增长300M会再次触发 dump 工作，下图展现了内存稳定与 dump 机会的场景。

成果

目前OOM监控已在线上启用3个月以上，没有对用户体验产生显著劣化，咱们甚至尝试过在 main 函数前就启动 OOM 监控，帮忙业务侧定位到一个极难排查的启动 OOM 问题。

程序刚启动便产生重大的 OOM，零碎的 ips 以及 xcode instrument 等官网工具，对这个场景简直都大刀阔斧。

<img src=”https://p5.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25329204947/7bcc/0840/5e61/86903343bf423408160da6824f5f6d21.png” alt=”image.png” width=”100%” />

下图展现了某个 240 字节的内存对象申请了6535次，共占用485Mb内存大小

<img src=”https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/25332319498/466f/e37d/4cc3/cc93e7d075d8a448374084af7d396932.png” alt=”image.png” width=”100%” />

后记

限于篇幅有很多能力没有开展讲述，APM 上线半年以来，帮忙云音乐发现和定位不少线上问题，现在面对客诉反馈时也不再两眼一抹黑，大大提高了问题的解决效率，APM 在将来还会围绕上面几个方向继续欠缺，它也将继续为云音乐线上品质保驾护航。

对于 APM 将来的布局

链路自动化：异样 Issue 主动指派
场景精细化：网络大图内存异样监控
更全面的工具：监控日志定向回捞、采样数据可视化展示

本文公布自网易云音乐技术团队，文章未经受权禁止任何模式的转载。咱们长年招收各类技术岗位，如果你筹备换工作，又恰好喜爱云音乐，那就退出咱们 grp.music-fe(at)corp.netease.com！

关于ios:iOS云音乐APM性能监控实践

背景

行业调研

计划介绍

一、堆栈

指标

堆栈聚合

Apple 的 ips 堆栈

云音乐的聚合型堆栈

要害堆栈

有效堆栈

二、监控

指标

CPU 高耗费

原理

成果

Jank 卡顿

原理

成果

ANR 卡死

原理

成果

内存异样

原理

成果

后记

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于ios:iOS云音乐APM性能监控实践

背景

行业调研

计划介绍

一、堆栈

指标

堆栈聚合

Apple 的 ips 堆栈

云音乐的聚合型堆栈

要害堆栈

有效堆栈

二、监控

指标

CPU 高耗费

原理

成果

Jank 卡顿

原理

成果

ANR 卡死

原理

成果

内存异样

原理

成果

后记

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复