由 LiveVideoStack、CSDN 主办的 LiveVideoStackCon 音视频技术大会于 2019 年 8 月 23 日 -24 日在北京丽亭华苑酒店隆重举行,网易易盾资深算法专家李雨珂受邀出席会议并做分享。
LiveVideoStackCon 音视频技术大会是多媒体技术领域的盛会,大会聚焦音频、视频、图像、AI 等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、交通、制造、旅游、电商、金融、社交、游戏、智能设备、IC 等行业领域,面向音视频工程师、多媒体工程师、图像算法工程师、技术负责人及高端行业用户、产品与项目负责人等分享技术创新与最佳实践。
网易易盾资深算法专家李雨珂
在本次多媒体技术领域盛会上,网易易盾资深算法专家李雨珂在“无处不在的 AI”专题论坛里,作议题为《深度学习图像算法在内容安全领域的应用》的分享,展示 AI 商业落地典型的案例,以及分享了他在长期一线工作过程中总结的算法优化经验。
李雨珂首先谈及内容安全的现状,他说,有害信息包括垃圾广告、暴恐、色情低俗和渉政等,这些有害信息严重影响未成年人身心健康和社区、产品自身调性的建设。因此,国家网信办针对网络乱象启动了多次专项活动,下架了一些问题突出的应用。
这些主体公司绝大部分都有在积极履行社会主体责任,只是内容安全识别领域的挑战的确很大,他们的技术不能很好地处理内容安全问题。“在海量的数据中发现违规内容的确非常困难,而且有害信息涉及的种类繁多,定义复杂,没有深厚的技术积累和有经验的人工审核辅助,很难处理好内容安全问题。”李雨珂指出内容安全上面临的痛点。
那么作为内容安全的服务商——网易易盾是怎么做的呢?李雨珂表示,网易易盾在内容安全技术的发展上经过了三个阶段。
第一阶段内容安全技术是建立在关键词、黑白名单、过滤器和分类器上;第二阶段内容安全技术基于内容特征识别(肤色、纹理)、贝叶斯过滤、相似度匹配和规则系统;而第三阶段则升级为大数据分析(用户行为、用户分类)、人机识别、人工智能和机器学习(语义识别、图像识别)。
“ 我个人主要是经历了第三阶段,也就是深度学习阶段的技术探索。” 所以接下来的时间,李雨珂具体分享了运用深度学习在内容安全领域的探索和优化过程。
他指出,使用深度学习技术解决内容安全问题,会面临两个阶段的难题。
前期主要是面临海量数据资源的问题,主要是垃圾类型数据收集难度大,覆盖类型有限;而后一个阶段则是投入和运营维护的问题,这块投入是无底洞,因为随着业务和形态的发展,以及黑灰产攻防的升级,需要不断投入大量人力、物力。
对于这些挑战,李雨珂团队进行了深度学习在这一领域落地的初步探索。
“在具体方法上,我们采用的基本技术手段是深度学习方法中最常见的图像分类网络和目标检测网络。在实际解决问题的过程中,对于不同的违禁内容我们往往使用不同模型不同的服务进行处理。”
接着,李雨珂也举了两个探索中踩的坑。一个是初期的工作过程中,算法同学容易陷入一个误区,太多关注方法本身(沉浸于模型搭建和跟进前沿方法)和调参。实际上,这些动作效果并不好,开源方法往往以公开数据集进行测试,公开数据训练的例子只是真实世界中的一个子集,并不一定适用于实际应用的数据集,因为算法本身不像人脑那样具备很强的推理能力,还是更多地依赖数据。另外一个则是容易忽略用户真实诉求,导致大量不可解释的误判问题,以及漏判问题——特征不明显、模糊的样例不能召回。
接下来,李雨珂团队就开始对遇到的问题和坑进行优化,主要是以下五点:
定义业务标准:每一个细分类都需要有明确的描述,标注作出判断时有明确依据,因为人无法分清,机器更加糊涂;明确重要程度:全局角度,放弃一些零碎的偶发样例,集中解决某一类型的问题;测试标准:挑选更有代表性的测试;数据层面:闭环迭代,数据回流,同时确定性和解释性;漏判优化:包括数据回流扩充正样本、定向收集数据、对目标检测辅助(特写区域)、FPN+ATTENTION(改善多尺度、小目标问题),以及采用了其他技术进行辅助,比如说 OCR(易盾自研了匹配内容安全场景的 OCR 技术)、二维码、图片库、图像聚类、用户维度等。
这一套组合拳下来后,效果显著。基本满足了业务不断发展的需求,而且识别覆盖面广、需求响应也很快速。在部分核心业务上,算法关注的实测指标得到提升:整体漏判控制在万分之三以内,召回精度达到了 97%以上。
后来,李雨珂团队又在业务输出精细化、模型层面精细化和模型性能优化上进行了布局,在图像业务上进行横向拓展——比如说增加了 Logo 识别、旗帜识别、不文明行为识别等。此外,他们也在平台化支撑和独立精耕细作上共同提速,能够快速支撑新类型业务的同时,也能垂直优化已有业务。
目前,算法团队实现了对文本、图片、视频和音频技术层面的全支撑,并获得了多方认可。比如说今年 8 月份,网易易盾在首个全国范围大型人工智能领域竞赛上获得最高级证书(旗帜识别领域 A 级证书),此外网易在同源图像检索、LOGO 识别、人脸识别、印刷体 OCR 也取得了优异成绩,成为本次多媒体信息识别技术竞赛 A 级认证的十一家企业之一。在荣誉上,先后获得雷锋网颁发的年度最佳视频内容审查奖,以及在上海举行的视频文娱大会 2019 上获得“年度最佳内容审核服务商”奖。
李雨珂指出,这些成功不能只归功于算法团队,“对商业服务而言,算法只是微小的工作,实际上是需要运营团队、业务团队、工程团队的共同配合和努力。”在分享最后,李雨珂总结了四点经验,希望能给大家一些帮助:
- 目标:重视问题定义,保持全局角度;
- 数据:关注数据有效收集,大批量标注一时爽,花费时间精力;
- 成本:重视成本与效率,包括数据收集成本、问题解决投入成本以及机器成本;
- 定制:场景决定精细化程度,通用方案对于效果要求较高的场景难度较大。