关于人工智能:360OS张焰AI视觉在教育中的应用

11 月 24 日，由即构科技主办的 2020GET 大会教育科技分论坛在北京胜利召开，来自叮咚课堂、小冰、360OS、蕃茄田艺术、即构科技的 6 位资深教育 / 科技大咖，在论坛上进行深度分享。

以下为 360OSAI 影像事业部总经理张焰带来的主题为《AI 视觉在教育中的利用》的演讲，咱们整顿了分享的核心内容，错过流动的小伙伴能够持续回看学习。

扫描下方二维码，可下载演讲 PPT 材料

二维码地址：https://www.wjx.top/jq/99621641.aspx

张焰认为：

360AI 视觉针对在线教育痛点开发了 4 大场景解决方案，包含代替督学、量化检测、智能互动以及智能工具。他置信科技扭转将来，AI 能够为教育行业起到降本增效的作用。

以下为张焰演讲实录：

首先介绍一下咱们团队，咱们是 360 团体旗下孵化的翻新业务线，专一做 AI 视觉算法的研发和利用。围绕“人、物、场景”三个维度，为智能手机、泛娱乐、在线教育、IOT 等行业提供业余的算法反对和解决方案。

从国家层面上来讲，教育是科技兴邦的基本；对家庭而言，教育也是家庭的心愿；从情怀而言，教育可能是最大的公益，这也是咱们做在线教育的初衷。

受疫情影响，很多线下传统教培机构，当初可能被迫或减速转到了线上。这其实就是数字化的过程，然而过程来得太快，很多公司还没适应过去，所以这个过程也裸露了很多问题，以下四个痛点尤为显著：

1、学生自觉性差。尤其是 K12 教育，这是典型的督导式教学。以前线下督导的压力都在老师身上，搬到线上之后，督导的压力都转移到家长身上了。

2、成果难以评估。到目前为止，还没有一套成熟的量化指标来评估课堂上的好与坏，家长对线上教学的成果依然存疑。

3、课堂互动性差。你面对的互动对象是一个寒冷的屏幕，而不是一个和颜悦色的老师，所以在互动方面会存在很多问题。

4、教学效率较低。传统线上课难以还原线下场景，包含场地设施的限度，给老师和机构减少了不少老本。

其实我不算是教育工作者，只是科技从业者，我深信科技是能够扭转将来的，咱们想做将来的教育。那么科技与教育的联合可能碰撞出什么样的火花？咱们提出了几个解决方案：

线上督学的责任由老师转变给家长，咱们心愿用机器来代替老师跟家长进行督学, 这里波及到两个层面：疲劳揭示和姿势纠正。

疲劳揭示

很多教育台灯、教育平板类的产品也有疲劳揭示性能，次要监测“打哈欠、瞌睡”这两个行为，咱们减少了趴着的场景。趴着的场景难度更大，起因是尽管全身的骨骼关节点比拟好检测，但针对半身，可能只看到头发或上半身的一小部分，这种人体关节点简直是检测不到或者是不准的。为此咱们做了很多的尝试和钻研，解决了这个问题。

姿势纠正

姿势纠正也分为两类：坐姿不良和间隔太近。坐姿不良有很多维度，比方趴着、卧倒、歪斜，这些状况都能够检测进去。间隔太近，有两套计划。第一套是基于 2D 人脸检测技术来做的，这个技术的精度可能比拟无限，大略是到厘米级别。咱们跟其余的硬件厂商做的降级计划，能够准确到毫米级别的间隔探测。

咱们的学生姿势实时检测零碎的实现计划，总体分为两个维度：人脸姿势检测和人体姿势。人脸姿势包含打哈欠、瞌睡等，人体姿势检测退出了 3D 深度信息，这样能获取到深度信息，用深度信息来辅助做人体的平面姿势辨认，能够大幅的进步精度。

课堂专一度与课堂接受度是家长比拟看重的两个维度，尤其是线下转线上之后。学生有没有走神，有没有认真听讲，上课的成果好不好，这些是家长十分关怀的指标。

课堂专一度

一般专一度检测有几个维度，像举手、抬头、瞌睡、玩手机，缺点是仅有 2D 图像信息，检测准确率欠佳。另外是检测指标繁多，没法精准回溯学情。

而咱们做的课堂专一度，包含了 3D 深度检测和学情回溯零碎。能够看到咱们退出了人体 Depth 信息，基于这个信息能够比拟精准的预计到人体的每个姿势，而后再退出事件的触发机制，最初失去监测后果。包含事件状态的上报，工夫戳，以及以后工夫戳产生的事件截图等，便于课后对教学情况进行回溯剖析。

课堂接受度

对于课堂接受度，到目前为止，还没有哪家公司真正把它做到产品里。咱们独创的课堂接受度，蕴含了正向和负向维度。正向的维度有举手、微笑、拍板，代表课堂接受度是比拟好的。负向的维度有纳闷、皱眉、点头，这些代表课堂接受度较差。

针对纳闷这个表情的解决，咱们也下了很多功夫。从学术界来看，人类常见的表情只有 7 种，并不包含纳闷这个表情，也没有相干的数据。但这个表情对教学场景很有意义，所以咱们在这方面做了大量的数据补充，减少了纳闷的数据和标注，最初通过迁徙学习的形式，再联合人体关键点进行辅助辨认，失去了最终的 8 类表情辨认。

咱们的课质监测计划采纳了典型的“边缘计算 + 云计算”联合的架构，当初边缘端算力曾经越来越强了，很多算法能够间接拷在边缘设施端以及 APP 上。采纳这种架构还出于隐衷的思考，大家放心把学生端的摄像头关上之后，检测学生的行为可能会触犯个人隐私或者呈现非法上传数据。因而咱们尽量把端的能力施展进去，上传的只是用 AI 算法检测之后的状态，而不是客户隐衷的数据。

网课助手对老师而言，能够失去整个班级的课堂体现报告，是十分有价值的。对家长而言，能够生成本地的报告，失去学生在每个维度的体现状况，并针对每一个维度的工夫戳进行回溯剖析。

AI 沉迷式课件

传统的录播课为了取得较好的成果，可能须要用业余的录播间，前面搭建绿幕，还有补光灯等一系列的设施。这里有一个显著的毛病是对场地的要求过高，前期的制作老本也比拟高。

而传统的直播课，能够看到课件跟老师的头像画面是分屏展现的，老师跟学生之间的互动很无限，这对幼儿教育的体验是十分不敌对的。

咱们的 AI 沉迷式课件，做了十分精准的人像宰割，能够把课件放在人像前面展现，同时人跟课件之间能够进行互动，比方课件播放、暂停、上一页、下一页这些简略的操控，以及老师跟课件内容的互动。这个技术也能够用来做课件的生产工具，不须要录播间的场地和设施，主动实现课件制作。

网课互动

说到网课互动，咱们晓得传统的线上互动都是老师单向输入为主，老师很难兼顾到每个学生的状态。因为学生在屏幕当中只是十分小的头像，学生产生什么情况，老师是不晓得的。

咱们研发了一系列智能互动工具，能够通过 AI 伎俩实现多向多元的互动。比方手势辨认，如果这个学生答复问题之后，老师感觉很棒，能够点一个赞触发点赞的特效。表情辨认，如果零碎检测到学生纳闷了，能够把他的头像 Highlight 进去，引起老师的留神；还有像人脸特效是比拟常见的，当初有很多幼儿教育都会用它来减少互动的趣味性。

咱们在这部分做了很多的投入跟翻新，因为这些跟硬件联合比拟严密，也是咱们的强项。

拍照搜题

很多的学习 APP 里可能都有拍照搜题的性能，拍照之后用 OCR 技术辨认。很多学生可能用教育平板拍照，但学生手比拟小，教育平板又很大，按快门键的时候常常会手抖，而当初的教育平板和手机都没有光学防抖的加持，导致拍进去的成果不清晰。

咱们出了 HD Shot 解决方案，能够解决各种场景下失焦、抖动、噪点、暗光等一系列拍照含糊的问题。这个性能在科大讯飞的录音笔上曾经上线了，当初的录音笔很智能，除了有录音性能，还能够拍会议的文档和 PPT。

如下图所示，右边是解决前的成果，左边是解决之后的。这个性能能够晋升动静范畴，对高光进行克制，对暗部进行提亮。

画质能力降级

视频画质晋升的技术，对老师端或者主播端十分有价值。业余的主播，设施十分齐全，能够把手机架到补光灯上，让本人的脸更粗劣透亮。然而长期应用补光灯对眼睛的挫伤还是比拟大的，所以咱们做了纯 AI 软件补光灯计划。一套是全局的补光计划，还有一套是专门针对人脸的补光计划。针对人脸的补光计划，会对人脸的肤色进行精准的辨认，利用 3D 打光技术把人脸变得更加透亮。

人脸考勤

Face ID 技术，在智慧校园也曾经开始利用了，这个技术的外围难点在于误识率、拒识率指标以及活体检测。它能够用在线上跟线下的大班课程，比方考勤点名，避免他人代答到这种状况。

最初用金字塔构造总结一下咱们的业务架构，最底层是外围的根底技术，第二层是基于场景化的解决方案，须要深刻理解行业的特点以及场景化的需要，顶层则是咱们基于各个平台适配的 SDK 产品，咱们能够基于根底技术做很多业务层的封装和开发。

我始终置信科技扭转将来，AI 能够为在线教育行业起到降本增效的作用。AI 教育，将来可期。谢谢大家！

关于人工智能:360OS张焰AI视觉在教育中的应用

一、为什么做在线教育？

二、AI 视觉能为在线教育做什么？

1、代替督学计划

2、量化检测计划

3、智能互动计划

4、智能工具计划