共计 3434 个字符,预计需要花费 9 分钟才能阅读完成。
11 月 24 日,由即构科技主办的 2020GET 大会教育科技分论坛在北京胜利召开,来自叮咚课堂、小冰、360OS、蕃茄田艺术、即构科技的 6 位资深教育 / 科技大咖,在论坛上进行深度分享。
以下为 360OSAI 影像事业部总经理张焰带来的主题为《AI 视觉在教育中的利用》的演讲,咱们整顿了分享的核心内容,错过流动的小伙伴能够持续回看学习。
扫描下方二维码,可下载演讲 PPT 材料
二维码地址:https://www.wjx.top/jq/99621641.aspx
张焰认为:
360AI 视觉针对在线教育痛点开发了 4 大场景解决方案,包含代替督学、量化检测、智能互动以及智能工具。他置信科技扭转将来,AI 能够为教育行业起到降本增效的作用。
以下为张焰演讲实录:
首先介绍一下咱们团队,咱们是 360 团体旗下孵化的翻新业务线,专一做 AI 视觉算法的研发和利用。围绕“人、物、场景”三个维度,为智能手机、泛娱乐、在线教育、IOT 等行业提供业余的算法反对和解决方案。
一、为什么做在线教育?
从国家层面上来讲,教育是科技兴邦的基本;对家庭而言,教育也是家庭的心愿;从情怀而言,教育可能是最大的公益,这也是咱们做在线教育的初衷。
受疫情影响,很多线下传统教培机构,当初可能被迫或减速转到了线上。这其实就是数字化的过程,然而过程来得太快,很多公司还没适应过去,所以这个过程也裸露了很多问题,以下四个痛点尤为显著:
1、学生自觉性差。尤其是 K12 教育,这是典型的督导式教学。以前线下督导的压力都在老师身上,搬到线上之后,督导的压力都转移到家长身上了。
2、成果难以评估。到目前为止,还没有一套成熟的量化指标来评估课堂上的好与坏,家长对线上教学的成果依然存疑。
3、课堂互动性差。你面对的互动对象是一个寒冷的屏幕,而不是一个和颜悦色的老师,所以在互动方面会存在很多问题。
4、教学效率较低。传统线上课难以还原线下场景,包含场地设施的限度,给老师和机构减少了不少老本。
二、AI 视觉能为在线教育做什么?
其实我不算是教育工作者,只是科技从业者,我深信科技是能够扭转将来的,咱们想做将来的教育。那么科技与教育的联合可能碰撞出什么样的火花?咱们提出了几个解决方案:
1、代替督学计划
线上督学的责任由老师转变给家长,咱们心愿用机器来代替老师跟家长进行督学, 这里波及到两个层面:疲劳揭示和姿势纠正。
疲劳揭示
很多教育台灯、教育平板类的产品也有疲劳揭示性能,次要监测“打哈欠、瞌睡”这两个行为,咱们减少了趴着的场景。趴着的场景难度更大,起因是尽管全身的骨骼关节点比拟好检测,但针对半身,可能只看到头发或上半身的一小部分,这种人体关节点简直是检测不到或者是不准的。为此咱们做了很多的尝试和钻研,解决了这个问题。
姿势纠正
姿势纠正也分为两类:坐姿不良和间隔太近。坐姿不良有很多维度,比方趴着、卧倒、歪斜,这些状况都能够检测进去。间隔太近,有两套计划。第一套是基于 2D 人脸检测技术来做的,这个技术的精度可能比拟无限,大略是到厘米级别。咱们跟其余的硬件厂商做的降级计划,能够准确到毫米级别的间隔探测。
咱们的学生姿势实时检测零碎的实现计划,总体分为两个维度:人脸姿势检测和人体姿势。人脸姿势包含打哈欠、瞌睡等,人体姿势检测退出了 3D 深度信息,这样能获取到深度信息,用深度信息来辅助做人体的平面姿势辨认,能够大幅的进步精度。
2、量化检测计划
课堂专一度与课堂接受度是家长比拟看重的两个维度,尤其是线下转线上之后。学生有没有走神,有没有认真听讲,上课的成果好不好,这些是家长十分关怀的指标。
课堂专一度
一般专一度检测有几个维度,像举手、抬头、瞌睡、玩手机,缺点是仅有 2D 图像信息,检测准确率欠佳。另外是检测指标繁多,没法精准回溯学情。
而咱们做的课堂专一度,包含了 3D 深度检测和学情回溯零碎。能够看到咱们退出了人体 Depth 信息,基于这个信息能够比拟精准的预计到人体的每个姿势,而后再退出事件的触发机制,最初失去监测后果。包含事件状态的上报,工夫戳,以及以后工夫戳产生的事件截图等,便于课后对教学情况进行回溯剖析。
课堂接受度
对于课堂接受度,到目前为止,还没有哪家公司真正把它做到产品里。咱们独创的课堂接受度,蕴含了正向和负向维度。正向的维度有举手、微笑、拍板,代表课堂接受度是比拟好的。负向的维度有纳闷、皱眉、点头,这些代表课堂接受度较差。
针对纳闷这个表情的解决,咱们也下了很多功夫。从学术界来看,人类常见的表情只有 7 种,并不包含纳闷这个表情,也没有相干的数据。但这个表情对教学场景很有意义,所以咱们在这方面做了大量的数据补充,减少了纳闷的数据和标注,最初通过迁徙学习的形式,再联合人体关键点进行辅助辨认,失去了最终的 8 类表情辨认。
咱们的课质监测计划采纳了典型的“边缘计算 + 云计算”联合的架构,当初边缘端算力曾经越来越强了,很多算法能够间接拷在边缘设施端以及 APP 上。采纳这种架构还出于隐衷的思考,大家放心把学生端的摄像头关上之后,检测学生的行为可能会触犯个人隐私或者呈现非法上传数据。因而咱们尽量把端的能力施展进去,上传的只是用 AI 算法检测之后的状态,而不是客户隐衷的数据。
网课助手对老师而言,能够失去整个班级的课堂体现报告,是十分有价值的。对家长而言,能够生成本地的报告,失去学生在每个维度的体现状况,并针对每一个维度的工夫戳进行回溯剖析。
3、智能互动计划
AI 沉迷式课件
传统的录播课为了取得较好的成果,可能须要用业余的录播间,前面搭建绿幕,还有补光灯等一系列的设施。这里有一个显著的毛病是对场地的要求过高,前期的制作老本也比拟高。
而传统的直播课,能够看到课件跟老师的头像画面是分屏展现的,老师跟学生之间的互动很无限,这对幼儿教育的体验是十分不敌对的。
咱们的 AI 沉迷式课件,做了十分精准的人像宰割,能够把课件放在人像前面展现,同时人跟课件之间能够进行互动,比方课件播放、暂停、上一页、下一页这些简略的操控,以及老师跟课件内容的互动。这个技术也能够用来做课件的生产工具,不须要录播间的场地和设施,主动实现课件制作。
网课互动
说到网课互动,咱们晓得传统的线上互动都是老师单向输入为主,老师很难兼顾到每个学生的状态。因为学生在屏幕当中只是十分小的头像,学生产生什么情况,老师是不晓得的。
咱们研发了一系列智能互动工具,能够通过 AI 伎俩实现多向多元的互动。比方手势辨认,如果这个学生答复问题之后,老师感觉很棒,能够点一个赞触发点赞的特效。表情辨认,如果零碎检测到学生纳闷了,能够把他的头像 Highlight 进去,引起老师的留神;还有像人脸特效是比拟常见的,当初有很多幼儿教育都会用它来减少互动的趣味性。
4、智能工具计划
咱们在这部分做了很多的投入跟翻新,因为这些跟硬件联合比拟严密,也是咱们的强项。
拍照搜题
很多的学习 APP 里可能都有拍照搜题的性能,拍照之后用 OCR 技术辨认。很多学生可能用教育平板拍照,但学生手比拟小,教育平板又很大,按快门键的时候常常会手抖,而当初的教育平板和手机都没有光学防抖的加持,导致拍进去的成果不清晰。
咱们出了 HD Shot 解决方案,能够解决各种场景下失焦、抖动、噪点、暗光等一系列拍照含糊的问题。这个性能在科大讯飞的录音笔上曾经上线了,当初的录音笔很智能,除了有录音性能,还能够拍会议的文档和 PPT。
如下图所示,右边是解决前的成果,左边是解决之后的。这个性能能够晋升动静范畴,对高光进行克制,对暗部进行提亮。
画质能力降级
视频画质晋升的技术,对老师端或者主播端十分有价值。业余的主播,设施十分齐全,能够把手机架到补光灯上,让本人的脸更粗劣透亮。然而长期应用补光灯对眼睛的挫伤还是比拟大的,所以咱们做了纯 AI 软件补光灯计划。一套是全局的补光计划,还有一套是专门针对人脸的补光计划。针对人脸的补光计划,会对人脸的肤色进行精准的辨认,利用 3D 打光技术把人脸变得更加透亮。
人脸考勤
Face ID 技术,在智慧校园也曾经开始利用了,这个技术的外围难点在于误识率、拒识率指标以及活体检测。它能够用在线上跟线下的大班课程,比方考勤点名,避免他人代答到这种状况。
最初用金字塔构造总结一下咱们的业务架构,最底层是外围的根底技术,第二层是基于场景化的解决方案,须要深刻理解行业的特点以及场景化的需要,顶层则是咱们基于各个平台适配的 SDK 产品,咱们能够基于根底技术做很多业务层的封装和开发。
我始终置信科技扭转将来,AI 能够为在线教育行业起到降本增效的作用。AI 教育,将来可期。谢谢大家!