关于计算机视觉:隔空手势交互在现实世界上演得心应手

5次阅读

共计 2722 个字符,预计需要花费 7 分钟才能阅读完成。


【得心应手:心里怎么想,手就能怎么做】

手,作为人体最灵便的器官,参加咱们生存的方方面面;手,是除了眼睛之外能间接感触三维世界和物体的器官;手,作为无声的交互工具,曾经在计算机领域占了无比重要的位置。

在人机交互界面,手的交互是至关重要的,于是咱们开始有了越来越多的“触控交互”,但随着技术的倒退,为了身材解放,越来越多的设施引入了“手势交互”技术。

“手势交互”在于,人们在各种电子设备的应用时,能够不再局限于通过接触屏幕、鼠标、键盘等进行操作,而是齐全解脱操作介质。

阿里云视频云的“隔空手势”,便是一项“未来式”交互方式技术。

下班不必鼠标,演出“隔空”操作

https://www.youku.com/video/X…
一则程序员的“隔空手势”视频,能够体感一场办公场景下的隔空交互操作,这是阿里云视频云基于手势辨认技术研发的“智能手势交互引擎”。

能够看到,短视频中的程序员,无论是浏览页面、登录零碎、还是精密的实现视频剪辑,都不再是通过鼠标、键盘循序渐进的操作,而是以各种动态和动静的手势,顺滑、实时、精准的实现隔空控制与操作,而这种精密的操控水平,在隔空手势交互技术上,是冲破现有瓶颈的。

比照“触控交互”须要用户和设施进行接触操控,“语音交互”须要进行听、说以及高精度辨认的过程,而“手势交互”具备人类应用习惯的人造劣势,成为“触控交互”及“语音交互”的不便当场景下的另一优解。

说到隔空手势交互,其根底便是“手势辨认”技术。

从手势辨认说起

在计算机科学中,手势辨认是通过数学算法来辨认人类手势的一个议题,即用户能够通过手势来管制或与设施交互,让计算机了解人类的行为。

手势辨认的关键技术蕴含,手势宰割、手势剖析,以及动态和动静的手势辨认。无论是动态还是动静的手势,其辨认程序首先须要对所获图像的手的检测和手势宰割;再通过手势剖析,取得手势的形态特色或者是静止轨迹;最初依据手势剖析中的重要特色,实现动态或动静的手势辨认。

手势辨认的钻研和倒退影响着人机交互的自然性和灵活性。以后,业内大多数研究者将注意力集中在手势的最终辨认方面,通常会将手势背景简化,在繁多背景下利用算法对手势进行宰割及剖析。

但在事实利用中,人的手通常处于简单的环境下,须要思考如:光线过亮或过暗,手势距采集设施间隔不同等简单因素,从而做到精准的手势辨认。

阿里云视频云的“智能手势交互引擎”,如何使“隔空手势”更具智能性和交互力?

高性能的智能手势交互引擎

因为简单的手指手掌构造和在静止时的高度灵活性,手势关键点跟踪非常具备挑战性。阿里云视频云团队研发的智能手势交互引擎,通过对 21 个手部关键点的精准辨认和跟踪,反对 25 种根底动态手势的辨认。

基于这 25 种根底手势,联合手掌姿势的信息和场景,能够延长出百余种手势。例如伸大拇指的手势,咱们能够依据大拇指和大拇指的方向精准辨认出:点赞(拇指向上)、差评(拇指向下)、向左(拇指向左)、向右(拇指向右)等等。

https://www.youku.com/video/X…
视频中,Left_Prob 示意左手的置信度, Gesture_ID 示意辨认到的手势 ID。

除了动态手势之外,相似上下左右滑动、左右翻页、放大放大、拜拜等多种动静手势也能被精准辨认和跟踪,从而实现上述视频中“隔空”实现视频剪辑的成果。

值得一提的是,阿里云视频云的“智能手势交互引擎”的算法不仅能保障“高精度”和“高稳定性”,更是做到了“超轻量”。

“高精度”是指可能精确的辨认各种各样的手部姿势及定位手部关键点的地位,即便在暗光、背光等挑战性场景也有很好的体现;

“高稳定性”,是通过算法的深度打磨,可能对手部关键点检测输入稳固的关键点地位, 做到手势交互操作的超低提早。

“超轻量”体现在一般设施单线程运行中, 均匀每帧耗时仅有 6.5 毫秒,解决性能能够达到 150fps 以上,模型大小仅为 2.6MB,兼容所有支流平台,非常适合在一般的挪动端手机的部署和利用。

所有因手势交互而卓然不同

新交互正在成为趋势,而解放身材的更天然的交互也是交互演进的方向,能够设想,可能为生存、工作、学习带来全新的状态与体验,而阿里云视频云的隔空手势交互作为“交互黑科技”,曾经能够逐渐使用到各类场景中。

在互动课堂场景,为了视力衰弱和丰盛体验,学生能够全程与屏幕放弃间隔,通过隔空手势,学生能够实现课程抉择、问题答复、翻页、举手等多样化的交互操作。

在疫情常态化和课堂线上化的明天,智能手势交互引擎助力行业用户从新定义了在线课堂的教学内容互动模式,使师生屏幕前的教学不再是单向的常识灌输,而是以在线课堂的互动性与感知度,高度饱满教育智趣。

https://www.youku.com/video/X…

在电商与娱乐直播场景,主播一边直播一边操控手机屏幕会造成的极大不便,然而,利用手势交互,主播能够通过手势特效与直播观众实时互动,还能够用手势来管制直播流程和画面;在用户端,能够联合用户的手势,如:点赞、比心等等,实时出现相应的各种贴纸和特效,极大晋升交互体验。

在数字展厅场景,数字化的视觉展现始终在不断创新,利用隔空手势,参观者能够不必操控屏幕,通过隔空手势对展品的旋转挪动,能够 360 度全景理解展品,尤其在疫情期间也能缩小密切接触带来的安全隐患。

在智能驾驶畛域,将手势辨认利用到驾驶辅助零碎中,司机能够应用手势来控制车内的各种性能、参数,防止眼帘转移带来的驾驶安全隐患。

而在日常生活中,隔空手势辨认更能够与智能硬件做深度联合,例如智能家电、智能机器人等,以隔空手势来才操控家电,便利性更加凸显,让人机交互更有体验感。当然,把隔空手势辨认使用到生存的线下流动中,施展想象力,还能够有更多乏味的互动体验。

针对“智能手势交互引擎”,阿里云视频云曾经在 2D 手势辨认进行了较为成熟的技术与利用积淀,将来,也将持续摸索先进的手势交互技术,尤其是针对 3D 手势交互,通过检测手在三维空间中的地位信息,咱们能够更加精确的辨认手部的动作, 从而实现更加简单的交互,例如驱动一个 3D 的虚拟人, 或者实现手持虚构物品等 AR 特效。通过 3D 手部姿势的辨认,以带来更丰盛、更沉迷、更智能在线交互体验。

庄子《天道》曾说:“不徐不疾,得之于手而应于心,口不能言,无数存焉于其间。”
即,“不慢不快,应于心而得之于手,虽不能言说,却有技巧奥秘存在于其间。”

手势交互技术肯定是这样的奥秘存在,不管任何场域,让你得心应手。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

正文完
 0