关于javascript:存储计算解耦合构建中国人英语语音数据库

28次阅读

共计 1554 个字符,预计需要花费 4 分钟才能阅读完成。

简介: 通过阿里云为流畅说量身打造的数据湖解决方案,解决了流畅说多种利用的各类数据的对立存储,帮忙流畅说构建数据规模高达上千亿的“中国人英语语音数据库”。

公司介绍

流畅说是世界领先的科技驱动的教育公司,作为智能教育的倡行者,流畅说领有一支业内当先的人工智能团队,通过多年积攒,流畅说已领有巨型的“中国人英语语音数据库”,累积实现记录大概 37 亿分钟的对话和 504 亿句录音。

流畅说自主研发了当先的英语口语评测、写作打分引擎和深度自适应学习零碎,从听、说、读、写多个维度晋升用户的英语水平,为用户提供一整套系统性的英语学习解决方案,截止 2020 年 6 月 30 日,累计注册用户达 1.856 亿。

业务场景介绍

2013 年流畅说推出了第一款产品“英语流畅说”,集成了语音辨认、打分和自适应学习等多种核心技术。具备上下文情景对话、发音领导课程等丰盛内容,并提供人工智能英语老师和游戏化的学习体验,为用户在英语学习中取得更多乐趣。这款乏味又无效的产品很快就霸占了过后的市场并取得了用户的高度认可。
但业务疾速倒退,用户数大幅度增长,平台的用户数量已从当初的百万级,增长至过亿,因而业务的高下峰期数据流量变动、业务复杂度和剖析难度都给给 IT 架构带来了微小的挑战。

业务难点

流畅说在面对日常业务需求量以及用户数量飞速增长的状况下,流畅说经常须要面对以下几个不同的挑战

不同时段流量变动大,零碎须要反对动静申请流量
因为每天不同时段流量变化很大,顶峰时段的流量会达到平时的 10 倍,须要零碎有足,够的能力反对动态变化的申请流量,因而对于零碎弹性拓展能力,就提出了很高的要求。

产品组合和功能丰富,如何为零碎安稳运行提供保障
因为产品组合和性能越来越丰盛,对于零碎的可能提供的性能要求一直减少,大量的付费用户对于拜访体验有很高的冀望,因而须要高牢靠、高稳固的零碎,来撑持各款产品安稳地运行。

数据量级与利用零碎复杂度减少,零碎容量和性能成问题
流畅说自研书面语评测、写作打分引擎和深度自适应学习零碎,每天都须要依据用户学习状况进行剖析,依据每个用户不同的学习给予评分和领导倡议,随着用户数的减少和利用复杂度的减少,对于大数据系统的容量和性能都有着极高的要求。

阿里云数据湖解决方案

针对流畅说日常业务对云服务的弹性、稳定性和大算力的极高要求,阿里云为流畅说量身定制了一站式数据湖解决方案。

首先,对于数据存储,流畅说的大数据平台应用 OSS 作为数据根底层,解决了流畅说多类数据的对立存储,同时对接多种计算引擎。而且 OSS 提供了 99.9999999999% (12 个 9)的数据持久性和 99.995% 的高可用性,无力的保障流畅说的业务稳固和牢靠。

在大数据计算方面,通过阿里云 EMR 构建大数据计算集群,提供了包含 Hadoop、Hive、Spark、Presto 在内的多种大数据计算引擎。基于数据湖的存储与计算解耦合架构,所有计算工作的最终数据都是存储到 OSS 长久存储。

同时,阿里云数据湖解决方案对开源生态提供十分敌对的反对,客户基于开源框架开发的利用和业务代码,能够不必批改,间接基于阿里云的数据湖解决方案运行。

最初,阿里云 VPC 网络、RAM 等访问控制保障体系,更是为流畅说的外围资产“中国人英语语音数据库”提供了更可控,更细粒度的平安访问控制爱护。

达到的成果

通过阿里云为流畅说量身打造的数据湖解决方案,解决了流畅说多种利用的各类数据的对立存储,帮忙流畅说构建数据规模高达上千亿的“中国人英语语音数据库”。应用阿里云构建的数据湖,能够充分发挥计算与解耦合架构的长处,联合阿里云 ECS 弹性实例和 K8S,依据理论业务需要,动静扩大、缩减对应计算资源,毋庸依照业务峰值常驻计算资源,这种灵便的应用模式,可能帮忙流畅说最大水平地优化老本。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0