简介: 数据湖是以集中、对立形式存储各种类型数据,数据湖能够与多种计算引擎间接对接,咱们应用 OSS 作为数据湖底座,数据对立存储在 OSS 中,无效打消了数据孤岛景象,多种计算与解决剖析引擎可能间接对存储在数据湖中的数据进行解决与剖析,防止数据在不同引擎中重复复制,缩小了不必要的资源损耗。
行业综述
全民娱乐时代,网络互娱市场继续保持高速增长
随着互联网的遍及以及技术的倒退,互联网娱乐行业的倒退也日渐成熟。从晚期繁多门户网站,到集体博客的风行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的倒退也正在从内容为王,开始往大数据驱动内容翻新与推广的方向进行倒退。
随着生存条件的变好,人们进入了娱乐即生存,生存即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的衰亡和倒退同样有爆发力。据统计,截至 2019 年 6 月,我国网络直播用户规模达 4.33 亿,较 2018 年底增长 3646 万。而网络视频的用户更是达到 7.59 亿,较 2018 年底增长 3391 万。
尤其是在 15 年前后,随着 4G 的遍及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利期间,在这个期间,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在过后只有是有略微优质的内容输入,就能为作者或是整个平台带来微小的流量。
行业倒退方向
流量红利隐没,用户增长陷入瓶颈
然而到了 2020 年,流量红利的时代曾经过来许久,尽管内容还是次要的内核,然而内容同质化重大,用户逐步进入疲劳期。同时因为整体市场格局的明朗化,各家企业之间的竞争与压力也逐步变大。
流量红利的隐没,企业增长放缓,企业整体拉新老本变高,留存客户难度变大。同时因为国家对于内容审核的条件逐步收紧与明细化,单靠人工曾经无奈应答大规模的内容审核,只能通过机器,依赖技术来达到监管合规的要求,但如此操作势必会减少企业的经营老本,造成更大资源的投入。
面临的痛点
大数据驱动行业倒退,但如何利用好数据成难题
置信大家都会有过这种体验,在咱们浏览某些短视频网站时,若是顺手点赞或评论了某几个雷同类型的视频后,之后你刷到该类型视频的次数会大大增加。其实这就是企业通过大数据来揣测并匹配咱们的兴趣爱好,针对每个不同个体的用户,为其定制个性化的内容举荐。
在大数据的驱动下,企业能够准确地对相干用户进行筛选,为其定制个性化的内容举荐,然而在大数据系统构建的时候,很多企业又遇到各种各样的技术挑战。
因为数据源采集的形式和存储形式的不同,往往会造成数据孤岛的景象,同一用户的数据可能会有好几种体现和存储的形式,如果企业要将这部分的数据进行剖析,就须要将数据进行转换并在多个数据孤岛之间重复拷贝。
同时因为互联网具备高时效性与高度开放性,可能会呈现大量用户在某个时间段内同时涌入某个软件,尤其是一些社会性的热点呈现时,对于企业的服务器将会是一个微小的考验。依照传统的解决办法,企业往往须要预留大量的空间来应答不同期间的流量,然而该种模式还是太过于不足灵活性,大多数服务器空间在非热点期间只能白白闲置,极易引起 IT 资源的节约减少企业经营老本。
数据湖解决方案
阿里云数据湖解决方案突破数据孤岛,全面晋升资源利用率
数据湖是以集中、对立形式存储各种类型数据,数据湖能够与多种计算引擎间接对接,咱们应用 OSS 作为数据湖底座,数据对立存储在 OSS 中,无效打消了数据孤岛景象,多种计算与解决剖析引擎可能间接对存储在数据湖中的数据进行解决与剖析,防止数据在不同引擎中重复复制,缩小了不必要的资源损耗。
数据湖的存储基座 OSS 提供了高可用性和可靠性保障,端到端的解决了海量数据的存储、治理问题。间接对接多种数据输出源,数据能够依照最原始状态间接写入到 OSS,毋庸在终端做任何解决,加重终端设备负载。OSS 提供的互联网间接拜访个性,极大简化数据传输的通路,毋庸通过各种代理,就能够实现数据的直接存取。
数据湖采纳存储与计算解耦合架构,让计算、存储资源具备更好的扩展性,极大升高运维治理难度、晋升资源利用率。
无论是点播、直播录制、日志剖析、资讯散发等典型的互娱场景,采纳数据湖计划,相干数据都能够依照对立形式存储在 OSS,并通过阿里云的计算引擎,比方 EMR、Max Compute 等产品与对象存储 OSS 联合,间接对存储的数据进行解决,解决后的后果数据有能够长久化存储到数据湖中,再比方 DLA 提供的 Serverless 化的 SQL(Presto)和 Serverless 化的 Spark 引擎,提供 job 级别的弹性计算能力,用户老本零节约,帮忙用户集中精力专一于业务实现逻辑,疾速实现数据变现。
阿里云数据湖解决方案,帮忙企业开释最大的数据价值,让大数据的积淀、存储、解决、剖析更加简便快捷,帮忙企业疾速实现现有业务的迭代降级与重构,让企业在行业占有一席之地。
最佳案例实际
客户介绍:
该客户须要可发内容资讯 APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的浏览更有价值,因而个性化举荐就成为其产品重要的外围能力。
遇到的问题:
1、随着业务多年的倒退,存储数据量规模曾经达到百 PB 左右,数据在产生阶段会有比拟密集的拜访,随着工夫的增长,数据的拜访会逐步趋冷,多年累积的冷数据曾经对集群容量产生了极大压力
2、客户原打算通过扩充集群规模,去撑持冷数据的持续增长,但随着数据规模继续减少,让集群扩容难度大幅度晋升。另一方面,扩容的服务器的计算资源利用率较低,无奈造成资源的充分利用。
数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的性能,积攒的冷数据被对立迁徙到阿里云对象存储 OSS,新产生的热数据保留在 HDFS 集群,热数据通过一段时间逐步趋冷后,就会定期迁徙到对象存储 OSS 进行冷处理
2、阿里云对象存储 OSS 对于 Hadoop 生态的反对个性,原有计算工作只需简略调整拜访地址就能够依照原有形式运行,让计算工作可能平滑迁徙到数据湖运行。对于存储到 OSS 冷数据,客户通过 OSS Lifecycle 机制,定期将一部分冷数据进一步深度转化为 OSS 归档类型,继续优化冷数据存储老本,达到降本增效的成果
达到的成果
1、OSS 提供业内最丰盛的 API 接口,帮忙客户将海量数据从其余从各个不同数据源轻松迁徙到 OSS
2、客户在 OSS 的根底上,还采纳阿里云的日志服务,一站式解决日志采集、解决、查问、投递的各种难题,甚至还能够通过混合云存储阵列买通云上线下数据的一体化
3、数据湖打消了客户之前存在的数据孤岛景象,反对各种计算引擎的间接对接,存储与计算解耦合的架构,可能更容易应用弹性计算和 serverless 化的云服务,让数据分析和拜访无处不在
原文链接
本文为阿里云原创内容,未经容许不得转载。