关于大数据:云音乐数据资产化建设的思考与实践

6次阅读

共计 2569 个字符,预计需要花费 7 分钟才能阅读完成。

本文介绍是云音乐数据资产化建设相干的内容,介绍了近一年在具体实际过程中的一些阶段性的成绩和思考;具体内容将从资产化建设的背景、近期的实际成绩以及下一阶段的思考与布局共三个方面来开展。

1 从几个典型的问题登程

“我要取个数有没有现成的表?”,“按 xx 报表这个指标的口径,我想取清单明细怎么弄?”,“这么多表,很多指标存在多张表,哪个才是正确的?”……

“咱们的数仓建设得好不好?”,“数仓建设进度到哪儿了?模型公共性 / 拓展性如何?”,“数据品质怎么评估啊?”,“完整性、一致性、准确性、及时性?”,“如何量化?”……

“咱们建了几万张表了,到底有啥用呢?”,“谁在用咱们的表?用得怎么样?”,“建了这么多表,有什么价值?”……

演绎问题,造成三类痛点:数据生产、数据生产、数据价值

2 初期所面临的内外环境

2.1 外部环境

在整个行业降本增效的大环境下,公司在近段时间也须要做相干的致力。咱们的数据资产化也是围绕降本增效的主旨,领导全链路的数据建设工作。

2.2 外部状况

退出云音乐初期,云音乐数仓曾经具备了 8 年多的积攒,表总量达到 6w+,数据库 70+,业务线 10+,存储空间超过 100P,数据生产和生产相干的人员几百人,线上线下的计算工作 10w+,大数据年度老本超过 1.5 亿,在等同业务规模下的业务复杂度和计存老本曾经达到了行业前列。

在过来几年,不论是业务环境还是团队人员都经验了好多轮的迭代,会面临很多事实的问题,诸如:继续一直的需要(来自业务、商分、技术、职能部门等)、永远短缺的人力资源,更可怜的是,基建能力的绝对有余会使得后面两个问题陷入继续好转的困境。

这也应该咱们大多数人可能面临的状况,很少有时机可能碰到从 0 - 1 到数据仓库搭建机会,更多是在前人积攒的现状下,一边持续反对业务,一边腾出手来做外部优化。

3 我的思考和口头

3.1 找出线头:从数据生产端切入

边建设边治理,相似开着飞机换引擎,必须在撑持失常业务需要吞吐的前提下,抉择 ROI 最高的形式来疾速拿到后果,并且被感知到。生产侧是一个比拟好的切入点。三个理由:

  • 生产侧对于数据资产变动的感知最间接;
  • 现有根底上从底层开始颠覆革新代价过高,且危险和人力老本均不可承受;
  • 历史积攒的很多“宝藏资产”有被挖掘利用的价值。

这里有一个很事实的问题值得咱们思考:为什么咱们建设了这么多有价值的表,生产方还常常感觉到数据不够用?——是真的不够,还是说 找不到?有问题的中央就有咱们致力晋升的空间。

建得多 vs 不够用  这样的体感错位的问题,实质上是  生产视角 vs 生产视角 的错位,导致用户生产决策链路上破费了太多的老本,从开始到放弃,陷入“不好找、不敢用、从新做、建更多、更难找”的恶性循环。

咱们做了三件事件,来解决这个问题:

(1)精简数据模型:梳理现有数仓模型表,提炼每块业务的外围表清单,将长期不必的库存表、疑似废除的垃圾表、适度设计的烟囱表等进行淘汰整合

(2)重塑信息结构:以生产视角,重新整理外围表清单的信息组织模式,编撰数据资产白皮书,并继续保鲜

(3)产品化经营:搭建连贯数据生产和生产的门户,提供数据资产化经营的平台——数据资产门户

起初咱们用灵犀文档编撰了数据资产白皮书的第一版,搭建一个简略的门户 portal 导航,并配套埋点以便统计门户拜访状况。

随后在与网易数帆大数据产品团队的交换单干下,促成了数据地图 - 数据专辑的上线,不便团体内各 BU 更好地从生产场景来组织本人的数据资产信息结构。

至此,数据仓库团队有了本人的产品阵地来承载外围数据资产,以便后续逐渐在消费者心中树立权威外围资产的心智。

3.2 抽丝剥茧:数据生产端的治理

不同于生产端的绝对轻量化的形式,在数据生产端的治理则是切实从细节一点点地沉下去继续打磨。咱们从 立规范、搭工具 两方面同时进行,来逐渐拆解落实整个数据治理工作。

这里须要答复的是第二类问题:“如何量化数据仓库的建设?”

如下图所示,咱们引入高质量、强标准、低成本三方面的指标来综合掂量之。

具体的施行过程,因为很多历史起因,既定的数仓研发标准并没有失去很好的落实,很多环节须要须要人工染指梳理。因而整个治理工作也会在不同阶段重点关注不同的指标用来牵引团队的工作重心。

通过近一年的实际落地,云音乐数仓外部曾经对“三度”指标体系达成了共识,并作为日常工作中的北极星指标时刻关注。

数据治理并非一锤子买卖,整个过程如果须要做到可继续,须要有配套的机制和工具来辅助。因而咱们设立了一系列的准则,来确保整个治理体系有序进行:

  • 治理有根据
  • 权责有归属
  • 机制可继续
  • 成果可回收
  • 办法可积淀

通过跟网易数帆大数据团队单干,咱们拿到了生产链路的元数据血统,并以此建模,造成生产治理可行的根底;权责到人 & 机制保障 使得整个过程可能有序落地。在过程中,同时积淀了一系列的可视化监控看板和治理跟进工具,确保过程量化可控。

4 获得的一些成绩

一图胜千言。

须要补充阐明的一点是,不仅仅是绝对值相干的数字后果可观,从增速趋势、产出稳定性以及研发人员的日常意识方面,都是有显著的正向晋升成果。

5 数据系统的全局长期指标思考

提到数据系统,不仅仅蕴含数据仓库自身,还波及到上游生产零碎、中游数据平台、上游生产圈人洞察、报表零碎、智能服务等等,数据中台作为串联上下游的环节,是整个数据系统的外围。

在第一阶段的资产化建设达成指标后,咱们更须要从新来扫视利用视角的效率问题。如何升高上游业务利用的复杂性,则成为一个新的指标和命题。如下图所示,有一些事件曾经在进行中,更多能力建设还在路上。

6 阶段性实际小结

用一张图来小结一下咱们在过来一年的生产实践中,曾经落地和正在落地的一些成绩产出,在面向业务的全域数据建设的根底上,在数据的采、建、管、用环节积淀一些列的方法论和工具集,一直夯实咱们的基建,做到降本增效,同时摸索数据联合业务的赋能计划和机会,更近一步摸索数据商业化的门路。

7 对于将来

一张图,一场仗,一颗心

数据资产化是这场仗的终点,但远未达到起点,起步于资产化建设,与兄弟团队们一起逐渐饱满数据业务的大图。

使命和愿景

以数据资产思维和数据服务思维,一直推动数据中台化建设,打造云音乐数据对立,品质牢靠,服务便捷,治理平安的数据资产建设、治理和服务平台,是咱们这个团队的使命和愿景,愿与宽广有志之士共同努力!

本次的分享就到这里,谢谢大家。

理解更多网易技术,试用大数据产品

正文完
 0