共计 3010 个字符,预计需要花费 8 分钟才能阅读完成。
前言:
- 更多对于数智化转型、数据中台内容请退出 阿里云数据中台交换群—数智俱乐部(文末扫描二维码或点此退出)
- 阿里云数据中台官网 https://dp.alibaba.com/index
(作者:数据从业者)
我是阿里数据部门的一名数据技术专家,当初次要在对外部客户的一些数据中台我的项目中,做技术以及产品的反对。
我原来在阿里外部其实做了 5 年的数据开发,当初在做一些内部我的项目的时候,常常会和一些生态合作伙伴公司一起去交付我的项目,在这些合作伙伴的数据开发中,不论是新人还是老人,都能看到我已经的一些影子,所以我想借助这篇文章,讲述一下我在阿里当数据开发的一些经验,心愿在集体倒退上对他们有一点帮忙。
我是 13 年退出阿里的,在进阿里前,原来是做银行的数据仓库建设,用的是 TERADATA 的 LSDM 那套 3NF 建模的办法,技术也次要围绕 TERADATA 和起初的 GREENPLUM 为主,所以进到阿里后,会有一个在业务和技术上适应的过程。
首先是技术上,我进到阿里后,那时候阿里正处于底层的数据处理平台更换的阶段,从 GREENPLUM 替换到 HADOOP 平台,因而我进入部门后,首先对 HADOOP 大数据平台并不是很相熟,因为那时候银行外面都还没有开始用 HADOOP 平台,所以一开始对 HADOOP 这套计算架构就十分的不适应,比方为什么跑个 SQL 这么慢,执行个 SQL 还要关上网页运行(因为咱们原来用的是在云端),这是一个缓缓相熟和适应的过程。
另外一方面是业务方面的适应,须要从原来相熟的银行业务,适度到互联网业务。业务变了,对应的数据也都产生了很大的变动,我到了 ICBU 后,被调配到负责流量和广告相干的业务,会接触到大量的日志数据,比方页面浏览,点击,曝光,还有 P4P 点击广告相干的日志,面对这么多非结构化的日志数据,我一开始都不分明为什么须要这些日志的数据,然而通过前面一直对互联网业务的相熟,才晓得流量剖析对网站的重要性,这个阶段我也相熟了很多流量相干的业务知识,比方 SEM,PPC,SEO, 联盟等等。
这个阶段除了进步新的技术和业务能力外,次要的工作就是一直的接需要做报表。团队外面有专门的数据 PD,他们的职责就是 ” 接活 ”,每天接业务方的需要,而后通过需要沟通和剖析,每个月排定咱们数据开发的资源,所以工夫长了当前你就会感觉你就仅仅是一个资源,集体价值无奈失去体现。
所以起初咱们进行了改革,就是让数据开发本人到后面,接业务的需要,而后本人沟通和剖析,数据 PD 就都去做 PD 应该做的数据产品设计。说实话,这是一个很好的让开发成长的措施,因为做数据的,要想真正理解数据,你首先要理解对应的业务,不然你开发进去的数据,就只是那几张硬生生的报表。也正因为这个阶段,我学会了一些如何和业务“谈”需要的办法,比方 WBRD,问需求方十个问题,像需要基于什么样的业务背景,业务的痛点是什么,指标中的含糊词汇如何定义,等等,将这些都问题分明,你能力晓得你为了什么而开发这个需要,而且你能力晓得哪些需要该重点优先去排本人的工夫做,这就是去做正确的事件。
另外这阶段也学到了一些数据分析的办法,因为我做进去的报表须要间接面向我的最终用户的,原来是开发好后,就丢给数据 PD,所以当初业务方会间接来找我说,某某,你这个数据不对啊,这个时候,我才晓得业务原来是这样剖析数据的,因为我所在的是流量线,我也晓得了原来流量是如何做相应的数据监控,能力及时的发现问题,排查问题,定位起因以及解决和预防问题。
所以,这是一个“往前迈一步”的阶段,这个阶段让我学会了需要剖析和数据分析的一些办法,让我感觉集体的价值还是有肯定的体现的,有时候被业务方点赞和认可,本人心里还是很暗爽的~~~
起初,阿里进行了登月我的项目,这个大家很多人都晓得,就是将阿里所有部门的数据平台都迁徙到 ODPS,而后对立应用 ONEDATA 建模方法论去进行建模工作。然而我前面的工作重心并不是在 ONEDATA 建模上,而是在 ODPS 资源优化上。因为自从登月当前,ODPS 的计算和存储是使用量一直进步,出于降本增效的目标,过后的 CTO 就成立了专门的数据管理委员会,并且基于对立的数据资产治理平台,进行全团体的数据治理。加入过咱们培训的人应该晓得,次要的治理也是包含计算和存储两方面,对应的有计算衰弱分和存储衰弱分,如果达不到肯定分数的人到时候就不能应用 ODPS,所以那时候,我接到的副业就是,做为接口人,帮忙整个 B2B 的同学一起进行优化。
所以,这一阶段,我的工作就是组织全 BU 的人,学习 ODPS 的优化办法,包含一些后端和算法部门会应用到 ODPS 的同学,将一个个有问题,比方耗费资源 TOP 的几个 SQL,抓进去教他们进行优化,然而你要教他们首先你得会一套有体系的优化办法,这个首先还得依赖咱们阿里弱小的产品能力,一些优化的方法论其实都体现在产品上,通过对数据管理平台中优化办法的学习和积淀,那段时间我简直每天都在和这些问题 SQL 打交道。而且起初我还接了整个数据开发部门慢报表的治理的工作,就是看部门哪个报表慢,哪个报表 30 天没人拜访了,该下的下,该优化的优化。所以也正因为这个阶段的刻意训练吧,我相熟了 ODPS 的底层的一些原理,以及解决 MYSQL,ADB 一些慢 SQL 的办法,以及针对不同的剖析场景须要采纳什么样的数据存储,是 MYSQL 还是 ADB。
所以,如果你是一名合格的数据开发人员,你开发进去的报表查问工夫不能低于 3 秒,开发的 ODPS 工作不能呈现像数据歪斜,或者分区裁剪生效等问题,而且你要晓得具体优化的办法。
接着起初做完这些工作后,我又往前走了一步,就是和团队的产品 PD,一起搞了一些数据产品,比方一些利用计算的组件平台,还有外围指标库,以及一些业务的数据门户。因为你做到起初你会发现,正在能带来价值的还是产品,而且一方面你能够将你的一些方法论积淀在产品上。这个阶段也从产品 PD 那里学了一些产品设计的办法,至多用 AXURE 画个产品的 DEMO 应该没问题吧。
另外这个阶段我也懂得了一个办法,就是你要学习一个技术,或者一个事件吧,你能够先从它对应的产品学起,因为产品往往是业界对应的方法论的积淀,你能够通过产品,很快地把握这件事件的办法,就比方咱们的 DATAPHIN 产品,如果你要学习数据中台相应的方法论,你能够通过 DATAPHIN 产品学,包含数据建模,数据资产,数据品质等等方法论,都会在产品中体现。
至于起初为什么我开始反对对外的我的项目,是因为我看到了更多的社会价值,通过阿里云,咱们输入原来阿里积淀的一些数据中台建设的方法论,能够帮忙内部的企业进行数字化转型,我感觉我更偏向于抉择反对内部。
写在最初,我感觉大家都是在将本人的能力最大化,价值最大化的过程中后退,所以有时候“往前迈一步”,可能会有更好的风光。
数据中台是企业数智化的新基建,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。目前正通过阿里云数据中台解决方案对外输入,包含批发、金融、互联网、政务等畛域,其中外围产品有:
- Dataphin,一站式、智能化的数据构建及治理平台;
- Quick BI,随时随地 智能决策;
- Quick Audience,全方位洞察、全域营销、智能增长;
- Quick A+,跨多端全域利用体验剖析及洞察的一站式数据化经营平台;
官方站点:
数据中台官网 https://dp.alibaba.com