乐趣区

关于大数据:数栈人从青铜到星耀10年大数据人的奋战晋级之路

明天,大家就请跟着数栈君一起,和申杭聊聊他从青铜到星耀的大数据之路。

数栈君:申杭,你是 07 年从华中科技大学软件工程业余毕业的,能说说你过后为什么抉择这个业余吗?

申杭:过后会计、师范、机械制造、土木类业余比拟热门,个别家人都会让报这些业余,进去好待业。而电子、计算机、软件工程类的业余刚刚衰亡,前景并不是很清朗,不过我那时对计算机还是挺好奇的,感觉电脑上开几个黑窗口,轻易敲一堆英文字母, 就能够做很多事件,很神奇,当看到软件这个名字,感觉很高端、神秘,所以就报了软件工程业余。说起来,我是华科软件业余第二届的学生,算是较早入计算机坑的人。

骚粉的杭哥

数栈君:那当初很多软件工程师预计都得叫你一声前辈了。你有 10 多年大数据教训,能够说很资深了,简直见证了中国大数据行业的诞生和倒退。能给大家讲一下你的工作经验吗?

申杭:这些经验要说起来,能讲三天三夜,不过明天就长话短说吧。

倔强青铜:初入数据工程师的世界

2007 年毕业时,商业智能(BI)在中国发展势头正猛,我的第一份工作就是在四大治理征询公司,行业所称“四大”之一的上海埃森哲做 BI 参谋。期间,负责给平安保险、某外资银行做数据仓库的模型设计和开发,BI 报表的开发等工作。

过后有能力和志愿建设数据仓库的企业还不多,率先进行数据仓库建设的次要是保险、银行、证券、电信等一些大型企业。次要是因为这些企业自身的 IT 零碎建设曾经比拟成熟和欠缺,并且曾经积攒了大量的业务数据,对数据的剖析,开掘诉求也比拟强烈。

过后,“大数据”、“数据中台”、“数据平台”等概念还没诞生,那时业内支流叫法是“数据仓库(DW)”,但数据仓库相干的技术很多都还没有成熟、体系化,在服务这些保险、银行、电信企业时,也碰过很多问题,尤其是刚毕业,技术水平和对业务的了解根本是从零开始,一路趔趔趄趄,摸爬滚打,才逐渐入门。

在埃森哲工作的一年半里,我积攒了很多数据征询、数据模型设计、数仓开发等方面的教训,为后续始终从事大数据行业,打下比拟好的根底。

秩序白银:从 0 到 1 搭建残缺、成熟的数据平台

过后国内一些比拟成熟的批发、制作企业,随着 ERP、CRM、WMS 等 IT 零碎的逐渐上线和大规模应用,曾经积攒了大量的数据,但零碎间的数据买通、穿插剖析,面临比拟大的艰难,所以这些企业开始尝试进行企业级数据仓库的建设,解决数据孤岛问题,充沛开掘已有的数据价值,辅助业务决策。

基于这个需要和发展趋势,2008 年底,我抉择退出了国内服装行业领头企业美特斯邦威。

从 2008 年底 -2013 年年初,这 4 年多工夫里,我见证了美邦企业级数据仓库从 0 到 1 的建设、再到大规模利用的全过程。

2013 年 3 月,来到美邦的时候,咱们建设的数据仓库曾经全面利用到企划、生产、物流、批发、财务、人力等各个外围部门,每天有几百号人都应用咱们建设的零碎查看数据,并利用数据来进行业务决策,能够说是一个很胜利的平台了。

连升三段直跃钻石:经验了大数据行业的火箭式回升

2013 年是挪动互联网暴发的年份,国内以 BAT 为代表的互联网企业都在抢夺挪动互联网的船票,各类 APP 井喷,大数据的概念衰亡。过后已是 PC 端电商霸主的阿里正踊跃布局挪动端,在此过程中积攒了海量的数据,为了充沛开掘这些数据的价值,须要大量的大数据人才,过后猎头分割到了我,倡议我去阿里试试。

于是 2013 年 4 月,我退出了阿里,入职无线事业部,跟着江枫(现袋鼠云 COO)一起做无线数据分析产品,相似当初的友盟, GrowingIO 等。咱们过后次要负责为阿里团体绝大部分的 APP(例如淘宝、天猫、聚划算等)提供行为数据埋点标准和采集 SDK,并把 APP 上用户的的浏览、点击、分享等数据采集过去做解决、剖析,构建团体级无线数据体系,并通过标准化、产品化的形式提供给经营、分析师、PD 等应用。

在此期间,我感触比拟深的中央是,传统行业的 ERP、CRM、WMS 等零碎存储的数据,个别单表记录数有几千万、过亿曾经算量很大了。然而在阿里,仅仅从挪动端采集到的数据,每天增量就有 2 - 3 千亿条,如果到双 11、双 12 这种电商大促的日子,数据量相比平时还会有几倍的晋升,达到 5 - 6 千亿的峰值。

同时在数据利用上,以前做大数据的成绩以 BI 剖析报表为主,用来辅助决策。而在互联网企业,数据对业务的价值大大拓展和强化了,能间接和业务联合,甚至产生一个新的数据驱动的业务,例如阿里的搜寻、广告、千人千面以及蚂蚁的芝麻信用分、花呗、借呗等,都是跟数据严密相干的业务。

所以对于这种体量和规模的数据,咱们面临了各种考验,每天都在搜索枯肠地思考怎么设计出更正当的数据模型,优化计算工作,在耗费更少资源的同时保证数据的疾速产出和剖析,及时正确地生成数据报表和剖析后果给业务部门应用。

2014 年底,咱们团队组织架构调整到了阿里云飞天一部,负责对外输入挪动数据分析产品,因为过后咱们给阿里团体外部 APP 开发的无线数据分析产品曾经十分成熟,所以团体决定将这些技术进行产品化封装,对外提供对立数据采集、剖析和数据服务,帮忙内部企业更好地采集、计算、剖析、利用本身数据,进步企业的挪动端流量经营、业务决策效率。

在阿里三年多的这段时光算是比拟难忘的一段经验,能够说是痛并高兴着吧。挪动数据每天增量都有 2 - 3 千亿条,计算量特地宏大,而后还得保障及时、精确地产出数据,每天都像在打仗一样,压力也比拟大,死了不少脑细胞。

不过也正是这些经验历炼了咱们,做进去的平台不仅能很好服务阿里外部业务部门,也能很好地输入和赋能更多内部企业。

至尊星耀:艰辛、激情与成就的三重奏

2016 年 7 月份来到了阿里云,次要起因是:

第一:过后大数据企业级服务还处在起步阶段,特地是阿里云数加平台的对外公布,我发现大数据企业市场的前景非常广阔,也想利用本人多年来的大数据教训,为更多的企业服务,让企业数据产生业务价值。

第二:过后拖雷、江枫曾经进去创建了袋鼠云,受到了他们守业幻想和大数据幻想的感召,也想做出一番事业,所以就退出了袋鼠云,从此走上守业的“不归路”。

数栈君:你以前始终是做技术专家,为什么来袋鼠云之后要转行做产品呢?

申杭:沉迷大数据行业十几年,亲眼见证了大数据行业的各个倒退阶段,从最早的关系型数据库(例如 Oracle,SqlServer),再到 MPP 数据库(例如 Greenplum,Teradata),再到当初的分布式数据库(例如 Hadoop,Spark,Flink),对大数据技术理解比拟深和宽泛。

同时我也有甲方、乙方,传统企业、互联网企业的不同工作教训,对不同类型企业的大数据应用的状况、诉求、痛点也曾经有了比拟粗浅的了解。

所以决定从开发转型做产品,心愿能把本人这些年的教训积淀,形象成产品,让更多的企业能更便捷地享受大数据带来的价值。

数栈君:能和咱们讲讲你为什么要做数栈这个产品呢?

申杭:进入袋鼠云初期,接手了江西公安、贵州交警等几个大的数据中台我的项目,接触了不少客户,在服务客户的过程中,发现了企业的一些痛点,其中有很多能够优化和晋升的中央:

第一:以前始终做技术,次要是从技术角度去思考数据的逻辑、设计大数据架构,然而企业做大数据的目标是为了晋升业务价值。所以咱们须要转变思维,多从业务角度思考怎么通过数据赋能业务,怎么通过最小化的投入实现最大化的价值。

第二:不同的企业,数据中台需要多变、简单,如果给每个客户都提供个性化,定制化数据服务,则施行周期长、效率低、见效慢、治理难。为了解决这些问题,须要一个成熟、稳固、高效的平台来撑持企业数据中台的疾速落地。

第三:通过考察,咱们发现,市场上华为、星环、Cloudera 等企业的大数据平台产品尽管有很强的数据处理能力,专一于 Hadoop 集群的部署、装置、运维等工作,然而基于集群之上的数据开发、数据管理、数据治理的能力还没有很好地实现体系化、系统化、产品化。对企业来说,建设数据中台体系,门槛还是较高。

所以咱们决定研发一个能笼罩数据采集、数据处理、数据挖掘、任务调度、工作运维、数据品质、数据地图、数据模型、数据共享服务等全链路场景,充沛满足企业建设数据中台过程中多样简单需要的平台。

经验将近大半年的日夜奋战,袋鼠云一站式数据开发平台——数栈诞生了。

在接下来的 2 年半工夫里,咱们继续进行产品研发、迭代,目前产品体系曾经十分成熟,在商业化不到一年的工夫,数栈曾经服务了几十个客户,帮忙这些企业在很短的工夫内实现了数据中台的搭建、施行落地。

申杭代表袋鼠云发表演讲

数栈君:数栈上市后,客户对数栈有哪些评估呢?

申杭:客户对咱们产品的价值、定位还是很认同的:

第一,产品很轻量,最小仅需 5 台虚拟机就能够部署,对须要建设数据中台的中小企业来说是一个福音;

第二,兼容性很强,能够无缝对接 Cloudera CDH、Hortonworks HDP、华为 Fusion Insight 等支流的商用大数据平台,能很好的和企业已有的数据平台做联合,防止反复建设。

第三,麻利灵便,平台用起来比拟便捷、一天就能上手。以前在进行大数据开发时,须要找各种各样的工具,进行简单的配置。当初通过数栈,只须要在界面上进行拖拽式、向导式的操作,就能够实现数据中台的建设。开发门槛大大降低,相比以前,大数据开发、治理、治理效率都至多晋升 50% 以上。

第四:产品服务好,咱们提供基于数栈产品的定制化服务,能和企业已有的零碎,流程进行对接,满足不同企业的个性化需要。
将来的王者:王者之巅就在不远处

数栈君:对于数栈的将来,你有什么想法和方向上的布局?

申杭:在产品上,后续咱们想研发数据资产经营和数据利用等通用型、行业型产品,逐步实现从 PaaS 到 SaaS 的过渡,从数据平台到数据利用的纵向延长。

比方针对新批发行业,咱们能够在数栈产品外面内置批发行业数据模型,通过简略的批改,就能够实用不同的批发企业。同时也能够提供智能标签、用户画像、精准营销等产品,让数据能间接赋能业务,实现数据的变现,数据价值的最大化。

守业之路任重而道远,公司目前在大数据畛域曾经站稳脚跟,我置信属于数栈的将来前景有限广大。

数栈团队合照

数栈君:当初正值毕业季,你对刚入行的开发同学们有什么倡议吗?

申杭:一,随着大数据技术平台的倒退,性能越来越丰盛,将来大数据开发的门槛会越来越低,新入行的同学在打好大数据技术根底的同时,也要增强对行业业务和数据的了解,并把这些了解融入到数据中台模型设计中去,这样设计进去的模型,能力具备比拟强的可迭代性、维护性、健壮性。将来也会有助于集体实现从大数据开发角色到数据模型师,数据架构师的转变。

二,当初机器学习、深度学习、物联网、5G 等很火,这些也是和大数据严密相干的畛域,新同学们也须要关注这些最新的行业动态,时刻紧跟大数据行业倒退的潮流。

数栈是云原生—站式数据中台 PaaS,咱们在 github 和 gitee 上有一个乏味的开源我的项目:FlinkX,FlinkX 是一个基于 Flink 的批流对立的数据同步工具,既能够采集动态的数据,也能够采集实时变动的数据,是全域、异构、批流一体的数据同步引擎。大家喜爱的话请给咱们点个 star!star!star!

github 开源我的项目:https://github.com/DTStack/fl…

gitee 开源我的项目:https://gitee.com/dtstack_dev…

退出移动版