关于大数据:数栈人从青铜到星耀10年大数据人的奋战晋级之路

明天，大家就请跟着数栈君一起，和申杭聊聊他从青铜到星耀的大数据之路。

数栈君：申杭，你是07年从华中科技大学软件工程业余毕业的，能说说你过后为什么抉择这个业余吗？

申杭：过后会计、师范、机械制造、土木类业余比拟热门，个别家人都会让报这些业余，进去好待业。而电子、计算机、软件工程类的业余刚刚衰亡，前景并不是很清朗，不过我那时对计算机还是挺好奇的，感觉电脑上开几个黑窗口，轻易敲一堆英文字母,就能够做很多事件，很神奇，当看到软件这个名字，感觉很高端、神秘，所以就报了软件工程业余。说起来，我是华科软件业余第二届的学生，算是较早入计算机坑的人。

骚粉的杭哥

数栈君：那当初很多软件工程师预计都得叫你一声前辈了。你有10多年大数据教训，能够说很资深了，简直见证了中国大数据行业的诞生和倒退。能给大家讲一下你的工作经验吗？

申杭：这些经验要说起来，能讲三天三夜，不过明天就长话短说吧。

倔强青铜：初入数据工程师的世界

2007年毕业时，商业智能（BI）在中国发展势头正猛，我的第一份工作就是在四大治理征询公司，行业所称“四大”之一的上海埃森哲做BI参谋。期间，负责给平安保险、某外资银行做数据仓库的模型设计和开发，BI报表的开发等工作。

过后有能力和志愿建设数据仓库的企业还不多，率先进行数据仓库建设的次要是保险、银行、证券、电信等一些大型企业。次要是因为这些企业自身的IT零碎建设曾经比拟成熟和欠缺，并且曾经积攒了大量的业务数据，对数据的剖析，开掘诉求也比拟强烈。

过后，“大数据” 、“数据中台” 、“数据平台”等概念还没诞生，那时业内支流叫法是“数据仓库（DW）”，但数据仓库相干的技术很多都还没有成熟、体系化，在服务这些保险、银行、电信企业时，也碰过很多问题，尤其是刚毕业，技术水平和对业务的了解根本是从零开始，一路趔趔趄趄，摸爬滚打，才逐渐入门。

在埃森哲工作的一年半里，我积攒了很多数据征询、数据模型设计、数仓开发等方面的教训，为后续始终从事大数据行业，打下比拟好的根底。

秩序白银：从0到1搭建残缺、成熟的数据平台

过后国内一些比拟成熟的批发、制作企业，随着ERP、CRM、WMS等IT零碎的逐渐上线和大规模应用，曾经积攒了大量的数据，但零碎间的数据买通、穿插剖析，面临比拟大的艰难，所以这些企业开始尝试进行企业级数据仓库的建设，解决数据孤岛问题，充沛开掘已有的数据价值，辅助业务决策。

基于这个需要和发展趋势，2008年底，我抉择退出了国内服装行业领头企业美特斯邦威。

从2008年底-2013年年初，这4年多工夫里，我见证了美邦企业级数据仓库从0到1的建设、再到大规模利用的全过程。

2013年3月，来到美邦的时候，咱们建设的数据仓库曾经全面利用到企划、生产、物流、批发、财务、人力等各个外围部门，每天有几百号人都应用咱们建设的零碎查看数据，并利用数据来进行业务决策，能够说是一个很胜利的平台了。

连升三段直跃钻石：经验了大数据行业的火箭式回升

2013年是挪动互联网暴发的年份，国内以BAT为代表的互联网企业都在抢夺挪动互联网的船票，各类APP井喷，大数据的概念衰亡。过后已是PC端电商霸主的阿里正踊跃布局挪动端，在此过程中积攒了海量的数据，为了充沛开掘这些数据的价值，须要大量的大数据人才，过后猎头分割到了我，倡议我去阿里试试。

于是2013年4月，我退出了阿里，入职无线事业部，跟着江枫（现袋鼠云COO）一起做无线数据分析产品，相似当初的友盟, GrowingIO等。咱们过后次要负责为阿里团体绝大部分的APP（例如淘宝、天猫、聚划算等）提供行为数据埋点标准和采集SDK，并把APP上用户的的浏览、点击、分享等数据采集过去做解决、剖析，构建团体级无线数据体系，并通过标准化、产品化的形式提供给经营、分析师、PD等应用。

在此期间，我感触比拟深的中央是，传统行业的ERP、CRM、WMS等零碎存储的数据，个别单表记录数有几千万、过亿曾经算量很大了。然而在阿里，仅仅从挪动端采集到的数据，每天增量就有2-3千亿条，如果到双11、双12这种电商大促的日子，数据量相比平时还会有几倍的晋升，达到5-6千亿的峰值。

同时在数据利用上，以前做大数据的成绩以BI剖析报表为主，用来辅助决策。而在互联网企业，数据对业务的价值大大拓展和强化了，能间接和业务联合，甚至产生一个新的数据驱动的业务，例如阿里的搜寻、广告、千人千面以及蚂蚁的芝麻信用分、花呗、借呗等，都是跟数据严密相干的业务。

所以对于这种体量和规模的数据，咱们面临了各种考验，每天都在搜索枯肠地思考怎么设计出更正当的数据模型，优化计算工作，在耗费更少资源的同时保证数据的疾速产出和剖析，及时正确地生成数据报表和剖析后果给业务部门应用。

2014年底，咱们团队组织架构调整到了阿里云飞天一部，负责对外输入挪动数据分析产品，因为过后咱们给阿里团体外部APP开发的无线数据分析产品曾经十分成熟，所以团体决定将这些技术进行产品化封装，对外提供对立数据采集、剖析和数据服务，帮忙内部企业更好地采集、计算、剖析、利用本身数据，进步企业的挪动端流量经营、业务决策效率。

在阿里三年多的这段时光算是比拟难忘的一段经验，能够说是痛并高兴着吧。挪动数据每天增量都有2-3千亿条，计算量特地宏大，而后还得保障及时、精确地产出数据，每天都像在打仗一样，压力也比拟大，死了不少脑细胞。

不过也正是这些经验历炼了咱们，做进去的平台不仅能很好服务阿里外部业务部门，也能很好地输入和赋能更多内部企业。

至尊星耀：艰辛、激情与成就的三重奏

2016年7月份来到了阿里云，次要起因是：

第一：过后大数据企业级服务还处在起步阶段，特地是阿里云数加平台的对外公布，我发现大数据企业市场的前景非常广阔，也想利用本人多年来的大数据教训，为更多的企业服务，让企业数据产生业务价值。

第二：过后拖雷、江枫曾经进去创建了袋鼠云，受到了他们守业幻想和大数据幻想的感召，也想做出一番事业，所以就退出了袋鼠云，从此走上守业的“不归路”。

数栈君：你以前始终是做技术专家，为什么来袋鼠云之后要转行做产品呢？

申杭：沉迷大数据行业十几年，亲眼见证了大数据行业的各个倒退阶段，从最早的关系型数据库（例如Oracle，SqlServer），再到MPP数据库（例如Greenplum，Teradata），再到当初的分布式数据库（例如Hadoop，Spark，Flink），对大数据技术理解比拟深和宽泛。

同时我也有甲方、乙方，传统企业、互联网企业的不同工作教训，对不同类型企业的大数据应用的状况、诉求、痛点也曾经有了比拟粗浅的了解。

所以决定从开发转型做产品，心愿能把本人这些年的教训积淀，形象成产品，让更多的企业能更便捷地享受大数据带来的价值。

数栈君：能和咱们讲讲你为什么要做数栈这个产品呢？

申杭：进入袋鼠云初期，接手了江西公安、贵州交警等几个大的数据中台我的项目，接触了不少客户，在服务客户的过程中，发现了企业的一些痛点，其中有很多能够优化和晋升的中央：

第一：以前始终做技术，次要是从技术角度去思考数据的逻辑、设计大数据架构，然而企业做大数据的目标是为了晋升业务价值。所以咱们须要转变思维，多从业务角度思考怎么通过数据赋能业务，怎么通过最小化的投入实现最大化的价值。

第二：不同的企业，数据中台需要多变、简单，如果给每个客户都提供个性化，定制化数据服务，则施行周期长、效率低、见效慢、治理难。为了解决这些问题，须要一个成熟、稳固、高效的平台来撑持企业数据中台的疾速落地。

第三：通过考察，咱们发现，市场上华为、星环、Cloudera等企业的大数据平台产品尽管有很强的数据处理能力，专一于Hadoop集群的部署、装置、运维等工作，然而基于集群之上的数据开发、数据管理、数据治理的能力还没有很好地实现体系化、系统化、产品化。对企业来说，建设数据中台体系，门槛还是较高。

所以咱们决定研发一个能笼罩数据采集、数据处理、数据挖掘、任务调度、工作运维、数据品质、数据地图、数据模型、数据共享服务等全链路场景，充沛满足企业建设数据中台过程中多样简单需要的平台。

经验将近大半年的日夜奋战，袋鼠云一站式数据开发平台——数栈诞生了。

在接下来的2年半工夫里，咱们继续进行产品研发、迭代，目前产品体系曾经十分成熟，在商业化不到一年的工夫，数栈曾经服务了几十个客户，帮忙这些企业在很短的工夫内实现了数据中台的搭建、施行落地。

申杭代表袋鼠云发表演讲

数栈君：数栈上市后，客户对数栈有哪些评估呢？

申杭：客户对咱们产品的价值、定位还是很认同的：

第一，产品很轻量，最小仅需5台虚拟机就能够部署，对须要建设数据中台的中小企业来说是一个福音；

第二，兼容性很强，能够无缝对接Cloudera CDH、Hortonworks HDP、华为Fusion Insight等支流的商用大数据平台，能很好的和企业已有的数据平台做联合，防止反复建设。

第三，麻利灵便，平台用起来比拟便捷、一天就能上手。以前在进行大数据开发时，须要找各种各样的工具，进行简单的配置。当初通过数栈，只须要在界面上进行拖拽式、向导式的操作，就能够实现数据中台的建设。开发门槛大大降低，相比以前，大数据开发、治理、治理效率都至多晋升 50%以上。

第四：产品服务好，咱们提供基于数栈产品的定制化服务，能和企业已有的零碎，流程进行对接，满足不同企业的个性化需要。
将来的王者：王者之巅就在不远处

数栈君：对于数栈的将来，你有什么想法和方向上的布局？

申杭：在产品上，后续咱们想研发数据资产经营和数据利用等通用型、行业型产品，逐步实现从PaaS到SaaS的过渡，从数据平台到数据利用的纵向延长。

比方针对新批发行业，咱们能够在数栈产品外面内置批发行业数据模型，通过简略的批改，就能够实用不同的批发企业。同时也能够提供智能标签、用户画像、精准营销等产品，让数据能间接赋能业务，实现数据的变现，数据价值的最大化。

守业之路任重而道远，公司目前在大数据畛域曾经站稳脚跟，我置信属于数栈的将来前景有限广大。

数栈团队合照

数栈君：当初正值毕业季，你对刚入行的开发同学们有什么倡议吗？

申杭：一，随着大数据技术平台的倒退，性能越来越丰盛，将来大数据开发的门槛会越来越低，新入行的同学在打好大数据技术根底的同时，也要增强对行业业务和数据的了解，并把这些了解融入到数据中台模型设计中去，这样设计进去的模型，能力具备比拟强的可迭代性、维护性、健壮性。将来也会有助于集体实现从大数据开发角色到数据模型师，数据架构师的转变。

二，当初机器学习、深度学习、物联网、5G等很火，这些也是和大数据严密相干的畛域，新同学们也须要关注这些最新的行业动态，时刻紧跟大数据行业倒退的潮流。

数栈是云原生—站式数据中台PaaS，咱们在github和gitee上有一个乏味的开源我的项目：FlinkX，FlinkX是一个基于Flink的批流对立的数据同步工具，既能够采集动态的数据，也能够采集实时变动的数据，是全域、异构、批流一体的数据同步引擎。大家喜爱的话请给咱们点个star！star！star！

github开源我的项目：https://github.com/DTStack/fl…

gitee开源我的项目：https://gitee.com/dtstack_dev…

关于大数据:数栈人从青铜到星耀10年大数据人的奋战晋级之路

倔强青铜：初入数据工程师的世界

秩序白银：从0到1搭建残缺、成熟的数据平台

连升三段直跃钻石：经验了大数据行业的火箭式回升

至尊星耀：艰辛、激情与成就的三重奏

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:数栈人从青铜到星耀10年大数据人的奋战晋级之路

倔强青铜：初入数据工程师的世界

秩序白银：从0到1搭建残缺、成熟的数据平台

连升三段直跃钻石：经验了大数据行业的火箭式回升

至尊星耀：艰辛、激情与成就的三重奏

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复