对话BAT数据分析专家数据分析比你想象的更强大

115次阅读

共计 5277 个字符,预计需要花费 14 分钟才能阅读完成。

依靠数据分析,买房可以少花 40 万。

刘红阁在北京的第二次买房,是 2016 年的 8 月份。她入手后仅一周,北京房价进入了下一次全民疯狂的上涨通道。据国家统计局数据显示,2016 年 9 月份,北京新建商品住宅销售价格曾创下单月同比上涨 30.4% 的历史记录。

怎样抓住稍纵即逝的买房时机?

其实很简单。先把历年北京的房价走势数据拉出来看看。2012 年房价疯涨后,13 年进入横盘期,14 年全年趋势下行,15 年中开始上涨。房价在 2 - 3 年的横盘或者下行后(主要受政策调控影响),会进入下一个上涨通道。观察半年后,刘红阁和一个同是数据分析师的闺蜜朋友计划 2016 年春节后买房。

朋友出手的时间是 2016 年 4 月,而她当时做了一个不太明智的决定,先置换开了近 10 年的汽车,暑期再入手房子。这一犹豫不要紧,仅仅 4 个月的时间,房价涨了 40 万。

她没有再纠结就下手了。虽然错过了很好的时点,但她已经闻到市场上弥漫的不理性味道,预料到接下来可能会有一场血雨腥风的暴涨,并伴随一系列的强管控。

果然,2017 年 3 月 17 日,北京出台了「认房又认贷」、提高二套房首付的「3·17 新政」,被称为北京楼市最严厉调控措施。此后,北京陆续出台大小 30 条以上的楼市调控措施,假结婚、假离婚、平房、法拍房、信用贷……一个又一个可能利用的「漏洞」都被调控政策堵上了。而她已经轻巧地避过了这场大风。

不仅如此,数据分析还可以发挥保险的最大价值。 怎么操作呢?

王淑娟首先会对比各个保险(重疾险、分红险、基础保障险等)涵盖的疾病类型、风险情况、分红时间等信息。其次,查询一下各类疾病在不同人群中(男性、女性、年龄段等)出现的概率。然后,综合考虑每个家庭成员的情况,决定购买哪家公司的哪款产品。

「比如我家小孩两岁,身体素质很好,生病概率很低,加上我们重护理的理念,决定了在疾病上不会花费太多,所以主要给他购买分红类的保险。」

找工作,数据分析也可以帮忙。

温融冰会敏锐关注财经新闻中指标的增长率。「如果某个细分行业年增长率高达 15-20%,它一定在高速发展,毕业生可以考虑加入。对比于发达国家,宏观经济或行业领域变化大于 5% 的指标都值得关注,如果变化大于 20%,往往不是机会就是陷阱。」

读到这里,对他们的职业好奇吗?本期图灵访谈就带大家了解三位数据分析专家的故事。

刘红阁博士,百度商业分析规划部负责人,原埃森哲咨询经理,专注于数据挖掘、机器学习、数据可视化领域。

王淑娟,阿里巴巴数据分析专家,原埃森哲咨询经理,专注于企业运营咨询、数据分析、数据可视化等领域。

温融冰,菜鸟网络数据分析专家,原埃森哲咨询经理,专注于企业战略管理、财务与绩效管理、数据分析等领域。

数据分析师的职业进化论

随着大数据时代的到来,企业如何挖掘和运用数据的价值推动了数据分析行业的崛起。

三位专家见证了这个过程,他们的职业生涯经历了从传统行业的咨询业务,到结合数据分析的咨询项目,再到专门化的数据分析部门的一路转变。

刘红阁博士目前是百度商业分析规划部的负责人,她转入数据分析领域的过程非常具有戏剧性。

当时她是埃森哲的咨询顾问,独立承担了广东电网公司的物资需求预测项目。项目的难度非常高,取得了很多成果,发了一篇论文,申请到了一个专利。该项目的成功经验被她也带到了国家电网公司总部,并在多个省公司进行应用推广。

在该项目进行的过程中,一个数据挖掘的负责人离职了,当时她的客户面试了公司提交的多个候选人都不合适,最后竟然决定,让之前从没有接触过数据分析的她来试试看。

这个奇妙的机会是她人生的转折点。「为什么说人生转折点,回头望一望,才发现从事数据分析之前的几年工作,都不是自己真正喜欢的,只是为了工作而工作。走上数据分析这条路后,我像打开了人生的一道门,愿意付出非常多的时间去钻研,也忍受得了数据探索的煎熬和繁重的数据清洗工作。可能非常享受发现数据洞见那一刻的美好吧,所有的付出都感觉是值得的。」

不过,在传统行业,数据驱动业务的实践还有很多的局限性,为此她加入了百度。在百度的 4 年多里,她遇到的很多管理者都非常有数据思维,坚持用数据说话。在数据的驱动下,团队的科学决策水平也在大幅地提升。

相比起来,王淑娟和温融冰踏入数据分析领域的过程,则是行业数字化发展的水到渠成。

王淑娟的第一份工作选择了能源领域的管理咨询。随着能源领域的信息化,数据积累越来越多,承接的数据分析相关项目也越来越多,她就此契机转行到了数据分析领域。

后来,她对互联网公司的快速发展比较好奇,就加入了阿里。「阿里对数据的准确性和实时性都要求很高,所有的业务决策都要有数据分析的支撑,同时每个部门都有专门的数据保障团队,来确保数据的可用和统一。」

温融冰的大学专业是工商管理,起初一直在管理咨询行业。2011 年,他负责了第一个完整的数据分析项目,某保险集团公司的客户分群项目。

当时大数据的理念还远没有今天这么广为人知,那个项目让他第一次学习到,如何充分利用企业内部明细粒度的数据,系统性地指导市场、销售、和运营决策。此后,受咨询行业「数字化变革」的影响,客户的咨询项目都跟数据分析有关。

后来,缘于对物联网数据的兴趣,加上身处杭州,他加入了阿里体系中和物联网相关性最高的 BU,菜鸟网络。接触到了更丰富的数据应用场景、更便利的数据基础设施(包括数据仓库与分析工具)。

从数据破解谜题

「做数据分析像登山,到山顶的路有很多条,但是最短路径往往只有一两条,经验丰富的人,更容易找到它们。」

他们通常的工作场景是,与业务团队紧密配合,通过数据分析的手段(产出业务分析报告)洞察和诊断业务风险,为决策及运营提供数据支持。

听起来是不是很神秘?像福尔摩斯一样,轻巧地破译藏在数据中的线索。

的确如此,破案的第一步,就是将摆在面前的事实仔细梳理,找到要解答的问题是什么,也就是作案动机。然后才能从正确的方向,定位凶手是谁。

理解业务就是理解动机。

温融冰说:「一般的困难总是源于是否充分理解了商业问题。新人容易马上动手开干。我建议,还是尽可能地理解对方想通过数据分析解答的商业问题是什么,这样会事半功倍。不要担心面子问题,追问下对方的真实诉求。」

既然找到了问题所在,是时候展现真正的实力了!

哎,先等一下……破案之前,一个问题迫在眉睫:如何拥有和福尔摩斯一样构造精密的大脑?

答案,似乎不能。

But!即便不能仿造他的记忆宫殿,我们只要学会控制自己的大脑,构建思维框架,就能使分析更精准,更有效率。避免毫无头绪地思考浪费大量时间和精力。

在这方面,温融冰回忆:「我在 Capgemini 的项目经理 Lion 对我影响最深,是他真正地训练和传授我:结构化思考、深入浅出的表达。」

然后,就可以利用沉淀的业务分析方法论,结合最新业务情景,大胆假设分析思路(复杂分析任务需要设计分析框架),开展分析,进而产生结论。

最后,将结论与业务方沟通确认(有时需修正分析思路,重新开展分析),并就可行性解决举措进行商讨,最终汇报结论。

其中,对数据进行可视化分析时,图表等工具只是一种表达方式。

王淑娟提醒:「不要为了好看而做报表,不要追求复杂的图,传递的结论、分析的逻辑更重要。」

这就是通常的数据分析流程。刘红阁总结:「同样的一个数据分析需求,新人可能会因为缺乏对业务的深刻理解、有效的分析思路或者完备的分析框架,无头苍蝇一样乱试,花费了很多时间,但无法在有限时间内产生有意义的数据洞见。

「有经验的数据分析师,往往先不会着手取数、分析数据,而是花比较多的时间了解背景、梳理和设计思路。做数据分析像登山,到山顶的路有很多条,但是最短路径往往只有一两条,经验丰富的人,更容易找到它们。」

打磨数据原石

罗素:「一切伟大的著作含有乏味的部分,一切伟大的生活含有沉闷的努力。」

和数据打交道,枯燥是无法避免的。在产生数据洞见之前,他们经常被海量无意义的数字淹没。数据分析就是静下心来,沉潜到深海,寻找他们要的那串珍珠项链。

这个过程中,严谨至关重要。刘红阁说:「多年的数据分析工作从业经验,训练了我敏锐的数据洞察力和严谨的逻辑思维能力。工作时非常‘强迫症’,这可能和我的角色有关系,我出口的数据 insights 是高层做实实在在的决策用的,决策的结果与百度收入密切挂钩,正确与否非常易于检验。」

既然一切结论都是建立在数据之上,基础就要打牢。温融冰说,自己为了快速了解某块业务,甚至会用最笨的办法——抄写或重复数据,来增加熟悉程度。

王淑娟说,最常遇到的问题是数据口径不清晰、来源不清楚,导致分析结论不敢用。比较好但也比较费时间的方法是层层追溯,一直到系统层面,查看数据是如何被记录、被沉淀的,了解数据的加工链路,确保分析结论的可靠。

前几年,他们用 Excel 处理分析需求,每天都要搞表格搞到半夜,还因为数据量大总是电脑崩溃。

2014 年,他们广泛接触、比较试用各种敏捷 BI 工具,最后选中了 Tableau。为便于项目组的新老成员快速掌握,写了一份手册。因缘际会之下,这份文档变成书籍得以出版,也就是现在的《人人都是数据分析师》这本书。

Tableau 的确是一个非常有魅力且值得推荐使用的分析工具,可以节省处理数据的大量时间。

王淑娟说:「对于初学者,最实用和最通用的功能当然是快速成图和图表联动功能,能够帮助我们在繁复琐碎的数据中,快速发现规律、特征;自助分析功能也能帮助初学者去挖掘数据的分布等。

「进阶用户可以尝试 Python 和 R 的集成功能,以及 Tableau 的表计算、各种函数。Tableau 内嵌的丰富的函数,其实可以帮助我们快速实现很多复杂的操作,值得深入学习和挖掘。」

刘红阁也分享了自己的心得:

  1. 使用表计算时,需要重点关注计算依据和相对级别,否则易出错
  1. 一个工作表中,最好不要同时使用超过 3 个「集」,否则可读性差,也易出错
  1. 进行可视化分析之前,先对数据概况进行全貌的了解,包括数据分布、缺失值和异常点

温融冰提醒,使用 Tableau 必须时刻牢记:input 读入数据的粒度,即最小的观测值是什么。

用户在 Tableau 中简单拖放即可分析、探索数据,其背后的原理是将动作还原为 SQL 来汇总计算数据。与程序语言的区别在于:它不展示处理过程。因此,如果因粒度搞错而结果出错,用户自己往往不容易查出。

数据无终,卓越无止

工作占据了我们一生的大部分,因此要选择适合自己的职业,找到自己乐于投入的领域。

如果想要成为一名优秀的数据分析师,刘红阁说:「 首先,要真心喜欢这个职业。 兴趣是最好的老师,对数据分析师这个职业来讲,尤其重要。为什么?因为数据分析师干的是苦活累活体力活,要花费百分之七八十的精力来获取和清洗数据,真正做分析和写报告的时间是比较短的。如果没有真正的兴趣,是很难熬的一份职业,我会劝大家不要走这条路。

其次,要有很强的逻辑思考能力。 业务的复杂程度很高,数据分析师要解决的,不是产出一个数据报表这么简单的事情——否则 PM 或者 RD 自己都做了,就不需要这门职业了——而是非常复杂的业务问题,所以需要有超强的逻辑思考能力,抽丝剥茧,进行业务的分析与诊断。

「最后,要有悟性。 很多同学具备如上两个特质,但缺少悟性,那么数据分析这条路对他们来说,天花板就很低,在百度升到 P6 可以,再往上就非常难。悟性这个词听起来有点抽象,其实就是说对数据有很高的敏锐度。见到数据,会关联到具体的业务场景,主动思考和探究业务的本质或本源问题,提出想法,利用数据的手段,去改造、去解决、去提升业务。」

在此基础上,王淑娟说:「要分析、定位自己的兴趣所在,是在技术领域还是业务分析领域。如果是技术领域,可以多研究数据架构、存储方式等,往数据仓库方向发展;如果对业务结果更感兴趣,建议多尝试业务领域,培养对业务、数据的敏感度,往业务分析、商业分析领域发展。」

对于刚接触数据分析的新人,他们也分享了一些工具学习方面的建议。

刘红阁说:「新人的话,我建议工具选择 Python(如果已经很熟悉 R,那就用 R 也可以)、MySQL、Tableau。

  • Python 是开源工具,Pandas 是操作数据的库,NumPy 和 SciPy 是高效进行数字和矩阵计算和转换的库,Scikit-learn 是机器学习的库,这几个库都非常常用,要熟练掌握。
  • MySQL 的学习我就不用多说了,这是必备的数据获取语言。
  • Tableau 是高效敏捷的数据可视化分析和探索性分析工具,精通它,可以让你的分析效率大大提升。」

温融冰说:「工具学习就是要多使用、多练习。 所有实践性的知识只有通过练习才能真正地掌握。

此外,要培养阅读的习惯。他平时喜欢阅读政治哲学,及人文艺术等领域的内容,追求通识教育或知识结构的平衡。

不仅如此,刘红阁说:「数据分析需要多个领域的行业知识(经济、金融、互联网、统计、AI,等等),多读书有助于打开视野,也能将本职工作做得更好。」

插图来源:Pixabay

题图来源:Unsplash

扫一扫,京东购

《人人都是数据分析师:Tableau 应用实战》第 2 版

作者:刘红阁、王淑娟、温融冰

简单易用,拖放成图,无须统计、计算机背景,即可进行可视化分析,分秒间读取,快速引擎处理,帮你看见并读懂大数据。

正文完
 0