原文作者:Andrew Ste
原文链接:How to Become More Marketable as a Data Scientist
这个题目有些莫名其妙,2019 年,随着数据科学对业界的影响越来越大,数据分析师的市场需求蹭蹭上涨,作为数据分析师的你,在市场上已经很抢手了。撰写本文的时候,光 LinkedIn 上有关数据科学的岗位需求就已经超过 14 万个了。
不过,把握业界的脉搏,关注最快、最有效的数据科学解决方案,仍会对大家有所帮助,为此,我们的数据驱动团队,CV Compiler,分析了数据科学市场职位空缺,界定了 2019 年的数据科学招聘趋势。
2019 年最火爆的数据科学技能
下图展示了 2019 年雇主对数据科学工程师的技能要求:
本图数据引自 Stack Overflow、AngelList 等网站上列出的 300 个数据科学职位空缺。其中一些职位需求里的关键字有重复。
注:请大家注意,本次调研是从雇主角度出发的,而非从数据科学工程师的角度。
关键点与数据科学趋势
数据科学虽然对业务知识极其重视,但有关框架和支持库的技术与趋势仍值得大家关注。
大数据
根据《2018 年大数据分析市场调研报告
》显示,大型企业的大数据采用率从 2015 年的 15%,到 2018 年已经飙升了 59%。可以看出大数据工具的流行趋势在不断增长。如果不考虑 Apache Spark 和 Hadoop(下一段里单独讨论),最流行的是 MapReduce(36 个)与 Redshift(29 个)。
Hadoop
不把 Spark 与云存储的流行趋势考虑在内的话,Hadoop 的时代还没有终结。因此,有些公司仍希望应聘者熟练应用 Apache Pig(30 个)、HBase(32 个)等技术,HDFS(20 个)仍有岗位需求。
实时数据处理
随着传感器、移动设备、物联网技术(18 个)应用的增长,公司对从实时数据处理中获取信息越来越重视,越来越多的公司需要雇佣流式分析平台如 Apache Flink(21 个)技术人员。
特征工程与超参数调优
准备数据与选择模型参数是数据科学家的核心任务。数据挖掘 (128 个)这个词在公司的 JD 里特别流行。有些公司非常重视 超参数调优(21 个)。不过,数据科学家要特别关注特征工程。在模型构建早期,选择模型最适合的特征,是决定模型是否成功的关键。
数据可视化
处理数据,并从中提取有价值的信息是非常重要的能力,不过,数据可视化(55 个)也是数据科学家要掌握的重要技能,把工作成果展示给团队成员或客户对数据科学家来说是至关重要的能力。说到数据可视化工具,作为雇主的公司倾向于 Tableau(54 个)。
总体趋势
在这些岗位需求里,还包括了 AWS(86 个)、Docker(36 个)、Kubernetes。可见,软件开发行业的趋势对数据科学领域的影响也挺大的。
专家评论
技术非常重要,但在数据科学领域,有些东西比写代码更重要。从“输出数据”中提取信息,比如,生成最终数据集、找出趋势、数据可视化、基于数据进行陈述报告等,这种能力非常重要。此外,还包括用浅显易懂的形式展现分析结果,站在受众的角度看问题 — 如果听报告的是一群博士生,陈述的方式是一种形式,如果听报告的是 CXO,陈述的方式就是另一种样子了,他们才不关心编程,他们关心的只有结果与投资回报率。
Carla Gentry
数据科学家
Analytical Solution 博主数据快照对了解市场现状很有用,但并不适于展示发展趋势,只依据数据快照推断未来很难。我要说的是 R 的使用量在持续稳定地下降(MATLAB 也一样),Python 在数据科学家社区里的应用则持续上扬。Hadoop 与大数据榜上有名只不过是因为业界的惯性:Hadoop 将会消亡(没人投资了),大数据也不再是热炒的话题。要不要花时间再去学习 Scala 现在还不清楚:谷歌官方支持 Kotlin(也是一种 JVM 语言),但它学起来比 Scala 更简单,学习曲线也更陡峭。TensorFlow 的未来也让人堪忧:学术界已经把兴趣转向了 PyTorch,要知道,学术界对数据科学领域的影响远超其它行业。
以上观点仅代表我个人,不代表高德纳咨询公司。Andriy Burkov
高德纳(Gartner)公司 机器学习主管
百页机器学习手册作者PyTorch 利用 GPU 驱动强化学习的 CUDA 张量运算操作。与 TensorFlow 将每个操作绑定至一个设备不同,它可以同时在多 GPU 上并行编码。PyTorch 还可以构建动态图,有效地展示递归神经网络。基于 Theano 的 TensorFlow 与基于 Torch 的 PyTorch 相比,只能生成静态图,而且更难学。TensorFlow 对应的开发者与研究人员社区虽然更大,但 PyTorch 构建机器学习仪表盘可视化工具比 TensorBoard 更好,也更简单,而且,PyTorch 在调试与调用 matplotlib 及 Seaborn 进行数据可视化时更 Pythonic。绝大多数 Python 调试工具都能调试 PyTorch,TensorFlow 则有自己的调试工具,tfdbg。
Ganapathi Pulipaka 博士
Accenture 首席数据科学家
50 位顶级技术领袖奖得主数据科学“岗位”与数据科学“职业”不同。岗位列表阐明了市场所需的技能,但说到职业,就我所知,最重要的技能就是学习能力。数据科学领域发展迅速,如果想一直保持成功,数据科学家必须能快速学习新的技能、工具与专业知识。不断挑战自己,远离舒适区,才是数据科学家要干的事情。
Lon Riesberg
Data Elixir 创始人
前 NASA 职员
数据科学是一个发展迅速、复杂难解的行业,在这个行业里,业务经验与技术能力同等重要。希望这篇文章让您在这两方面都有所收获,知道哪些技能更有价值,助您在 2019 年变得更抢手!