0. 前言
很多人反映在学习了 Python 基础之后无所适从,不知道下一步往哪走。作为较早期的跨界者(土木狗)深有体会。本文将结合上图,为后来者指明方向,可作为参考。
在此强调:如果打算依靠 Python 逃离现有的工作(如土木施工),那就要认真想想自己打算做哪一方面的工作,互联网营销、前端、运维、爬虫、数据分析、数据挖掘、Web 开发?强烈建议:直接上拉钩或者 Boss 直聘,针对性学习更为稳妥。如果打算业余玩玩,那跟着我们一起业余吧,嚯嚯~
.在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:529867072,裙文件有我这几年整理的大数据学习手册,开发工具,PDF 文档书籍,你可以自行下载。
1. 目标确定
凡事预则立,不预则废。事先明确自己要处理事情,大体上有个方向。比如你准备分析当地房价,或是电商某种类数据,或是某个垂直领域的数据等。
2. 数据获取
爬虫是 Python 初学者的必经之路,通过爬虫既可以获取数据,还可以理解 Web 的工作原理。前者可以作为数据分析的原料,后者可以作为数据 Web 可视化的基础。至于你使用 Request,还是 Scrapy,或是 Selenium,可以随意一点,这不是公众号【调包】的重点,度娘或 GitHub 有很多范例供大家参考。
3. 数据分析
《利用 Python 进行数据分析》该书详细讲述了 Pandas 的使用,用它可以实现上图流程之后的底层流程(数据整理、描述分析、洞察结论、报告撰写),这个路径可以称之“数据分析”。
4. 数据挖掘
上图数据整理之后的上层路径(建模分析、模型测试、迭代优化、模型加载、报告撰写),这个路径可以称之“数据挖掘”。将会用到 Sklearn、XGboost、Pytorch、TensorFlow、Spark、Hadoop 等库或工具。
5. 报告撰写
不管是数据分析还是数据挖掘,最终都要反映到报告中,可以在线动态展示数据、也可以是离线静态报表,或者插入 PPT。这个阶段 Matplotlib 是基础,至于用其他可视化库或是非 Python 系的工具,可以随意点,重点在于你分析的结论能否让阅读者肯定。
6. 需求反馈
从报告撰写再回到目标确定,这是一个产品迭代的闭环。类似于土木施工组织管理的 PDCA。