共计 2639 个字符,预计需要花费 7 分钟才能阅读完成。
职位少,要求高,人工智能落地困难,决定了就业可能会是一个大问题
全国范围内的人工智能的职位是 183
而 Java 是 10000+ (因 lagou 并不展示总数,因此该数据从请求分析而来)
因此岗位数量与 Java 大概是 60 倍的差距。
大数据 / 机器学习的应用范围是对已有数据进行分析,以得出最优解。或是对已有的房价进行分析,已得出明年的可能房价;或者是应用于图像识别领域,给定数据集和结果集训练模型,训练成功后输入真实数据而后得出结论。比如在教育领域,先灌输大量学生状态: 认真听讲、瞌睡、走神等的图片给模型,而后就能用该模型得出学生在课堂上的状态了
还有语音 / 语义识别领域,输入大量的语音,语义,让机器能判断真正的含义,做到人机对话。不仅正式场合在用,连骗子都开始使用了。
无论是对房价的判断,还是图像识别,或者语音 / 语义的分析,都是建立在大量数据之上的,没有海量数据的积累,一切都是白搭,因此注定了只有规模到一定量了的公司才可以做。而初创,中小型公司,技术人数少于 300 人的公司,还处在野蛮生长阶段,还没到达通过数据来驱动业务的阶段。假设你就 1000,10000 个用户,这个数量级别是远远不够的,没有十万,百千万的数据,也是无法得出正确结论的。换句话来说,这是个小公司无法进入的市场。
从公司的发展规律来讲,是 需求 -> 原型 -> 上线 -> 推广 -> 盈利 -> 积累大量数据后进行数据分析,用户挖掘的过程,因此,所需要数据工程师数量会远远小于应用工程师。
更雪上加霜的是,由于前期 AI NB 吹的太大,各种都投资拿的飞起,但到 19 年后发现商业无法落地,没法赚到钱,导致市场萎缩,人才需求量大减。
有些媒体会鼓吹人才缺口是多少,其实不是外行就是培训机构,要么坏,要么蠢。
从 19 年我司的招聘情况来看,10-11 月还找不到工作的计算机专业学生中,有九成都是人工智能相关的。从公司角度来看,国外做这个的也一大堆,为啥我不招留学生呢?名头更响不是,干嘛还要招一个没什么名气大学里做人工智能的呢?
而且 AI 工程师压力是极大的,公司是需要业绩的组织。从 17-18 年 AI 风起后我司组建了数据团队,数据分析团队、算法团队、AI 团队,公司寄予了厚望,要钱给钱,要人配人,探索了很多方向,花了很多时间,比如图像识别,语义识别。我就作为项目经理实施了一个项目,对业务有一定帮助,但远远达不到颠覆的程度,甚至人员成本都收不回来,其它部门反对声音极大,但也不能说撤就撤,毕竟现在每个公司都 All IN AI 了吧。财大其粗的国企都这样,其它公司有多大意愿能招一批人来养着呢?
而且机器学习 / 大数据工程师对人才要求极高,应该是计算机科学家、软件工程师和统计学家的混合体,如下是发展轨迹图
分为十个段位,难度依次上升,基础理论 -> 统计学 -> 编程 -> 机器学习 -> 文本识别 /NLP-> 可视化 -> 大数据 -> 数据获取 -> 数据挖掘 -> 熟练工具使用。
其中 1 - 4 理论和算法是内功:
一 理论知识
线性 / 矩阵代数(矩阵倒腾来倒腾去,理论推导必须要用到),树图理论,关系代数,CAP 理论,OLAP,ETL(数据抽取),BI 等知识
二 统计学
描述统计 (平均数,中位数,标准差,直方图,散点图) 之类,概率论(抽中 SSS 英雄的概率是 0.5%,请问抽多少次氪金 SSS 英雄的概率达到 50%),贝叶斯理论,累积分布函数,各种回归。
三 程序语言
这个稍微简单点,Python,Panda,数据读取之类
四 机器学习
机器学习的各种算法,比如监督学习,非监督学习,强化学习,神经网络算法,过拟合,调参。
以上四点是数据科学的基础,绕不过去的部分。如果有兴趣,不妨去 Coursera 上学下 吴恩达 机器学习的经典课程: https://zh.coursera.org/learn…,如果感觉还 OK,不会对他的数据推导感到烦躁,郁闷而弃坑的话,我觉得你在这行还是有前途的。
五 自然语言处理
自然语言处理(NLP)是计算机科学、语言学和机器学习的交叉点,它关注计算机与人类之间使用自然语言中的沟通交流。总之,NLP 致力于让计算机能够理解和生成人类语言。NLP 技术应用于多个领域,比如天猫精灵和 Siri 这样的语音助手,还有机器翻译和文本过滤等。
需要掌握的知识点包括 句法和语义分析、词干提取、关系抽取、情感分析等等。
六 数据可视化
这个没什么好说的,就是把数据展现出来,比如房价热力图
七 大数据
单指对大数据软件的使用,偏工程性一些,比如 Hadoop, Spark, SQL, Mongodb 的使用等等。一些培训机构上来就开始教这些,不从基础的学起,就如同空中楼阁,如果只是专注于搬砖,难道以后成为软件安装专业户么?
八 数据摄取
将数据实时展现给终端用户或是保存下来,数据可能来自不同的源。
九 数据挖掘
举个栗子,《大闹天宫》里孙悟空与二郎神大战了三百回合,各使出变化,后儿郎神放火烧了花果山,而后悟空被偷袭得手。我们用数据挖掘得出相关性结论如下:
孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:
- 贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。
- 战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。
- 在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。
- 样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。
综上所述,我们可知道:
- 论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。
- 悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。
- 斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。
- 另孙行者由于样貌原因始终单身(好伤感)。
- 所以可以得出结论,这次大战孙悟空赢面大。
- 数据挖掘完成。
数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察未来。
十 工具集使用
此外还有一些工具的使用了,比如各种语言,库的使用了。
机器学习 / 大数据是一个对人能力要求特别高的学科,国外都是称为数据科学家,而国内有些机构号称包就业,能赚大钱,但如果内功不牢去培训机构学些它们的 ”独孤九剑“,是很难拿到年薪几十万的。即使你真入了行,但没有论文打下的基础,也没有重量级的论文发表,平时以调参赌参为主,又如何能持久呢?
我们需要的是这些人
而不是这些血汗工人的互相压榨