共计 1602 个字符,预计需要花费 5 分钟才能阅读完成。
1. 问题定义 :
设定目标,将特殊的业务问题转化为数据问题
以银行风控业务为例,不同的业务场景往往对风控模型的需求是截然不同的。对于大客户信贷审批,数据模型没有实际作用,因为大客户审批的工作量完全可以由业务人员来承担,并且大额审批一定是靠人决策。即使一个富翁请了 10 个保姆去打理花园和厨房,也仍会让自己老婆去管理房产证。但是,在小微商户的信贷业务的贷后管理中,数据模型便可以发挥举足轻重的作用,银行没有大量人力去在贷后的每一个月都去派业务人员进行大量企业的贷后风险管理。
而在公安大数据应用中,数据模型的可解释性远大于预测的准确性。你不能因为安全模型给本拉登打分为 99 分就将他枪毙,总需要一些客观的根据(数据)。公安数据模型最大价值就是从大量原始数据中缩小范围,提供可解释的关键数据。这些关键数据,正是公安中的证据。
2. 数据准备 :
从数据源抽取特征,对特征数据进行加工处理
在电商网站中,成交量最多的关键字商品往往没有什么特别价值,但是,一个关键字商品如果在最近几天拥有大量浏览却很少被购买,才正是说明了这里有市场需求未被满足这一关键信息。一个贷款客户最近半年交易流水数据的汇总信息往往意义不大,而是变化趋势和支出 / 收入比例有更大信息价值。一部电影是否符合你的胃口,不仅取决于你长期的兴趣,更取决于你最近的经历变化。
有经验的数据科学家可以凭借业务经验、直觉和逻辑推理提炼出大量具有预测意义的“数据特征”,同时可以将数据特征的抽取方式总结成一套算法体系,让计算机系统去自动提取特征。数据科学家负责设计特征抽取机制,借助经验与算法的协作,来不断丰富原始数据到关键数据的提炼机制。
3. 算法调优:
基于准备好的数据,自动寻找最优算法和参数
所谓好算法,就是不浪费数据。能最大化数据价值的算法,是基于不同数据结构而发挥数据价值的。换句话说,不同的数据结构和不同的算法确实存在匹配关系,没有最好的算法,只有最适合的算法。例如,决策树算法效率非常高,也易于解释,但却不适合在高维度数据中做建模。而即使预测能力非常强的 GBDT 算法,在文本挖掘中也难显示其威力。
4. 知识发现:
将模型转化为决策依据,发现经验外的新知识
在我看来,大数据的价值不是预测,是发现——发现那些宏观的规律让人获取新的洞见,发现那些微观的细节便于快速决策。在人最关注的问题上,人很难放手交给机器去做决策,人更希望机器是重大决策的辅助者。
5. 效果分析:
定义不同衡量标准,分析模型整体与局部效果
完整的模型效果分析,往往是模型优化最重要的环节。数据科学家在效果分析中往往需要回答几个问题:
(1)最适合评估解决特定业务问题的模型效果衡量指标是什么?
(2)模型上线测试前,模型的离线测试效果是否理想?
(3)模型的计算效率如何,是否可以在海量数据中跑通?
(4)模型的业务逻辑是什么?
(5)模型在不同数据样本之间的效果是否有显著差异,这意味着什么?
6. 线上部署:
规范模型输入输出,模型与多个系统无缝对接
把模型部署上线前,数据科学家需要严格定义模型的输入和输出,并且让模型的上下游系统与模型无缝对接。机器学习的结果,往往需要和多个系统对接,彼此之间的完美配合是让算法发挥效力的重要前提。
7. 模型更新:
监控数据异动与模型变化,持续迭代更新模型
最出色的数据科学家可以从数据中提炼价值,但他们会让数据价值的挖掘过程并不一直依赖于他们自己的持续耕耘。数据科学家是机器的导师,真正优秀的导师一定是“授机器以渔,而非授机器以鱼”。数据科学家只应该负责设计机器学习算法并将其部署上线,让机器应该具备直接从数据中自动学习,并且根据数据的变化动态调整模型的能力。
数据科学家需要设计“监控算法”,以持续监控模型效果的变化、模型逻辑的变化以及数据本身的变化,从而让模型实现自动更新。并且,数据科学家设计的模型在不同应用场景分别学习后,机器便得到了普世智慧,这一技巧可以让算法在新问题中也可以很好的发挥作用。