今天我们探讨一下,数据智能化的发展道路将会是什么样子的,想象一下未来数据智能化后可以给我们带来多么大的影响,可以出现在我们身边的那些方面,以及将会对我们的帮助。我们将借助三个数据智能化的案例来进行探讨理解数据智能化道路所给我们造成的影响和帮助,以及想象数据智能化后可以应用的工作领域。
- 案例一:基于时间序列的患病人次预测与监控
- 案例二:基于患者行为模式异常的医保反欺诈监控
- 案例三:终极战场:智慧医疗
案例一:基于时间序列的患病人次预测与监控
一个四两拨千斤的数理统计分析的案例
案例分析流程
1.1 背景介绍与分析目标
背景介绍
如今,定量化的了解区域内居民医疗卫生服务需求,对于合理制定区域卫生规划、优化医疗卫生资源配置、提高医疗卫生服务质量和效率,切实有效的缓解群众看病难、看病贵的状况,有着显著的现实意义。
目标分析
对目标的分析主要围绕三点:
- 高精度
- 动态预测
- 可扩展性
高精度
高精度指的是,在本次案例中假设针对某市患病的人次进行每个月的预测,并且希望能够将误差控制在 5% 左右,在确定模型稳健性之后既可通过预测序列和实际序列的比对来查找患病人次异常的时间点。
动态预测
我们可以使用一种确定的模型进行长期的迭代预测,并且要求能够预测每年患病人次序列的波峰变化情况。
可拓展性
在确定一种模型或方法后,能够应用到不同细分序列 (如不同地区、不同人群的患病人次序列)、平行序列(如人次和金额序列) 的预测当中,并且可以通过平行序列的比对来查找异常点。
1.2 模型选择
编辑时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。在时间序列是一种以时间为自变量的特殊的回归,当序列本身呈现一定规律性、或与因变量相关的自变量都与时间有关时,可考虑使用时间序列模型进行预测。本案例中,时间序列起到的作用则是对诸多不确定性影响因素综合后的确定性影响效果进行捕捉。
1.3 建模分析
作为数理统计范畴内经典的回归类方法,它的建模过程主要分为:
- 假设检验:使用 ACF 和 PACF 进行检验
- 参数设置:根据检验结果,选择 Holt-Winter 三参数指平滑法
- 结果输出:输出模型的结果
- 结果评估:对结果进行评估,是否通过白噪声检验,即规律性是否捕捉完全
1.4 模型优化
模型优化不仅是针对数理统计,很多机器学习算法也是一样,建模容易优化难,大多数模型的使用口径较宽,优化过程才是整个建模过程的关键。优化的过程如下:
原始模型结果
对于时间序列而言,只要通过了白噪声检验,就说明时间序列已经尽最大努力将与时间相关的规律性捕捉完全,但此时预测结果与实际值仍有 10% 左右误差
X-11 过程分解
X-11 模型是基于因素分解定理的确定性时序分析方法,其基本思想是将非平稳序列的确定性分解并提取,一般采用移动平均方法,包括简单中心平均移动、Henderson 加权移动平均和 Musgrave 非对称移动平均等将序列趋势(包括线性趋势、非线性趋势)季节效应提取出来,而通过观察循环校正后的序列就能够判断是否有其他强影响因素对序列进行扰动并影响预测精度,即可以判断是否需要在时间序列模型中引入事件变量,同时由趋势项亦可看出序列的分布趋势。
引入事件变量
根据 X -11 过程分解中曲线平滑度,判断随机影响因素,并将其量化为事件变量,引入模型,对结果进行修正。
优化后的输出结果
经过输出结果与事件变量的交互式调整,最终把误差控制在 10% 以内。
1.5 提交结果
最终,我们对输出结果进行可视化呈现,此处仅作对报告中结果(非产品界面)进行简单呈现。
结果分析
以季度为单位进行迭代式动态预测,以误差率作为评判指标,预测集和训练集无交集,可见模型较为稳健,并将误差率控制在 5%-10% 左右。
到这里为止,就算完成了一个经典的数据分析的流程。
数理统计分析
用数理统计算法落地实践应用的绝佳案例—所谓数理统计学方法,是指在低维、少量样本下对数据进行离线批处理的、从数学原理出发向外求进行印证的一系列算法。
舍恩伯格曾在《大数据时代》中断言:随着“全样本”的出现,针对低维、少量样本的数理统计学方法将逐渐失去其价值,其实从现在看来,并非如此。随着数据价值被更加普遍的认识,越来越多的算法被人们尝试、更多算法在更广阔空间内的价值被挖掘,数理统计算法就是其中典型之一。
数理统计分析方法的优点与局限性
提取更加抽象的规律
在做统计分析的时候数据通常出现的问题有四点:
- 特征本身,包括很多突发因素无法量化
- 部分数据本身无法采集
- 交叉因素影响作用无法衡量
- 个体表现与群体行为差距较大
并且通常而言,进行预测首先必须选取与之相关的特征变量,然后通过特征变化情况来判断预测变量的变量情况。但数理统计算法却在此案例中就适时的避开了这点。
更便捷的可扩展性
一个优秀的模型,不仅应该具备算法上的稳健性,还应该具备应用上的可扩展性。由于时间序列提取的是一般规律,因此可扩展性更强。
并且时间序列还可以进行细分工作:
- 时间细分:
- 对于时间序列模型而言,模型还支持进一步细分时间点,如按周预测等,其基本方法和流程不变。
- 地域细分:
- 时间序列模型可进一步针对不同地域的患病人次进行预测,甚至可以细分至部分大型医院、某居住人数较多的社区等。
- 水平细分:
- 值得一提的是,时间序列模型还能够使用其他相关性较强的序列,如医院端收费金额序列,进一步,通过二者序列的联合判别也就是多维时间联合判别,既可达到较好的预测效果,也能够对异常点进行监控。
- 设计联合判别统计量
- 根据统计量分布判别异常
数理统计算法局限
数理统计算法核心问题是:数据利用率太低,只能处理结构化、且内含与算法相匹配的规律的数据,且在所处理的数据量级上也有一定局限。
当然,局限也源于需求升级,例如:09 年的全美流感预测,需要更高精度、更小的范围内、考虑突发事件的预测。
而谷歌流感预测 - 就是一个从小数据预测到大数据预测的经典案例:
谷歌当时纳入更多维度的数据,包括搜索引擎数据等,最终让谷歌在全美流感趋势预测中能够提前一天预测到全美各个地区流感爆发趋势,而美国疾病控制中心要在流感爆发两周后才能够知道。而单纯依靠数理统计算法是无法做到这点的。
时代的突破
大数据时代
现在我们现在需要面对的就是大数据时代,经过相互促进,协同发展滞后,大数据时代标志的来临,并且在需求驱动下,在三方面都已经有了突破。
- 数据层突破
- 计算能力突破
- 算法突破
数据层的突破
伴随着数据从结构化到非结构化、数据量由小到大、数据维度由低到高,数据层在每一层都有了突破
第一阶段是运营式系统,伴随着数据库的出现使得数据管理的复杂度大大降低, 数据往往伴随着一定的运营活动而产生并记录在数据库中, 数据的产生方式是被动的
第二阶段是用户原创内容阶段,数据的爆发产生于 Web2.0 时代, 而 Web2.0 的最重要标志就是用户原创内容,并且伴随着智能手机等移动设备加速内容产生,而且数据产生的方式都是主动的。
第三阶段是感知式系统阶段,感知系统的广泛使用,伴随着人类社会数据量第三次大的飞跃最终导致了大数据的产生。
信息技术以及计算能力突破
以存储容量、网络宽带及 CPU 计算能力为核心一系列的技术突破。
存储设备容量不断增加
网络宽带不断增加
CPU 计算能力大幅提升,以 ApacheHadoop 为核心的分布式集群的诞生极大的提高了单价所能买到的计算性能,同时,以云计算为代表的一系列技术进一步提高了计算资源的可获取性。
算法的突破
不论是从 KDD 到数据挖掘还是从机器学习到深度学习,数据层的突破导致算法适用面的多样化;计算机计算能力的提升则进一步导致算法设计层的突破;而持续不断增加的数据分析需求及社会对于数据分析的期望度,则进一步加快了算法的迭代速度。
案例二:基于患者行为模式异常的医保反欺诈监控
大数据时代中的大数据分析
背景介绍
随着社会老龄化程度加深,我国各地医保压力持续增加,部分地区已经面临穿底风险,并且传统的医保反欺诈检测面临着以下的困境。
老龄化
- 随着社会老龄化程度不断增加,医保支出逐年增加,在医保骗保问题没有得到有效解决之前,医保面临压力也是与日俱增。
检测效率
- 传统医保反欺诈检测主要依靠人工抽查审核,不仅检测效率较低,许多新形式的骗保模型也无法通过经验迅速判别,这也是长期以来医保欺诈问题没得到有效解决的原因之一
暗箱操作
- 有人就会犯错,有政策就会有对策,部分医保局甚至存在对医保骗保睁一只眼闭一只眼的态度,有的则会更甚。
亡羊补牢
- 通过抽查进行人工审核,无法在就医行为发生时就及时对骗保行为进行制止,就算判别为欺诈,很多时候也都是”人去财空“
在此背景下,利用大数据的方法,对医保骗保行为进行智能识别,在骗保行为发生的第一时间进行识别与制止,则能够起到较好的反欺诈效果。
患者就医行为模式抽象
首先,抽象定义事件和时间,以及其属性。
- 事件:患者与医院进行一次交互的抽象
- 事件属性:在抽象的事件中针对某些目的所赋予事件的标签
- 时间:两次时间之间的时间间隔,根据决策树分类结果进行分箱的结果
接着,将就医路径抽象成为有时序关系的事务集。
数据挖掘与机器学习
我们可以通过数据挖掘与机器学习来完成这项工作,有多种算法可以具体的使用。并且算法伴随着以下的发展,逐渐的可以帮助我们去预测更多的应用场景。
- 算法大爆炸
- 数据量的积累和数据维度的拓展,以及计算能力的廉价性和更易获取性,给更小范围、更精细的数据分析提供了可能,在需求推动下各细分领域内的算法不断丰富不断迭代,可以这么说,算法数量正在呈指数级增长。
- 算法快速迭代
- 算法本身往往是因需求导向而诞生,也因实际应用情况而不断迭代。而且随着实际应用的不断深化。
- 算法职能分化
- 算法研发和算法执行也逐渐成为两个相对独立的职能,算法研发更加侧重于根据算法底层数学原理对算法进行研发,而算法执行则更加侧重于算法的集成、使用、调优与反馈。而与以往相同,分工将进一步促进生产效率的提升。
分布式算法执行
借助分布式集群、Hadoop 生态进行算法执行,但是需要根据一定场景来使用创造的工具,否则也必将反过来影响使用者
- 通过利用分布式的存储、计算框架,完美解决分析过程中数据量大、中间结果多,无法单机运行等问题。
- 能够直接嵌入产品,从而加快产品开发过程。
- 可以进行流式处理,用户可较为快速得到响应,并在第一时间予以回复,从而缩短了算法得到反馈、建立闭环的时间,加快了算法迭代速度。
- 利用 MLlib 和 systemML,使得算法开发相对独立、算法使用相对灵活,通过建立机器学习流,提高算法复用率,极大程度简化调参过程,加快了算法开发效率。
数据智能
有关数据智能的概念 阿里集团学术委员会主席、湖畔大学教育长:曾鸣 提出
他认为数据智能的概念为:如今人工智能的技术核心,其实是机器用笨办法去算,它的所谓学习是通过概率论的方法,不断地去通过正反馈来优化结果,而不是像人一样去思考学习。这种机器学习的方法必须基于海量数据的校验,必须基于算法的一个不断反馈调整的过程。
并且他认为局限是并存的:局部最优不代表全局最优;对于大多数不能自适应调整算法结构的机器学习算法,在解决系统性问题时往往显得心有余而力不足;一味强调可解释性,是数据智能的大敌。
算法可解释性困局及数据产品化
在企业转型发展的道路上,认知的局限,才是最大的障碍
目前来说绝大多数企业对数据的应用其实都停留在案例二所处的阶段上,在现实应用情景当中,最大的误区就是强调算法可解释性而忽略数据产品化带来的反馈闭环对算法优化及其带来的价值。
局部最优并不等于全局最优,对于大多数不能自适应调整算法结构的机器学习算法,在解决系统性问题时往往显得心有余而力不足。
案例三:终极战场 - 智慧医疗
面对更高维度、更复杂、更系统性的问题,要么等待技术突破,要么建立算法反馈闭环
背景介绍
我们可以通过数据规整化输入,包括一般诊断数据、患者生物属性、社会属性等。经过智慧医疗系统得到一个规整输出的结果,包括疾病诊断、诊疗方案等。
所谓智慧医疗,就是我们希望能够做到病前提前预警、病中智慧诊疗、病后健康追踪、提供一整套的疾病治疗方案和健康解决方案。
智慧医疗的困境与出路
困境:系统性问题
- 在复杂网络中进行精准预测,训练算法所需数据维度过高、数据量过大
- 患病本身受到不可预测偶然性因素影响较大,如天气、外事活动带来的交叉感染等
- 可解释性相关矛盾日益尖锐
出路:靠系统性解决方案解决
- 数据突破,物联网 IoT 的发展、Web3.0 智能穿戴等
- 计算能力进一步突破
- 算法突破,算法内部趋于黑箱,从算法设计跃迁至算法结构设计
- 放弃可解释性,通过产品化建立算法反馈闭环,加快算法迭代速度
突破与升级
数据突破
按照数据智能思考框架进行思考,要解决升级的需求,首先要做到的就是数据突破,通过个体的基因序列数据,经过 Web3.0、智能穿戴、健康穿戴,来打破数据孤岛,关联更多维度的数据。
计算能力持续升级
计算能力升级分为硬升级与软升级 硬升级分为:
- 硬件升级
- 更廉价的计算能力
- 更大的存储空间
- 甚至是实现计算能力的跨越式发展和量子计算机的诞生
- 软升级分为:
- 计算方式升级
- Hadoop 生态组建自诞生起就在疯狂生长迅速迭代
- 计算引擎迭代:从 MapReduce 到 Spark,再到 Flink
- 存储方式迭代:从 HDFS 到 NewSQL 再到 NoSQL
硬升级与软升级是相互促进和相辅相成的,而算法结构优化、获取计算资源更加便捷、算法研发与执行的进一步分工等,进一步的提高了计算资源的使用效率。
算法突破
第一代人工智能:基于规则的“智能”,典型代表是 IBM 的深蓝(Deep Blue)
1997 年 5 月 11 日,美国IBM公司研制的并行计算机“深蓝”击败了雄踞世界棋王宝座 12 年之久的卡斯帕罗夫。国际象棋每一步的选择以及应对对手某一特殊步骤的最优方案是确定的,只要足够多的定性棋谱以及足够大的计算速度,就能够在对手走任何一步的时候准确判断出下一步应该如何走,就本质上而言,1997 年的深蓝是基于规则的人工智能,深蓝本身并不会创造新的战略战术。
第二代人工智能:能够自主学习的人工智能,典型代表:谷歌(AlphaGo)
2016 年 3 月 9 日到 15 日,阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行。比赛采用中国围棋规则,最终阿尔法围棋以 4 比 1 的总比分取得了胜利。
2017 年 5 月 23 日到 27 日,在中国乌镇围棋峰会上,阿尔法围棋以 3 比 0 的总比分战胜排名世界第一的世界围棋冠军柯洁。在这次围棋峰会期间的 2017 年 5 月 26 日,阿尔法围棋还战胜了由陈耀烨、唐韦星、周睿羊、时越、芈昱廷五位世界冠军组成的围棋团队。
数据变为无限,世界将会是怎么样,百战百胜的 AlphaGo Zero
2017 年 10 月 19 日,谷歌 DeepMind 团队在 Nature 发表论文,以《Mastering without human knowledge》为名,详细介绍了没有再用人类历史棋局作为训练样本,训练过程从随机开始,通过左右互搏精进棋艺,最终以 100:0 战胜了 AlphaGo 的 AlphaGo Zero。
但目前来说,智能的信息透明,规则透明,结构明确,且因为围棋规则和判断棋局的输赢本身也是一种监督信号,所以总的来说智能现在尚未脱离人类控制,进行自主的学习。
数据智能之路
简单的回顾一下,数据智能之路分为三步:
- 小样本、数理统计方法、单机运行
- 海量数据、机器学习与数据挖掘、分布式运行
- 数据突破、计算能力突破、算法突破
数据智能之路将会是以创造社会价 值的需求为导向,并且技术突破会伴随着对数据的价值认知不断的提升,最终数据智能将会成为未来商业的核心。