共计 3366 个字符,预计需要花费 9 分钟才能阅读完成。
一、
数据就是生产力。笔者两年前在袋鼠云做的国内某省一个交警项目上,面对着海量的车辆轨迹数据时,第一次感受到什么是数据的力量。
该项目是一个非常典型的数据中台项目,主要数据资源有:省内机动车辆数据、驾驶员数据、交通违章数据、公安系统等相关数据。核心数据是通过摄像头识别到的车辆轨迹数据,包含:车辆牌照数据、采集时间和采集地点数据,以及部分公路上获取到的移动电子设备数据。
袋鼠云的团队利用这些数据做了以下应用:
车码合一算法
利用已掌握的移动设备轨迹数据和车辆轨迹数据,来计算移动设备和车辆的匹配关系(由于这两种数据由两套设备分别采集,数据获取存在一个不确定的时间差,且每个采集点都是多车辆同时通过,所以无法直接判断哪个移动设备是在哪个具体车上)。
为了解决这个问题,该项目起初的算法采用「概率计算模式」,匹配时间长,匹配准确率低。袋鼠云选择采用了另一个逻辑匹配方式,实现了一辆汽车经过两三个检测点,就能够知道该车中的乘客所持移动设备与车辆的匹配关系,而且一旦匹配成功,即为确定关系。
该算法目前已申请专利,详情还可查看专利
专利名:一种交通监控数据匹配方法、系统及存储设备
申请人:杭州玳数科技有限公司
申请日:2017-09-22
主分类号:G08G1/01(2006.01)I
通过该算法,最终我们可以清晰地了解到手机与车辆对应的实时详细信息,最后对手机与车辆的关联关系进行汇总统计,为案件侦破提供数据支持。
黑车标签
以前,非常有经验的交警才可以很明显地根据车辆轨迹数据,发现疑似黑车的车辆。如何将经验转化为通过统计学的方式进行黑车标记,我们团队成功探索出了以下三种方式:
一种是「专家经验算法」,预制专家模型,筛选黑车。
另一种是标定所有出租车,然后用出租车轨迹模型来构建「黑车轨迹模型」。
第三种是在第二种方法的基础上,「利用确认的黑车结果,反向对模型进行再次优化」。几种算法使用后,我们可以拿出该城市的详细黑车名单。
运毒车辆模型
我们利用「专家模型」,在海量车辆轨迹中寻找和标定可疑车辆,并对车辆当前轨迹进行实时分析和判断,将以往在高速上某一时间段内的逢车必查模式,变成了逢车必查和重点车辆预警结合模式,从而使得黑车筛选效率大幅提升。
当我们的团队,在计算机屏幕和交警监控大屏后辅助公安干警抓获一个一个犯罪嫌疑人的时候,笔者感觉自己的团队正在触碰一个传统业务中从未触碰到的领域。全知和全能是用来描绘造物主的,虽然我们还离这个定位有着遥远的距离,但已然真实地朝这个方面迈出了坚实的一步。
二、
数据是生产力。
笔者要讲的另一个例子是「国内某知名电商平台」对顾客所做的「标签体系」。这个也算是一个业内半公开的例子了吧,据说该企业对顾客的标签在 3000 个以上,也有一个讲法是该平台比你更了解你的老婆。
曾经有人认为电子商务是一个零和游戏,只是把传统渠道中的一部分钱抢夺了过来而已。
其实,电商充分地利用了其所掌握的大量客户行为数据,精准描绘用户画像,然后通过精准的营销方式极大激发了用户的购物欲望(买买买),从而创造出更多的消费需求。据笔者不准确估算,该企业每年在数据上所投入的成本应当是以百亿计(几万个节点的存储,15% 以上的员工为数据相关人员)。商人是逐利的,可以想象这些投入所带来的商业产出又有几何。
数据是每个人最原始的一种欲望。如果数据真的极大丰富了,笔者也许会希望知道天空中某只鸟儿何时发出过一声鸣叫,遥远的海边是否又有一朵溅起的浪花,深邃的宇宙中某个不知名的星球上是不是在发生过一场空前的风暴。然而这些最原始的渴望在种种现实条件的约束之下被深深的隐藏了起来。
当前的时代,随着信息化和互联网化进程的完善,人们各种行为的上线让我们有机会积累大量的数据,这给了我们一次小小的契机,可以利用大数据处理技术将这些源数据变成一种新的生产力,谁能够优先地掌握和使用好这种力量,就必定会对企业整体能力带来又一次的提升。
三、
数据是生产力,可以作用于企业的方方面面:
描绘事实
无论是描述“事”,还是描述“物”,用数据说话永远都显得更准确一些。即使远隔千里之外,只要把主要经营指标显示出来,那么一个企业大体上的业务情况就能够了解到,正所谓运筹帷幄之中,决胜千里之外。
数据便是对客观业务关键要素的一种提炼和抽象。好比医生看患者,先不管高矮胖瘦,看病之前,做上一系列检查,然后得到各项身体体征数据,对病人的整体情况也就有了一个基本的了解。
又好比笔者的团队,目前有多少个项目,哪些赚钱,哪些不赚钱,每个项目都进展到了什么程度,投入了多少人,花了多少钱,收了多少钱,还有多长时间做完,有没有什么风险等等,都是笔者要花很多时间每周都去梳理的。
然而:
在很多企业中即使是最基本的用数据描绘清楚业务,并在第一时间获取到这些数据这个需求都往往得不到满足。
洞悉细节
数据会比人更加精准和敏感,通过数据可以相对容易地发现事物之间的隐秘关系。笔者上面所提到的车码合一算法就属于这个范畴。
最简单的关联商品分析也可以在实际应用中取得巨大成果。拿笔者在袋鼠云负责实施的一个项目举例:在该客户的线下零售门店中,我们在顾客完成商品购买时,利用管理「商品关联分析」和「顾客消费偏好分析」的「综合推荐结果」,在顾客购物小票下方打印一个实时的促销小票,推荐一款或者几款关联商品并给予一定折扣。根据最后的统计,这个动作为平均为每个门店提升了八到十个点的营业额。
数据智能
相对基础的算法就能够解决企业中的很多问题,尤其是面对大规模生产和运营场景的时候,往往依靠人的经验就会变得非常被动。基本的统筹算法还有最优效益的求解分析,会为日常工作很多的指导。线上数据的丰富和机器学习算法一方面让以往很多场景形成完整的「数据闭环」,另一方面也可以借助众多的数据进一步优化算法模型。当丰富的数据量和数据计算引擎都具备时,算法工程师会为企业创造很多意想不到的收获和惊喜。
四、
数据是生产力,但有时候也会是一种桀骜的力,用得不好,不但浪费了企业投入的大量资本,更让业务上的一系列配合动作无果而终,甚至伤到企业元气,表现在以下几个方面:
只重视「数据应用」,不注重「数据获取」和「数据质量治理」。
不能够清晰地知道一个数据应用所对应的「数据供应链」,从而无法评估获取最终数据的整体成本、过程与时间周期,很多应用对这个过程估计不足,最后无果而终。
过于关注大数据的故事,而忽视了很多基础的业务统计工作。
数据化本身比较复杂,而且也非常综合,不是一种力量就能够解决的(是企业级战略,而不是部门级工作)。
数据化缺乏整体架构和规划,小需求难以驱动基础平台建设(要集中力量办大事,基础平台问题要在企业整体层面统一解决)。
所以大部分的企业在这种力量面前,都显得犹豫不定和裹步不前,很多“理智”的企业则是驻足观望等待结果,只有少数头部客户有勇气和担当做一个探索者和先行者,尝试启动企业全面数据化的转型工作。
袋鼠云从成立之初便伴随着数十个行业头部客户,一起进行企业全面数据化转型建设。这个过程无疑是艰辛的,但也是收获丰富的。后续的文章中,笔者会成体系的分享出来,与广大读者交流探讨。
下期预告
企业数据化的建设,更多的要依靠规划和设计来驱动。
我们期望把这种规划和设计变成一个可见的,可以使用的引擎用以驱动整个企业数据化建设。
笔者用一个比喻来形容整个过程。我们把数据比作最原始的食材,业务方比作食客,数据团队是厨子,数据中台是厨房。
如何烹饪好“企业数据化建设”这盘菜,且看
袋鼠云数据中台专栏 V2.0 第三期:企业数据化认知 — 数据化建设三范式
敬请期待!
本文作者
张旭(花名:老虎)
袋鼠云解决方案与交付副总裁
原用友股份应用集成业务部总经理,主数据管理专家、业务创新带头人
曾主导数十家国内 500 强企业的数字化建设原型项目的规划与落地
拥有十多年企业服务和项目管理实施经验
相关阅读
袋鼠云数据中台系列专栏 V1.0
浅析数据中台策略与建设实践
数据资源规划与获取
数据质量分析及提升
数据中台设计与数据资产管理
数栈,企业级一站式数据中台 PaaS
企业数据指标的那些事儿
用户标签体系建设的四字箴言
数据应用与规划
袋鼠云数据中台团队 2018 年低调出品
关于袋鼠云
袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。