关于算法:哈啰顺风车智能交易体系建设上

32次阅读

共计 4196 个字符,预计需要花费 11 分钟才能阅读完成。

导读:7 月 22 日,2022 年 GIAC 寰球互联网架构大会在深圳顺利举办。哈啰高级算法专家王凡老师做了《哈啰逆风车智能交易体系建设》的主题分享。包含以下几大部分:业务背景介绍、智能利用、办法总结。

业务背景介绍

公司背景介绍

哈啰从大家相熟的共享单车业务起步,逆风车业务上线已有三年多的工夫,在从无到有的过程中算法陪伴业务一起成长。“以技术驱动更正当的司乘匹配出行供需,为用户提供更值得信赖的拼车服务”提到的司乘匹配出行供需,实际上就体现出算法在产品当中的价值。

逆风车产品的根本流程

上图是逆风车产品中几个支流的页面。第一个页面是乘客发单,乘客会关上他的界面收回行工夫和目的地,这样就会产生一个订单,订单产生后咱们的零碎就会把订单推送到司机这边。司机在不同的场景下会收到不同的订单,如果司机有本人的路线,他就会收到跟路线比拟匹配的订单;如果司机没有本人的路线,他就会收到本人左近的订单。司机选好单后会去接单,最初就会完单。咱们次要的性能就是发单、接单和完单的过程,还有其余一些辅助的性能。实际上这个过程是一个漏斗,每一个步骤都是会有漏损的。关上 APP 的人必定是数量最多的,但不是所有关上的人都会发单,不是所有发完单的人都会被接单,不是所有接单的都能够完单。这当中的漏损是十分大的,咱们逆风车的产品就是要提高效率,把漏斗最上层的人尽量多完单。

要达成这一指标是非常复杂的,它的复杂性体现在哪里呢?第一个方面体现在内部的市场环境特地简单,逆风车业务是全国性的业务,各个城市的特点不同,还会受到天气等因素影响。第二个方面体现在它是波及到三方的,拿两轮业务来进行比照,它只波及到咱们的用户和平台这两方,但逆风车业务里有司机、乘客、平台这三方,很大水平上减少了问题的复杂性。第三个方面体现在决策环节多,逆风车业务除了有发单、接单和完单,还有很多干线的环节,比方用户发完单之后有可能勾销,司机接完单之后有可能感觉途程太远而勾销,还可能会产生一些投诉而造成散失,因而这当中的决策过程很多。最初一个方面体现在指标体系非常复杂,整个过程中咱们的指标是尽可能让更多人去完单,有可能咱们在做司乘匹配时因为效率优先,可能会疏忽一些用户的体验。

逆风车产品性能汇总

咱们把下面的这些问题汇总一下。最右边是市场环境,就是咱们讲的外部环境特地简单,逆风车产品的经营城市和竞争对手各种各样,司机群体和乘客群体的行为习惯也会不同,还会面临营销估算的限度,因而咱们在不同类型的城市投入的资源也会不一样,这些都是咱们逆风车交易系统的输出。而后乘客就会进行发单,发单后咱们有很多的决策环节,比方订单匹配、定价营销和仲裁,接着司机会完单。最初能够看到,咱们业务的后果也是简单的,包含平台完单量、平台支出、司机接复数、司机支出、乘客的留存率和投诉率。

逆风车问题拆解

咱们对整个过程进行了拆解,首先是订单匹配的问题。市场环境次要看人口个性、司机群体、乘客群体和竞争对手。在乘客发完单后,咱们须要做订单匹配,大家能够看到有一个列表,实际上它是一个举荐零碎。咱们须要对订单进行排序,排序之后司机从这个列表外面选出他最称心的去做完单,最初拿到的业务成果是订单的规模和交易的规模。

拆解的第二个问题是定价和营销,市场环境看司机的密度、乘客的密度、竞争对手和营销估算。输出交易系统后,咱们会在乘客发单前或发单后给到一些营销的办法,在接单的过程中会给到他一些定价。图中定价用红框标了进去,咱们能够实时给出价格,还会有一些实时优惠,这是由营销算法动静生成的。最初给到咱们的乘客之后,乘客用这个价格进行完单。这个场景业务后果是咱们平台的完单量、平台的支出、司机的支出和乘客的留存率。

拆解的最初一个问题是仲裁,也是咱们交易系统里比拟重要的一块。市场环境次要看司机群体和乘客群体,基本上咱们的仲裁都产生在司机和乘客之间,当然也有独自一方的状况。通常乘客在发单到完单的过程中会呈现一些问题,咱们就须要对呈现的问题进行判断,到底是谁的责任,也会做一些相应的解决。最终它会影响的业务后果就是用户的留存率和用户的投诉率这两个要害的指标。从短期的指标来看,咱们看到的是用户的投诉率,但长期来看的话就是用户的留存率。

定义智能利用

咱们对问题进行拆解之后,会依据不同的指标产生不同算法的利用。依据交易效率和业务规模,咱们推导出智能匹配的算法利用;依据支出治理,咱们推导出智能定价的利用;依据营销效率,咱们推导出智能营销的利用;依据用户体验,咱们推导出智能判责的利用。

对于形象的算法问题,咱们也有一套方法论。首先要对价值进行剖析,能够看到至多这里有四个我的项目去做,先做哪个后做哪个我的项目,咱们就须要对价值进行预估。总体来看,智能匹配的价值是最大的,所以咱们在下面最先进行投入,而且投入的工夫最长。从逆风车上线后的短时间内,咱们就开发了智能匹配的一套算法,始终迭代到明天,而且继续在给咱们的业务带来增量的价值。

一旦有了价值之后,咱们就须要对指标做一些量化,就是咱们怎么样去掂量这样的一套指标。比方说交易效率,咱们就定了发完率指标作为一个外围指标,发单的人到完单的人中转化效率越高,就代表交易效率更高。

接着咱们须要做问题的定义,是指咱们机器学习外面是什么样的问题,它是一个分类问题还是回归问题。最初咱们再小心地进行求证,就是说逐渐投入资源进行验证,咱们会尽量减小操作的半径,投入最小的人力把它的成果验证进去。如果能不必算法来验证,咱们会用一些策略来验证。

算法利用

订单匹配

做智能订单匹配前,就像方才讲的那套方法论,咱们要掂量它的价值大不大。逆风车业务跟网约车不一样,它的特殊性决定了做举荐的空间很大。首先从时效性上,网约车个别咱们打了车马上车就会过去,而逆风车有可能是提前一两天打的,至多也是提前几个小时打的。咱们在做匹配的时候,匹配范畴就发的大。其次是从司机上,个别网约车的司机约束力是比拟强的,然而逆风车很多是第三方或私家车的司机,约束力就没有那么强。第三从价格上,逆风车的价格会更便宜。最初从体验上,逆风车会差一点,网约车服务的到位性会更高。

依据逆风车的特点,技术上还是存在很多挑战的。所以逆风车产品不是一个标准化的产品,它的特点就是不确定性高,司机提供的服务差别比拟大,用户的期望值也参差不齐。此外它的配对范畴大,不仅体现在工夫上也体现在间隔上。同时它存在着大量的未知因素,规定很难保障成果。

所以逆风车的技术机会就是好的匹配和不好的匹配策略产生的后果差别十分大,比方在打车外面咱们会把订单派给间隔最近的司机,这样一个简略的策略产生的后果也不会太差,但如果在逆风车这样的场景里,可能产生的后果跟最优的计划成果差距会十分大。另外机器学习也是长于从不确定性中去找到确定性。还有很重要的一点就是这个场景是业务的次要流程,它的后劲是十分大的,咱们的订单十分多,每一个订单都须要通过匹配,匹配的好坏对后果有十分重要的影响。

接下来咱们来看一下智能订单匹配零碎的架构。智能匹配实际上是一个简单的举荐零碎,须要用各种各样的数据,包含离线的数据,比方人口统计、接单偏好、聊天的记录、职业标签、历史完单目的地和轨迹信息。还有实时的一些数据,比方实时点击行为、实时轨迹、实时地块数据。这些都会被拿来用做特色,放到咱们的模型外面。模型作为一个举荐零碎,会有召回、排序和规定引擎这样的步骤,最初计算出一个后果并进行排序,这就是咱们的智能订单匹配零碎的架构。

逆风车的举荐零碎和广告的举荐零碎也会有一些差异。广告的举荐零碎是一个广告库,广告库外面有各种各样的广告,它的量级达到了百万级。首先做一个召回,而后把它放入到一个粗排模型外面,从召回到粗排大略就只剩下几千条或者几万条了。粗排之后会失去一个截断的后果,这个量级大概是几千条。接着就会进入到精排模型,对数千条选中的广告进行比拟精密的排序,它的耗时会比粗排模型的耗时更长。而后选中前几百个,再对他做一个截断,放到重排的策略外面去。重排会依据不同的指标,对它进行一些规定上的排序。最初会推送到用户的前端设施外面,数量在十条左右,这就是用户会看到的后果。它的特点是候选集的数量更大,能够离线计算。而逆风车的举荐零碎是不一样的,咱们有很多货色是要实时计算的。候选集的数量也很大,比如说一个司机当初要去接单,实际上他可能接的单是十分多的,所以召回的数量就须要咱们去用一些规定进行截断,大略有几万条这样的数据。而后咱们也会进行粗排,粗排之后要去对它进行一个排序,接着是重排,最初会有几十条数据显示给司机。与广告不同,逆风车的每一个订单都须要有终点、起点和门路布局,所以须要大量调用地图的服务,对性能也会有十分大的压力。

接下来介绍一下算法的摸索过程。咱们的迭代门路分几个阶段,逆风车业务刚上线的时候是没有算法接入的,起初是一个规定的版本,对每一个订单是否会被完单去进行预测。在这样的根底上,咱们首先做了算法化,因为须要疾速上线,所以咱们用的办法是比较简单的,次要用了线性模型和 lightgbm 这两种形式,在业务晚期的时候就实现了肯定的算法化,过后获得的成果还是比拟显著的。第二个阶段是在 2020 年到 2021 年间,咱们做了深度化的革新。随着数据越来越多,模型慢慢深度化,所以咱们的模型也越来越大,深度也越来越深。在咱们深度模型倒退的趋势里,Wide&Deep 是一个重要的里程碑,在这个阶段咱们也把它利用到零碎当中,训练进去新的模型,它比以前的线性模型和树模型成果更好。基于 Wide&Deep,咱们又去做了 DeepFM 和 xDeepFM,都是业界比拟支流的模型,咱们都一个个去迭代和实现,带来了正向的成果。第三个倒退阶段是定制化,现有的模型曾经不能满足业务持续增长,所以咱们依据业务的特点设计了新的模型。这些模型不是通用的模型,在业界也不是通用的做法。这里咱们去进行了一些革新,依据数据的个性咱们做了实时序列模型,依据模型的构造革新咱们做了多任务模型,依据业务的策略咱们做了智能化的顺路度。通过这样的一系列革新,咱们累计给大盘的订单量晋升了超过 20%,成果十分显著。

下篇将具体介绍订单匹配的排序模型、营销定价和智能仲裁,以及过程中办法经验总结。

(本文作者:王凡)

本文系哈啰技术团队出品,未经许可,不得进行商业性转载或者应用。非商业目标转载或应用本文内容,敬请注明“内容转载自哈啰技术团队”。

正文完
 0