关于java:时效准确率提升之承运商路由网络挖掘-｜-得物技术

履约时长是电商的生命线，间接关系到用户的生产体验。新华网 [5]2022 年双十一的报告显示，37.4% 的受访者心愿次日达，29.91% 心愿当日达。相较于其余物品，受访者对手机、电脑、数码产品的物流时效要求更高，更心愿当日或 1 - 2 天内能收到货。
得物履约场景中，次要的阶段包含仓库内生产和第三方承运商配送。在用户领取时，得物会依据仓库的生产状况和运配资源，给用户一个承诺时效。

在履约过程中，得物须要监控订单的流转，及时的发现可能超时的订单（与和用户承诺时效相比），这里蕴含仓库生产的监控和三方配送的监控。在理论过程中咱们发现：配送节点产生变更时，承运商给的预测偏激进的。上面例子中，到了营业部承运商才给到比拟精准的预计送达工夫，故在分拣核心应用承运商的预计送达工夫容易呈现误报。

下图是承运商接口返回的预计送达时效的宽松指数，能够看到在靠近目的地时，承诺时效才比拟精确。

在构建承运商网络之前，须要先理解承运商网络是如何工作的。上面是从 A 网点到 E 网点的配送示意图，分为以下内容：

（1）节点，蕴含的揽收和派送网点以及分拣核心。

（2）线路，包含支线和干线。例如从网点到分拣核心属于干线，从分拣核心到分拣核心属于支线。

（3）班次：承运商为了均衡老本和时效，会设置生产班次。到分拣核心之后，须要依据目的地进行分拣，当达到一定量的货物之后，会从分拣核心登程，返回下一个节点。承运商在设置班次的时候，会思考单量，兼顾运输的老本以及时效。

上图中：以紫色为例，在 A 网点，早上 8 点截单，即 8 点之前交接给承运商的货物，会在 8 点 20 左右实现封车，而后从网点登程，返回 B 分拣核心，达到 B 分拣核心的工夫是 11 点 40，这个时候赶上了 B 分拣核心截单工夫为 12 点的班次，B 分拣核心会在 12：30 实现分拣并返回下一个分拣核心，以此类推实现整个配送过程。

在构建承运商的网络时，须要进行建模。除了节点、线路和班次之外，外围还包含以下两个模型：

（5）成品线，即从 A 网点到 E 网点通过所有节点。上图中：A 网点 - B 分拣核心 - C 分拣核心 - D 分拣核心 - E 网点形成了一条成品线。

（6）成品线波次：因为节点存在波次，所以成品线也存在波次，实际上成品线波次和第一个节点的波次数一样。

在理解承运商网络如何工作后，须要着手构建承运商的网络。承运商回将轨迹信息推送到得物，内容相似以下的文本。

[
    {
"code":"180",
"desc":"快件达到【xxx 营业部】",
"location":{
"city":"xxx 市",
"district":"xxx 县",
"point":{
"latitude":xxx,
"longitude":xxx
            },
"province":"xxx"
        },
"node":"已揽收",
"opeTitle":"站点装箱",
"time":"2022-09-04 17:29:27"
    },
    {
"code":"xxx",
"desc":"收取快件",
"location":{
"city":"xxx",
"district":"xxx",
"point":{
"latitude":28.65,
"longitude":120.07
            },
"province":"xx"
        },
"node":"已揽收",
"opeTitle":"配送员实现揽收",
"time":"2022-09-04 17:29:27"
    }
]

轨迹的文本，须要通过结构化的荡涤之后，能力获取轨迹的含意。对于每一个运单，它的轨迹会通过很多个节点，而每个节点的数据类型如下：

1. waybill_no 示意运单号，同一个运单号会有多条节点记录
2. station_index 示意以后这个节点的下标
3. station_enum 示意这个节点的类型，是分拣核心还是揽派网点
4. station_name 示意节点的名称，例如下面例子里的 xxx 营业部
5. station_status 示意这个节点的状态，例如是进入还是来到
6. operate_time 示意以后节点的操作工夫

承运商网络工作原理提到了承运商会按班次进行生产，从轨迹的后果外面是否能找到班次生产的证据呢。通过剖析，咱们猜测：雷同流向（例如从 A 分拣核心开往 B 分拣核心）来到某个分拣核心（例如来到 A 分拣核心）的工夫应该是绝对集中的。
实时上通过一些简略的聚类办法，证实了咱们的猜测。上面图中，横轴示意的是出分拣核心的小时，每一个点示意历史上的某一个运单，纵轴没有业务含意，只是为了不便显示。

绘制上述图时应用的是 kmeans 聚类算法，kmeans 聚类算法须要指定聚类的个数。故须要应用Knee/Elbow 这类的算法进行聚类数检测，同时它对异样值敏感，故在实现时最终应用的 DBSCAN。

DBSCAN 尽管不须要指定聚类的个数，然而须要指定点之间的间隔以及点的密度，通过重复调整，最终确定这两个外围的参数如下：

clustering = DBSCAN(eps=0.25, min_samples=max(5, int(x.size * 0.02)), metric=metric).fit(x_after_reshape)

其中 eps 为 0.25，即 15 分钟。点密度为 5 和总数的 2% 的最大值。

从下面聚类图看，同一个波次的点可能呈现跨天的状况，即有些点出分拨核心的工夫可能是 23:50，有些分拨核心的点可能是 00:10。这两个点的欧式间隔比拟大，故须要重写间隔的 metrics 函数。

ret = abs(x[0] - y[0])
if ret > 12:
ret = abs(24 - ret)
return ret

剖析节点的生产班次和线路的班次是不够的，还须要将它们进行串联，失去成品线班次，这样能力在售前或者售中进行利用。这里在解决的时候进行了一些简化，一方面是分拣核心的分拣波次是没有方法辨认到的，另外一方面其实能够不必关注分拣核心的分拣波次。
实际上，串联成品线班次的过程是这样的：

外围的代码如下：

    List<NetworkResourceWaveDTO>
next = tmp.getResourceList().get(i)
            .getWaveList();
next.sort(Comparator.comparing(NetworkResourceWaveDTO::getOffTime));
    boolean match = false;
for (NetworkResourceWaveDTO nextWave : next) {if (nextWave.getOffTime() > p.getEndTime()) {
            match = true;
            duration += nextWave.getDurationDay();
            p = nextWave;
break;
        }
    }
if (!match) {duration += next.get(0).getDurationDay() + 1;
        p = next.get(0);
    }
    productLineWave.add(p);
}

从利用的角度，输出条件是买家的四级地址，但承运商网络的起点是派送站点，故须要建设承运商派送站点和四级地址的映射关系。映射关系的建设比较简单，取过来一段时间负责派送该四级地址的站点中，派送该地址单量最多的那个。

Part 3 更像是一个理论家的滔滔不绝，那如何在工程上进行落地呢？这外面蕴含了 ODPS SQL 的开发、UDF 的开发以及 DDD，总之须要十八般武艺。

在班次剖析的过程中，应用到 DBSCAN 的聚类算法。如果在 odps 上应用这些算法呢？实际上 python 外面曾经实现了 DBSCAN 算法，而 odps 反对应用 python 编写 UDF。只是目前 odps 的运行环境并没有装置 DBSCAN 相干的包，故须要手动进行装置，装置的教程能够参考阿里云的官网文档

上述荡涤过程须要每天或者至多一周运行一次，选取过来一个工夫窗口的数据进行训练，失去承运商的网络，这样能力及时的感知承运商网络的变动。这意味着会定时的更新成品线、成品线波次以及节点波次的信息，在在线服务化的过程中，咱们是间接将数据这些数据寄存在 redis 外面。为了不占用太多的内存，通过应用 hash 数据结构对内存进行了一些优化，当然 hash 的一个毛病是无奈为 field 设置超时工夫，这意味着某个 key 的某个 field 数据理论曾经是过期数据了，然而它不会被删除，进而造成透露，但这种透露能够通过其余技术手段解决。

目前咱们曾经构建了第三方承运商网络，首网点预测的准确率在 65% 左右，末分拣预测的准确率在 85% 左右。将来继续优化点包含：班次聚合（对于一些数据比拟稠密线路，须要做班次的聚合）、工夫衰减（荡涤数据须要选取过来一段时间的数据，对于太长远的数据，应该进行衰减，使得它在后果中的奉献小一些）等，置信准确率能有进一步晋升。

[1]. Knee/Elbow Point Detection
[2]. arvkevi/kneed
[3].https://datascience.stackexchange.com/questions/46106/kmeans-…
[4]. https://redis.io/docs/management/optimization/memory-optimiza…
[5]. 用户调研: 往年 11.11 消费者最关注“确定性”京东是八成用户首选 - 新华每日电讯

关于java:时效准确率提升之承运商路由网络挖掘-｜-得物技术

1 引子

1.1 为什么要预测承运商的线路时效

2 承运商网络是如何运作的

3 如何构建承运商网络

3.1 结构化荡涤

3.2 轨迹外面是否真的有班次信息

3.3 聚类参数该如何选取

3.4 如何解决跨天的问题

3.5 线路是如何串联的

3.6 四级地址与揽派网点的关系是如何建设的

4 工程落地的挑战

4.1 如何在 ODPS 进行简略的机器学习

4.2 在线服务化的问题

5 停顿与布局

6 参考文献