关于算法:图神经网络强化学习

44次阅读

共计 1599 个字符,预计需要花费 4 分钟才能阅读完成。

拜访【WRITE-BUG 数字空间】_[内附残缺源码和文档]

车辆门路布局问题(VRP)是运筹优化畛域最经典的优化问题之一。在此问题中,有若干个客户对某种货物有一定量的需要,车辆能够从仓库取货之后配送到客户手中。客户点与仓库点组成了一个配送网络,车辆能够在此网络中挪动从而实现配送工作。在求解此问题过程中,须要优化的决策变量为每个客户的配送工作应该调配到哪一辆车上,以及每辆车实现客户配送工作的先后顺序,优化指标为最小化车辆总行驶间隔和应用的车辆数。

一、试验要求
复现以下论文的办法和后果:
Duan,L., Zhan,Y., Hu,H., Gong,Y., Wei,J., Zhang,X., Xu,Y.: Efficiently solving the practical vehicle routing problem: A novel joint learning approach. In: KDD. pp.3054–3063 (2020)
1.为了节省时间,训练用 10 个(或以上)的城市规模的算例。测试算例用 20 个(或者以上)规模。
2.显示出算法训练收敛过程,可视化最初的解。可能的状况下,比照 OR-Tools 的求解成果(前面详细描述)。
二、导言
车辆门路布局问题(VRP)是运筹优化畛域最经典的优化问题之一。在此问题中,有若干个客户对某种货物有一定量的需要,车辆能够从仓库取货之后配送到客户手中。客户点与仓库点组成了一个配送网络,车辆能够在此网络中挪动从而实现配送工作。在求解此问题过程中,须要优化的决策变量为每个客户的配送工作应该调配到哪一辆车上,以及每辆车实现客户配送工作的先后顺序,优化指标为最小化车辆总行驶间隔和应用的车辆数。

故外围优化的指标为车辆总的固定成本 + 运输成本,VRP 问题最简略的模式就是使车辆具备容量的束缚(装载量无限)。每辆车从给定的节点登程和返回,优化的指标就是车辆相干费用和配送间隔的函数。目前的钻研工作分为两个流派:一种是通过运筹学,另一种是深度学习。运筹学的办法是把 VRP 定义为数学优化问题,通过准确或启发式算法达到最优或者近似最优解,然而实在场景的数据量下须要破费的工夫很多。而对于深度学习,之前的钻研是在人工生成的数据集上,疏忽了真实世界的运输网络。在实在 VRP 问题数据集上,没有一个办法能比得上 OR-tools,于是便想着提出一种新的办法。

三、算法流程
这里次要是将论文中的算法联合我本人的了解再形容一遍
Problem Setup: Graph Optimization Perspective
首先从图优化的视角来形式化的形容以下 VRP 问题。一个 VRP 实例,能够看做一张图 $G=(V, E)$,其中顶点汇合: $V={0, \ldots, n}$, 其中 $i=0$ 示意 depot, $i=1, \ldots, n$ 示意客户,边汇合: $\quad E=\left{e_{i j}\right}, i, j \in V$。

depot 节点只有坐标特色 $x_{0}^{c}$,而其余客户节点有坐标特色和需求量特色,因而是一个二维特征向量 $x_{i}=\left{x_{i}^{c}, x_{i}^{d}\right}$,其中 $ x_{i}^{c}, x_{i}^{d}$ 别离是坐标特色和需求量特色。每条边关联两个节点之间的间隔为 $m_{i j}$。

假如有:VRP 是生成一个 tour 汇合,每个 tour 代表了一个车辆的门路,从节点 0 登程,在节点 0 完结,每个客户被服务一次且仅一次,每辆车的负载不超过它自身的容量,指标是最小化总体破费。

那么,模型的指标是生成一个客户的序列: $\pi=\left(\pi_{1}, \pi_{2}, \pi_{3}, \ldots, \pi_{T}\right)$ 其中, $\pi_{t} \in{0,1, \ldots, n}$, 并且 $\pi_{0}$ 能够呈现屡次,其余节点只能呈现一次。因而,每两个 $\pi_{0}$ 之间的序列就是一辆车的路线。

正文完
 0