关于人工智能:mlagents项目实践一

本文首发于：行者AI

强化学习 (reinforcement learning) 是机器学习和人工智能里的一类问题，钻研如何通过一系列的程序决策来达成一个特定指标。它是一类算法，是让计算机实现从一开始什么都不懂，脑袋里没有一点想法,，通过一直地尝试，从谬误中学习，最初找到法则，学会了达到目标的办法。这就是一个残缺的强化学习过程。这里咱们能够援用下方图做一个更直观形象的解释。

Agent为智能体，也就是咱们的算法，在游戏当中以玩家的模式呈现。智能体通过一系列策略，输入一个行为(Action)从而作用到环境(Environment)，而环境则返回作用后的状态值也就是图中的察看(Observation)和处分值(Reward)。当环境返回处分值给智能体之后，更新本身所在的状态，而智能体获取到新的Observation。

1. ml-agents

1.1 介绍

目前游戏大部分Unity游戏数量宏大，引擎欠缺，训练环境好搭建。因为Unity 能够跨平台，能够在Windows、Linux平台下训练后再转成WebGL公布到网页上。而mlagents是Unity的一款开源插件，能让开发者在Unity的环境下进行训练，甚至不必去编写python端的代码，不必深刻了解PPO,SAC等算法。只有开发者配置好参数，就能够很轻松的应用强化学习的算法来训练本人的模型。

如对算法有趣味，请点此处能够学习算法PPO，SAC。

<u>更多理解点击返回</u>

1.2 Anaconda、tensorflow及tensorboard装置

本文介绍的ml-agents须要通过Python与Tensorflow通信，训练时从ml-agents的Unity端拿到Observation、Action、Reward、Done等信息传入Tensorflow进行训练，而后将模型的决策传入Unity。因而在装置ml-agents前，须要依据如下链接进行tensorflow的装置。

Tensorboard不便数据可视化，不便分析模型是否达到预期。

装置具体点击返回

1.3 ml-agents装置步骤

(1) 返回github下载ml-agents (本实例采纳release6版本)

github能够下载

(2) 将压缩包解压，把com.unity.ml-agents，com.unity.ml-agents.extensions 放入Unity的Packages目录下(如果没有请创立一个)，将manifest.json中退出此两个目录。

(3) 装置实现后，到工程中就导入后，建设个新脚本，输出以下援用以验证装置胜利

using Unity.MLAgents;using Unity.MLAgents.Sensors;using Unity.MLAgents.Policies;public class MyAgent : Agent{}

2. ml-agents训练实例

2.1 概要及工程

Environment 通常利用马尔可夫过程来形容，agent 通过采取某种 policy 来产生Action，和 Environment 交互，产生一个 Reward。之后 agent 依据 Reward 来调整优化以后的 policy。

本例理论工程参考消消乐规定，凑齐三个同样的色彩即可得分，本实例去除了四个连色及多连的额定处分（以不便设计环境）

工程实例下载处点击返回

Unity工程导出局部请参考官网点击返回。

上面将从四个角度来分享我的项目我的项目实际的办法，接口抽离、选算法、设计环境、参数调整。

2.2 游戏框架AI接口抽离

将工程的Observation、Action须要的接口从游戏中抽离进去。用于传入游戏以后的状态和执行游戏的动作。

static List<ML_Unit> states = new List<ML_Unit>();public class ML_Unit{    public int color = (int)CodeColor.ColorType.MaxNum;    public int widthIndex = -1;    public int heightIndex = -1;}//从以后画面中，拿到所有方块的信息，蕴含所在位置x（长度）,地位y（高度）,色彩（坐标轴零点在左上）public static List<ML_Unit> GetStates(){    states.Clear();    var xx = GameMgr.Instance.GetGameStates();    for(int i = 0; i < num_widthMax;i++)    {        for(int j = 0; j < num_heightMax; j++)        {            ML_Unit tempUnit = new ML_Unit();            try            {                tempUnit.color = (int)xx[i, j].getColorComponent.getColor;            }            catch            {                Debug.LogError($"GetStates i:{i} j:{j}");            }            tempUnit.widthIndex = xx[i, j].X;            tempUnit.heightIndex = xx[i, j].Y;            states.Add(tempUnit);        }    }    return states;}public enum MoveDir{    up,    right,    down,    left,}public static bool CheckMoveValid(int widthIndex, int heigtIndex, int dir){    var valid = true;    if (widthIndex == 0 && dir == (int)MoveDir.left)    {        valid = false;    }    if (widthIndex == num_widthMax - 1 && dir == (int)MoveDir.right)    {        valid = false;    }    if (heigtIndex == 0 && dir == (int)MoveDir.up)    {        valid = false;    }    if (heigtIndex == num_heightMax - 1 && dir == (int)MoveDir.down)    {        valid = false;    }    return valid;}//执行动作的接口，依据地位信息和挪动方向，调用游戏逻辑挪动方块。widthIndex 0-13,heigtIndex 0-6,dir 0-3 0上 1右 2下 3左public static void SetAction(int widthIndex,int heigtIndex,int dir,bool immediately){    if (CheckMoveValid(widthIndex, heigtIndex, dir))    {        GameMgr.Instance.ExcuteAction(widthIndex, heigtIndex, dir, immediately);    }}

2.3 游戏AI算法抉择

走入强化学习我的项目的第一个课题，面对泛滥算法，抉择一个适合的算法能事倍功半。如果对算法的个性还不太熟悉，能够间接应用ml-agents自带的PPO和SAC。

本例笔者最开始应用的PPO算法，尝试了比拟多的调整，均匀9步能力走对一步，成果比拟蹩脚。

起初仔细分析游戏的环境，因为此工程的三消类的游戏，每次的环境都齐全不一样，每一步的后果对下一步产生的影响并没有多大关系，对马尔科夫链的需要不强。因为PPO是OnPolicy的policy-based的算法，每次更新的策略更新十分小心，导致后果很难收敛(笔者尝试了XX布，仍然没有收敛)。

相比DQN是OffPolicy的value-base算法，能够收集大量环境的参数建设Qtable，逐渐找到对应的环境的最大值。

简略地说，PPO是在线学习，每次本人跑几百步后，回过头来学习这几百步哪里做得对，哪里做的不对，而后更新学习后，再跑几百步，如此重复。这样学习效率慢不说，还很难找到全局最优的解。

而DQN是离线学习，能够跑上亿步，而后回去把这些跑过的中央都拿进去学习，而后很容易找到全局最优的点。

（本例应用PPO做演示，后续分享在ml-agents外接算法，应用内部工具stable_baselines3，采纳DQN的算法来训练）

2.4 游戏AI设计环境

当咱们确定了算法框架之后，如何设计Observation、Action及Reward，便成了决定训练成果的决定性因素。在这个游戏中，环境的这里的环境次要有两个变量，一个是方块的地位，另一个是方块的色彩。

--Observation：

针对如果上图，咱们的本例长14、宽7、色彩有6种。

ml-agents应用的swish作为激活函数，能够应用不太大的浮点数(-10f ~10f)，然而为了让agents取得环境更污浊，训练成果更现实，咱们还是须要对环境进行编码。

本例笔者应用Onehot的形式进行环境编码，左上角定位坐标零点。如此下来，左上角的青色方块的环境编码就能够示意为长[0,0,0,0,0,0,0,0,0,0,0,0,0,1],

高[0,0,0,0,0,0,1]，色彩按固定枚举来解决( 黄,绿,紫,粉,蓝,红）色彩[0,0,0,0,1,0]。

环境总共蕴含（14+7+6）14 * 7 = 2646

代码示例：

public class MyAgent : Agent{    static List<ML_Unit> states = new List<ML_Unit>();    public class ML_Unit    {        public int color = (int)CodeColor.ColorType.MaxNum;        public int widthIndex = -1;        public int heightIndex = -1;    }    public static List<ML_Unit> GetStates()    {        states.Clear();        var xx = GameMgr.Instance.GetGameStates();        for(int i = 0; i < num_widthMax;i++)        {            for(int j = 0; j < num_heightMax; j++)            {                ML_Unit tempUnit = new ML_Unit();                try                {                    tempUnit.color = (int)xx[i, j].getColorComponent.getColor;                }                catch                {                    Debug.LogError($"GetStates i:{i} j:{j}");                }                tempUnit.widthIndex = xx[i, j].X;                tempUnit.heightIndex = xx[i, j].Y;                states.Add(tempUnit);            }        }        return states;    }    List<ML_Unit> curStates = new List<ML_Unit>();    public override void CollectObservations(VectorSensor sensor)    {        //须要判断是否方块挪动完结，以及方块结算完结        var receiveReward = GameMgr.Instance.CanGetState();        var codeMoveOver = GameMgr.Instance.IsCodeMoveOver();        if (!codeMoveOver || !receiveReward)        {            return;        }        //取得环境的状态信息        curStates = MlagentsMgr.GetStates();        for (int i = 0; i < curStates.Count; i++)        {            sensor.AddOneHotObservation(curStates[i].widthIndex, MlagentsMgr.num_widthMax);            sensor.AddOneHotObservation(curStates[i].heightIndex, MlagentsMgr.num_heightMax);            sensor.AddOneHotObservation(curStates[i].color, (int)CodeColor.ColorType.MaxNum);        }    }}

--Action：

每个方块能够上下左右挪动，咱们须要记录的最小信息蕴含，14*7个方块，以及每个方块能够挪动4个方向，本例方向枚举（上，右，下，左）。

左上为零点，左上角的青色方块占据了Action的前四个动作，别离是（左上角的青色方块向上挪动，左上角的青色方块向右挪动，左上角的青色方块向下挪动，

左上角的青色方块向左挪动）。

那么动作总共蕴含 14 7 4 = 392

仔细的读者可能会发现左上角的青色方块并不能往上和往左挪动，这时咱们须要设置Actionmask，来屏蔽掉这些在规定上禁止的动作。

代码示例：

public class MyAgent : Agent{    public enum MoveDir    {        up,        right,        down,        left,    }    public void DecomposeAction(int actionId,out int width,out int height,out int dir)    {        width = actionId / (num_heightMax * num_dirMax);        height = actionId % (num_heightMax * num_dirMax) / num_dirMax;        dir = actionId % (num_heightMax * num_dirMax) % num_dirMax;    }    //执行动作，并取得该动作的处分    public override void OnActionReceived(float[] vectorAction)    {        //须要判断是否方块挪动完结，以及方块结算完结        var receiveReward = GameMgr.Instance.CanGetState();        var codeMoveOver = GameMgr.Instance.IsCodeMoveOver();        if (!codeMoveOver || !receiveReward)        {            Debug.LogError($"OnActionReceived CanGetState = {GameMgr.Instance.CanGetState()}");            return;        }        if (invalidNums.Contains((int)vectorAction[0]))        {            //方块结算的调用，这里能够取得处分（这里是惩办，因为这是在屏蔽动作内，训练的时候会调用所有的动作，在非训练的时候则不会进此逻辑）            GameMgr.Instance.OnGirdChangeOver?.Invoke(true, -5, false, false);        }        DecomposeAction((int)vectorAction[0], out int widthIndex, out int heightIndex, out int dirIndex);        //这里回去执行动作，挪动对应的方块，朝对应的方向。执行结束后会取得处分，并依据状况重置场景        MlagentsMgr.SetAction(widthIndex, heightIndex, dirIndex, false);    }    //MlagentsMgr.SetAction调用后，执行完动作，会进入这个函数    public void RewardShape(int score)    {        //计算取得的处分        var reward = (float)score * rewardScaler;        AddReward(reward);        //将数据退出tensorboard进行统计分析        Mlstatistics.AddCumulativeReward(StatisticsType.action, reward);        //每一步蕴含惩办的动作，能够晋升摸索的效率        var punish = -1f / MaxStep * punishScaler;        AddReward(punish);        //将数据退出tensorboard进行统计分析        Mlstatistics.AddCumulativeReward( StatisticsType.punishment, punish);    }    //设置屏蔽动作actionmask    public override void CollectDiscreteActionMasks(DiscreteActionMasker actionMasker)    {        // Mask the necessary actions if selected by the user.        checkinfo.Clear();        invalidNums.Clear();        int invalidNumber = -1;        for (int i = 0; i < MlagentsMgr.num_widthMax;i++)        {            for (int j = 0; j < MlagentsMgr.num_heightMax; j++)            {                if (i == 0)                {                    invalidNumber = i * (num_widthMax + num_heightMax) + j * num_heightMax + (int)MoveDir.left;                    actionMasker.SetMask(0, new[] { invalidNumber });                }                if (i == num_widthMax - 1)                {                    invalidNumber = i * (num_widthMax + num_heightMax) + j * num_heightMax + (int)MoveDir.right;                    actionMasker.SetMask(0, new[] { invalidNumber });                }                if (j == 0)                {                    invalidNumber = i * (num_widthMax + num_heightMax) + j * num_heightMax + (int)MoveDir.up;                    actionMasker.SetMask(0, new[] { invalidNumber });                }                if (j == num_heightMax - 1)                {                    invalidNumber = i * (num_widthMax + num_heightMax) + j * num_heightMax + (int)MoveDir.down;                    actionMasker.SetMask(0, new[] { invalidNumber });                }            }        }    }}

原工程打消过程中应用大量协程，有很高的提早，咱们须要再训练时把提早的工夫挤出来。

为了不影响游戏的主逻辑，个别状况下把协程外面的yield return new WaitForSeconds(fillTime)中的fillTime改成0.001f,这样能够在不大量批改游戏逻辑的状况下，在模型抉择Action后能最快失去Reward。

public class MyAgent : Agent{    private void FixedUpdate()    {        var codeMoveOver = GameMgr.Instance.IsCodeMoveOver();        var receiveReward = GameMgr.Instance.CanGetState();        if (!codeMoveOver || !receiveReward /*||!MlagentsMgr.b_isTrain*/)        {                    return;        }        //因为有协程须要等待时间，须要期待产生Reward后才去申请决策。所以不能应用ml-agents自带的DecisionRequester        RequestDecision();    }}

2.5 参数调整

在设计好模型后，咱们先初步跑一版本，看看后果跟咱们设计的预期有多大的差别。

首先配置yaml文件，用于初始化网络的参数：

behaviors:SanXiaoAgent:trainer_type: ppohyperparameters:batch_size: 128buffer_size: 2048learning_rate: 0.0005beta: 0.005epsilon: 0.2lambd: 0.9num_epoch: 3learning_rate_schedule: linearnetwork_settings:normalize: falsehidden_units: 512num_layers: 2vis_encode_type: simplememory: nullreward_signals:extrinsic:gamma: 0.99strength: 1.0init_path: nullkeep_checkpoints: 25checkpoint_interval: 100000max_steps: 1000000time_horizon: 128summary_freq: 1000threaded: trueself_play: nullbehavioral_cloning: nullframework: tensorflow

训练代码请参照官网提供的接口，本例应用release6版本，命令如下

mlagents-learn config/ppo/sanxiao.yaml --env=G:\mylab\ml-agent-buildprojects\sanxiao\windows\display\121001display\fangkuaixiaoxiaole --run-id=121001xxl --train --width 800 --height 600 --num-envs 2 --force --initialize-from=121001

训练实现后，关上Anaconda，在ml-agents工程主目录上输出tensorboard --logdir=results --port=6006，复制http://PS20190711FUOV:6006/到浏览器上关上，即可看到训练后果。

(mlagents) PS G:\mylab\ml-agents-release_6> tensorboard --logdir=results --port=6006TensorBoard 1.14.0 at http://PS20190711FUOV:6006/ (Press CTRL+C to quit)

训练效果图如下：

move count 为消掉一次方块，须要走的均匀步数，大略须要9布能力走正确一步。在应用Actionmask状况下，能够在6步左右打消一次方块。

–Reward：

依据下面表格的Reward，查看处分处分设计的均值。笔者喜爱管制在0.5到2之间。过大过小能够调整rewardScaler。

//MlagentsMgr.SetAction调用后，执行完动作，会进入这个函数public void RewardShape(int score){    //计算取得的处分    var reward = (float)score * rewardScaler;    AddReward(reward);    //将数据退出tensorboard进行统计分析    Mlstatistics.AddCumulativeReward(StatisticsType.action, reward);    //每一步蕴含惩办的动作，能够晋升摸索的效率    var punish = -1f / MaxStep * punishScaler;    AddReward(punish);    //将数据退出tensorboard进行统计分析    Mlstatistics.AddCumulativeReward( StatisticsType.punishment, punish);}

3. 总结及杂谈

目前ml-agents官网做法应用模拟学习，应用专家数据在训练网络。

笔者在此例中尝试PPO，有肯定的成果。但PPO目前针对三消训练起来有肯定难度的，比拟难收敛，很难找到全局最优。

设置环境和Reward须要谨严的测试，否则对后果会产生极大的误差，且难以排查。

强化学习目前算法迭代比拟快，如果以上有谬误的中央，欢送斧正，大家一起提高。

因篇幅无限，不能把整个我的项目的代码全放进去，如有趣味钻研的同学，能够在下方留言，我能够残缺我的项目通过邮箱的形式发给大家。

后续将分享在ml-agents外接算法，应用内部工具stable_baselines3，采纳DQN的算法来训练。