关于机器学习:5篇关于将强化学习与马尔可夫决策过程结合使用的论文推荐

Rongkai Zhang, Lanqing Guo, Siyu Huang, Bihan Wen

低光图像增强 (LLIE) 是一个广泛但具备挑战性的问题，因为：

1，低光测量可能会因理论状况中不同的成像条件而有所不同；

2，图像可能依据每个人不同爱好有不同的主观操作。

为了解决这两个挑战，本文提出了一种新的基于深度强化学习的办法，称为 ReLLIE。ReLLIE 通过将 LLIE 建模为马尔可夫决策过程，即按程序和循环地预计像素级图像特定曲线。并且从一组精心设计损失函数计算的处分，提出了一种轻量级网络来预计用于启发低光图像输出的曲线。因为 ReLLIE 学习的是策略而不是繁多的图像翻译，因而它能够解决各种低光测量并通过在不同工夫灵便利用策略来提供定制的加强输入。除此以外，ReLLIE 还能够通过应用即插即用的降噪器来加强具备噪声或图像缺失的真实世界图像。与最先进的办法相比，各种基准的宽泛试验证实了 ReLLIE 的劣势。

https://arxiv.org/pdf/2107.05…

Gen Li, Laixi Shi, Yuxin Chen, Yuejie Chi, Yuting Wei

本片论文次要关注离线强化学习 (RL)，它应用事后收集的数据进行学习。无效的离线 RL 不须要进行摸索，并且可能适应散布变动和无限的数据笼罩。先前的算法或剖析要么存在次优的样本复杂性，要么在磨合到最优时会产生十分高的老本，这两个的问题会在样本匮乏的利用中对高效的离线 RL 形成阻碍。而本篇论文证实了基于模型（或“插件”）的办法实现了极大极小最优样本复杂性，并且没有马尔可夫决策过程（MDP）的磨合老本问题。论文的摘要原文如下：

Concretely, consider a finite-horizon (resp. γ-discounted infinite-horizon) MDP with S states and horizon H(resp. effective horizon 11−γ), and suppose the distribution shift of data is reflected by some single-policy clipped concentrability coefficient C⋆clipped. We prove that model-based offline RL yields ε-accuracy with a sample complexity of{H4SC⋆clippedε2(finite-horizon MDPs)SC⋆clipped(1−γ)3ε2(infinite-horizon MDPs)up to log factor, which is minimax optimal for the entire ε-range.

https://arxiv.org/pdf/2204.05…

Guixuan Wen, Kaigui Wu

分类器为决策树的集成学习办法通常属于 bagging 或 boosting。以前没有任何工作通过最大化长期回报来构建集成分类器。本文提出了一种基于深度强化学习的二元分类决策森林的构建办法 MA-H-SAC-DF。首先，将构建过程建模为一个扩散的局部可察看马尔科夫决策过程，由一组合作 agent 独特构建所有根底分类器。其次，基于父节点和以后地位信息定义全局状态和部分察看值; 最初，将目前最先进的深度强化办法 Hybrid SAC 扩大到 CTDE 架构下的多 agent 零碎，以寻找最优的决策森林构建策略。试验表明，MA-H-SAC-DF 在均衡数据集上的性能与随机森林、Adaboost 和 GBDT 雷同，在非均衡数据集上的性能优于它们。

https://arxiv.org/pdf/2204.00…

Flavio Corradini, Miichele Loreti, Marco Piangerelli, Giacomo Rocchetti

论文提出了一个可能依据操作环境变动调整其行为的软件系统的开发通用框架，并命名为 REPTILE。该框架依赖基于深度强化学习的 agent 对可能影响零碎预期行为的事件（称为离奇事件）做出反馈，并且能够以被动的形式进行工作。论文中提到了框架两个新鲜的个性：与上下文 / 环境相干的新颖性和与物理架构自身相干的新颖性。该框架在这些新事物产生之前对其进行预测，提取环境的时变模型，并应用适合的马尔可夫决策过程来解决实时设置，agent 会依据可能采取的口头而倒退。

https://arxiv.org/pdf/2203.14…

Manu Lahariya, Nasrin Sadeghianpourhamami, Chris Develder

当今电网面临的一个次要挑战是治理来自电动汽车 (EV) 充电的一直减少的负载。需要响应 (DR) 解决方案旨在利用其中的灵活性，即及时扭转电动汽车充电的能力，从而防止过高的峰值或实现更好的均衡。只管现有的大多数钻研工作要么专一于单个 EV 充电器的控制策略，要么应用多步骤办法（例如，一个高级总体管制决策步骤和一个单个 EV 管制决策）。本论文提出了一个一次联结协调多个充电点的解决方案，通过应用强化学习 (RL) 解决可能限度其在实践中部署的计算挑战。更精确地说，论文设计了电动汽车充电协调过程的新马尔可夫决策过程 (MDP) 公式，该公式仅体现出线性空间和工夫复杂度 (而不是晚期的二次空间复杂度)。在论文的案例钻研中应用事实世界的 EV 充电会话数据在没有就义最终实现 DR 指标的性能（即在为 EV 齐全充电）的状况下，与所有旧的策略相比，论文提出的 RL 解决方案使训练工夫缩小了 30%，并将充电需要协调的性能进步了 40-50%。

https://arxiv.org/pdf/2203.14…

https://www.overfit.cn/post/0be68dcea51b49fab80f69dcf1eeee06

作者：Monodeep

关于机器学习:5篇关于将强化学习与马尔可夫决策过程结合使用的论文推荐

1、ReLLIE: Deep Reinforcement Learning for Customized Low-Light Image Enhancement

2、Settling the Sample Complexity of Model-Based Offline Reinforcement Learning

3、Building Decision Forest via Deep Reinforcement Learning

4、REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive Framework

5、Computationally efficient joint coordination of multiple electric vehicle charging points using reinforcement learning