关于人工智能:2024年2月深度学习的论文推荐

咱们这篇文章将举荐 2 月份公布的 10 篇深度学习的论文

https://arxiv.org/abs/2402.14083

Searchformer 是一个基于 Transformer 架构的人工智能模型，经过训练能够模仿 A 星寻路算法，在简单的布局工作中实现更高的效率。它在 Sokoban 谜题中的体现优于 A 星，解决问题的准确率为 93.7%，所需步骤缩小 26.8%。

这是一个很有意思的钻研，对寻路算法感兴趣的能够认真钻研一下

https://arxiv.org/abs/2402.13753

LongRoPE 应用地位插值将上下文窗口从 256k 扩大到 2048k。论文在在不同 llm 和各种长上下文工作中进行的大量试验强调了 LongRoPE 的有效性。它在 4k 到 2048k 的评估长度范畴内放弃了较低的困惑度，实现了超过 90% 的 passkey 检索精度，并在 4096 上下文窗口内设计的规范基准测试中提供了相当的精度。LongRoPE 能够利用于任何基于 RoPE 嵌入的 llm。

https://arxiv.org/abs/2402.06390v1

这项工作提出了 ImplicitDeepfake1 能够产生真切 3D 化身，这是一种将 Deepfake 技术与 Gaussian Splatting 和神经辐射场 (NeRF) 混合在一起的新办法。

https://arxiv.org/pdf/2402.03244.pdf

在 RL 代理之间转移专业知识已被证实是相当艰难的。这项工作优化了一套与环境无关的技术，SSO 的其泛化性能十分有前途。

https://github.com/uclaml/SPIN

论文提出了一种新的微调办法，称为 Self-Play Fine-Tuning(SPIN)，它从监督微调模型开始。SPIN 的外围是一种自我游戏机制，LLM 通过反抗本身实例来欠缺本人的能力。LLM 从之前的迭代中生成训练数据，通过辨认这些自生成的响应和从人类正文数据中取得的响应来改良策略。

https://arxiv.org/abs/2402.06102

“Box o Flows”通过引入一个独特的试验零碎，在动静的事实环境中测试强化学习 (RL) 算法，解决了为强化学习 (RL) 应用程序复制简单流体动力学的艰难。它展现了无模型强化学习算法如何从简略的处分中产生简单的行为，通过离线强化学习进步数据效率，并为在简单零碎中更宽泛地应用强化学习关上了大门。

模型应用 ring attention 和通过微调优化的 7B 个参数模型。它在检索基准上的体现异样精确，优于商用 vlm。

https://arxiv.org/abs/2402.08934v1

应用扩散模型来创立一种新的视频压缩技术，该技术能够在低数据速率下产生高质量的视频帧。

https://arxiv.org/abs/2402.07633v1

钻研人员提出了一种新的图像宰割办法，该办法仅应用简略的图像标签来辨认图像的特定局部，例如狗。通过弱监督实例宰割，不仅进步了效率，升高了错误率，还克服了网络辨认同一物体屡次呈现的艰难。

ZLUDA 能够在 AMD gpu 上运行未经批改的 CUDA 应用程序，

ZLUDA 目前尽管是 alpha 阶段，但它已被证实能够与各种原生 CUDA 应用程序一起工作:Geekbench, 3DF Zephyr, Blender, Reality Capture, LAMMPS, NAMD, waifu2x, OpenFOAM, 等等。

https://avoid.overfit.cn/post/b21e16feab8247c1946addcf2dc1aa8f

关于人工智能:2024年2月深度学习的论文推荐

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping.

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens.

ImplicitDeepfake: Plausible Face-Swapping through Implicit Deepfake Generation using NeRF and Gaussian Splatting.

Skill Set Optimization: Reinforcing Language Model Behavior via Transferable Skills

Self-Play Fine-Tuning (SPIN)

Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning

World Model on Million-Length Video and Language with RingAttention

Extreme Video Compression with Pre-trained Diffusion Models

Complete Instances Mining for Weakly Supervised Instance Segmentation.

ZLUDA