关于美团:CVPR-2023-美团技术团队精选论文解读

写在后面

CVPR 全称为 IEEE Conference on Computer Vision and Pattern Recognition，国内计算机视觉与模式识别会议。该会议始于1983年，与ICCV和ECCV并称计算机视觉方向的三大顶级会议。依据谷歌学术颁布的2022年最新学术期刊和会议影响力排名，CVPR在所有学术刊物中位居第4，仅次于Nature、NEJM和Science。2023年，CVPR共收到寰球9155篇论文投稿，最终2360篇被接管，接管率约为25.78%。

| 01 Divide and Adapt: Active Domain Adaptation via Customized Learning

论文作者：黄铎峻（中山大学，美团实习生），李继昌（香港大学），陈伟凯（腾讯-美国），黄君实（美团），柴振华（美团），李冠彬（中山大学）

论文下载：PDF

论文简介：该论文入选焦点论文（Highlight Paper）。近年来，被动畛域自适应被提出用于在畛域自适应问题中，设计被动学习算法在未标注的指标域数据中抉择最有信息量的一小批样本进行标注，来最大化的晋升深度学习模型在指标域数据上的性能，达到高效的标注效率。在理论的凋谢场景中，指标域样本绝对于源域数据的可区分度各异，即对于源域上初始化的而言具备不同档次的可迁移性。目前，鲜有工作对可迁移性各异的指标域样本分类探讨，设计高价值样本的采样策略和定制化的畛域自适应训练策略。

咱们提出了一种分而治之的策略，综合思考指标域样本与源域数据的差异性，和模型预测的不确定性，来设计被动学习的采样策略，并提出定制化的指标函数来束缚具备不同可迁移性的样本子集，进一步实现采样的鲁棒性。试验表明，咱们实现了在多种畛域自适应场景下的最优性能，包含无监督畛域自适应（UDA）、半监督畛域自适应（SSDA）和无源域畛域自适应（SFDA）等等。

| 02 Efficient Second-Order Plane Adjustment

论文作者：周力普（美团）

论文下载：PDF

论文简介：该论文入选焦点论文（Hightlight Paper），推导出了立体优化问题Hessian矩阵的闭式解，由此提出了高效的立体优化问题的二阶优化算法。该算法能够广泛应用于深度传感器的三维高精度重建。

立体通常用于深度传感器的3D重建，例如RGB-D相机和LiDAR。本文钻研预计最佳立体和传感器位姿的问题。这由此产生的最小二乘问题在文献中被称为立体调整（PA）。迭代办法常被用来解决这些最小二乘问题。通常，牛顿法很少用于大规模最小二乘问题，因为Hessian矩阵的计算工夫复杂度很高。相同，迭代算法通常采纳应用Hessian矩阵的近似值，例如Levenberg Marquardt（LM）办法。本文采纳牛顿法无效地解决了PA问题。

具体来说，给定姿态，最佳立体有一个闭式解。因而，咱们能够从中打消立体参数，它显著缩小了变量的数量。此外，因为最佳立体是姿态的函数，这种办法实际上确保了每次迭代都能产生最佳立体，这有利于收敛。其难点在于如何高效计算Hessian矩阵以及由此产生的梯度向量。本文提供一个高效的解决方案。实证结果表明，咱们的算法优于目前的SOTA算法。

| 03 AeDet: Azimuth-invariant Multi-view 3D Object Detection

论文作者：冯承健（美团），揭泽群（美团），钟毓杰（美团），初祥祥（美团），马林（美团）

论文下载：PDF

论文简介：近年来，基于鸟瞰图的多视图3D指标检测技术在Brid-Eye-View（BEV）空间通过卷积网络检测物体，获得了微小的停顿。然而，传统的卷积疏忽了BEV特色的径向对称性，减少了检测器优化的难度。为了放弃BEV特色的固有性质并便于模型优化，咱们提出了方位角等变卷积（AeConv）和方位角等变锚。方位角等变卷积的采样网格始终是径向的，因而能够学习到方位不变的BEV特色。而方位角等变锚使得检测头可能学习预测与方位无关的指标。

此外，咱们还引入了一种相机解耦的虚构深度，以对立具备不同相机内参的图像的深度预测。由此产生的指标检测器被称为方位等变检测器（AeDet）。咱们在nuScenes数据集上进行了多视图3D指标检测试验：方位等变检测器获得62.0% NDS，显著超过了现有的多视图3D指标检测办法。

| 04 Masked Auto-Encoders Meet Generative Adversarial Networks and Beyond

论文作者：费政聪（美团），范铭源（美团），朱理（美团），黄君实（美团），魏晓明（美团），魏晓林（美团）

论文下载：PDF

论文简介：掩码主动编码器（Mask autoencoder，MAE）预训练方法通过随机掩码图像块（patch），而后训练视觉模型基于未掩码的图像块来重建原始图像的像素。只管它们在上游视觉工作中体现出很好的性能，但它们通常须要大量的计算能力失效。在本文中，咱们介绍了一种基于生成反抗网络（Generative Adversarial Networks，GAN）的预训练框架。

具体来说，将生成器预测的图像和原始覆盖的图像进行拼接，并应用判断器来预测每一个拼接的图像块是否被替换。试验表明，因为对残缺图像进行输出建模和反馈，咱们提出的MAE-GAN框架比原始的MAE像素重建成果更好。同时，通过共享主网络参数，在雷同的模型大小、数据和计算量下，咱们的办法学习的视觉表征能力显著优于MAE办法。特地地，咱们在ImageNet-1k上预训练了200 epoch的ViT-B模型在上游图像分类后果上优于训练了1600 epoch的ViT-B MAE基准。

| 05 Elastic Aggregation for Federated Optimization

论文作者：陈登盛（美团），胡杰（美团），Vince Junkai Tan，魏晓明（美团），吴恩华（中科院软件所）

论文下载：PDF

论文简介：在人工智能安全性上，联邦学习旨在保证数据隐衷不受到透露的前提下实现模型的协同训练。因为在不同终端设备的数据分布存在较大差别，导致全局共享模型在应用本地数据进行优化当前会偏差本地的数据分布状态。咱们称这种景象为「客户端漂移（Client Drift）」。客户端漂移景象的存在，会导致全局共享模型在优化后期收敛迟缓，在优化前期无奈达到更优解。

咱们提出了弹性聚合（ Elastic Aggregation），一种新的参数更新办法用于缓解上述景象。弹性聚合首先利用每个终端设备上的无标签数据计算出对应模型参数对后果产生影响的敏感水平（Parameter Sensitivity），而后这个参数敏感水平来对全局共享模型进行加权聚合更新。弹性聚合是首个在联邦学习中充分利用无标签数据来晋升模型性能的办法，并且可能非常容易地嵌入到现有的其它联邦学习优化算法中。试验表明，在联邦学习场景下弹性聚合办法能够显著晋升视觉和文本了解工作的性能。

| 06 Bridging Search Region Interaction with Template for RGB-T Tracking

论文作者：惠天瑞（中国科学院信息工程研究所，美团实习生），荀子政（北京航空航天大学），彭景色（北京航空航天大学），黄君实（美团），魏晓明（美团），魏晓林（美团），戴娇（中科院信工所），韩冀中（中科院信工所），刘偲（北京航空航天大学）

论文下载：PDF

论文简介：RGB-T跟踪旨在利用可见光（RGB）和热红外（TIR）模态的互补加强能力来改良不同场景下的单指标跟踪成果，其中无效的跨模态交互是办法设计的要害一环。先前的工作间接拼接RGB和TIR的搜寻区域特色，或对孤立的RGB和TIR候选框对进行模态交融，导致冗余背景噪声的引入或部分区域内的上下文建模有余。

为了缓解上述局限性，咱们提出了模板桥接搜寻区域交互（TBSI）模块，该模块利用模板作为媒介，通过收集和散发指标相干的对象和环境上下文来桥接RGB和TIR搜寻区域之间的跨模态交互。原始模板也会应用来自模板中介的丰盛多模态上下文进行更新。咱们将TBSI模块插入到ViT骨干网络中，实现对立的特征提取、搜寻区域-模板匹配和跨模态交互，在三个支流RGB-T跟踪数据集上获得了超过现有办法的优异性能。

| 07 Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation

论文作者：高晨（北京航空航天大学，美团实习生），彭兴宇（北京航空航天大学），严汨（北京大学），王鹤（北京大学），杨立荣（美团），任海兵（美团），李鸿升（香港中文大学），刘偲（北京航空航天大学）

论文下载：PDF

论文简介：本工作聚焦Vision-Language Navigation（VLN）工作。在agent导航过程中，须要自适应地设置并实现一系列子目标。然而，先前的办法采纳单步布局计划，即在每一步间接执行导航动作。在本工作中，咱们提出了一种Adaptive Zone-aware Hierarchical Planner（AZHP），明确地将导航过程分为两个异构的阶段，即通过分区/选区（High-Level Action）和子目标执行（Low-Level Action）以进行分层布局。

具体而言，AZHP通过状态切换模块（SSM）异步地执行两级操作。对于High-Level Action，咱们提出了一种Scene-Aware Adaptive Zone Partition（SZP）办法，以自适应地将整个导航区域划分为不同的子区域。通过指标区域抉择（GZS）办法，为以后子目标抉择适合的区域。对于Low-Level Action，Agent在所选区域执行多步骤导航决策。此外，咱们提出HRL策略和辅助监督，以训练AZHP框架。试验证实了咱们提出办法的优越性，在多个VLN数据集（REVERIE、SOON、R2R）上均达到了最优的性能。

| 08 PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout

论文作者：徐筱媛（北京大学，美团实习生），何相腾（北京大学），彭宇新（北京大学），孔浩（美团），张庆（美团）

论文下载：PDF

论文简介：图文展现的布局生成旨在给定的图像画布上主动安顿元素（例如：广告文本、图标、衬底）的空间地位，用于广告设计中可能取代板滞的预约义模板。现有的布局生成工作疏忽了图像画布与布局的穿插关系，导致两者难兼容。

为此，该论文首先从源域多样性、主题多样性以及布局复杂度三个方面切入，建设图文展现布局数据集和评测基准PosterLayout，并提出设计序列生成网络（Design Sequence GAN），通过引入人类教训的设计序列造成（Design Sequence Formation）算法，将布局主动重组为隐含工夫信息的设计序列，并以画布图像的视觉特色作为初始状态，模仿人的设计行为，主动生成与画布内容兼容的布局。试验后果验证了新基准和新办法的有效性，达到超过现有办法的性能。该算法在论文接管前已利用上线，目前已在美团App的外投首页广告制图等场景落地。

美团科研单干

美团科研单干致力于搭建美团技术团队与高校、科研机构、智库的单干桥梁和平台，依靠美团丰盛的业务场景、数据资源和实在的产业问题，凋谢翻新，汇聚向上的力量，围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等畛域，独特摸索前沿科技和产业焦点宏观问题，促成产学研单干交换和成绩转化，推动优秀人才造就。面向未来，咱们期待能与更多高校和科研院所的老师和同学们进行单干。欢送老师和同学们发送邮件至：meituan.oi@meituan.com。

| 在美团公众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至tech@meituan.com申请受权。

关于美团:CVPR-2023-美团技术团队精选论文解读

写在后面

| 01 Divide and Adapt: Active Domain Adaptation via Customized Learning

| 02 Efficient Second-Order Plane Adjustment

| 03 AeDet: Azimuth-invariant Multi-view 3D Object Detection

| 04 Masked Auto-Encoders Meet Generative Adversarial Networks and Beyond

| 05 Elastic Aggregation for Federated Optimization

| 06 Bridging Search Region Interaction with Template for RGB-T Tracking

| 07 Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation

| 08 PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout

美团科研单干

更多文章

未能装载“software”。(com.apple.DiskManagement.disenter错误49223。- macosx catalina系统磁盘挂载出错解决办法

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能