关于transformer:ViTPose迈向通用身体姿态估计的视觉Transformer基础模型-京东探索研究院

身材姿势预计旨在辨认出给定图像中人或者动物实例身材的关键点,除了典型的身材骨骼关键点,还能够包含手、脚、脸部等关键点,是计算机视觉畛域的根本工作之一。目前,视觉transformer曾经在辨认、检测、宰割等多个视觉工作上展示进去很好的性能。在身材姿势预计工作上,应用CNN提取的特色,联合定制化的transformer模块进行特色加强,视觉transformer获得了很好的成果。然而,简略的视觉transformer自身在姿势预计工作上是否能有很好的体现呢? 京东摸索研究院联结悉尼大学在这方面做出了摸索,提出了基于简略视觉transformer的姿势预计模型ViTPose和改良版本ViTPose+。ViTPose系列模型在MS COCO多个人体姿势预计数据集上达到了新的SOTA和帕累托前沿。其中,ViTPose已收录于Neurips 2022。ViTPose+进一步拓展到多种不同类型的身材姿势预计工作,涵盖动物、人体以及典型的身材骨骼、手、脚、脸部等关键点类型,在不减少推理阶段模型复杂度和计算复杂度的状况下,实现了多个数据集上的最佳性能。 一、钻研背景 ViTPose和ViTPose+的性能和速度比照图,圆圈大小代表了模型大小 近年来,视觉transformer在多个视觉畛域展现出了极佳的性能。在姿势预计畛域,也涌现出许多基于transformer的计划,并获得了很好的成果。如TokenPose等工作,应用CNN进行特征提取,并应用transformer作为后处理模块来建模多个关键点之间的关系。只管他们展示了很好的成果,然而依然依赖CNN提取特色,很难充沛开掘transformer在姿势预计畛域的后劲。 为了缩小CNN的影响,HRFormer等工作仅应用transformer来进行特征提取和建模人体关键点。为了晋升模型性能,模型采纳了一些非凡的设计,如多尺度建模、多层级构造等形式。这些构造在CNN模型设计和transformer模型设计中都体现出很好的后果。然而,咱们是否须要为姿势预计工作定制化的设计Transformer网络结构呢?为此,京东摸索研究院联结悉尼大学提出了基于简略视觉transformer的姿势预计基线ViTPose,充沛开掘transformer在姿势预计畛域的后劲。基于常见的无监督预训练技术并联合非常简单的解码器,ViTPose展现了视觉transformer在姿势预计方面的简略性,可扩展性,灵活性,和可迁移性,并在人体,动物,全身关键点检测等方面达到SOTA性能。 二、ViTPose办法2.1 ViTPose构造简介 图1 ViTPose构造 为了尽可能防止简单的设计,ViTPose采纳了最简略的形式来利用简略的视觉transformer。具体来说,ViTPose应用了简略的视觉transformer作为编码器对输出图像进行特征提取。提取失去的特色会作为解码器的输出来失去最终的关键点预测。带有transposed卷积上采样和预测层的规范解码器(c)和间接应用双线性插值的简略解码器(d)被用于评估简略视觉transformer的简略性;用于Bottom-up预测的解码器(e)也被采纳来掂量ViTPose对于不同关键点检测范式的灵活性。 此外,得益于采纳了最简略的编码器-解码器设计,ViTPose能够很容易的兼容更大规模的简略视觉transformer模型,并失去性能晋升,展现出良好的扩展性;此外,通过应用不同的预训练形式,和不同大小模型的迁徙,ViTPose展现出优良的灵活性和可迁移性。只管没有简单的模型设计,ViTPose在人体,动物,全身关键点预计等多个设置下达到或超过了SOTA的模型,充沛展现了简略视觉transformer在姿势预计畛域的后劲。 2.2 简略性和扩展性表1 应用不同decoder的ViTPose在MS COCO的性能比照 为了验证ViTPose的简略性和可扩展性,研究者应用了不同的解码器和不同尺寸的编码器,后果如表1所示。相比于应用经典的反卷积解码器,应用简略双线性解码器的CNN模型呈现了极大的性能降落,如ResNet-50和ResNet-152有靠近20均匀准确度的降落。然而,视觉transformer模型则体现出了很强的竞争力:应用简略的解码器和经典解码器的性能差距不到0.3均匀准确度,充分说明因为视觉transformer的强表征能力,它能够学习到线性可分性极强的特色示意,从而仅须要简略的线性解码器即能够达到很好的成果。此外,应用更大规模的编码器,ViTPose的性能持续上升,展现了ViTPose良好的扩展性。 2.3 ViTPose的数据灵活性表2 应用不同预训练数据的ViTPose在MS COCO的性能比照 在过往的试验中,应用ImageNet对编码器进行预训练曾经成为了一种默认设置。然而,对于姿势预计工作来说,这引入了额定的数据需要。为了摸索应用ImageNet数据进行预训练是否是不可避免的,ViTPose摸索了是否只应用姿势预计数据 (MS COCO和AI Challenger数据)进行预训练。后果如表2所示,无论是否应用人体的地位(人体实例的检测框标注)进行裁剪操作,只应用姿势预计的数据进行预训练的ViTPose在应用更少的数据量的状况下达到了和应用ImageNet数据进行预训练的ViTPose相当的成果。 2.4 ViTPose的构造灵活性 表3 应用不同注意力形式的ViTPose性能 因为应用全注意力形式的计算复杂度,在应用大尺寸特色图进行训练时,ViTPose模型的显存耗费会大幅度增长。为此,ViTPose也摸索了是否在微调阶段应用不同的注意力形式进行计算。如表3所示,应用窗口注意力机制的ViTPose在占用更少显存耗费的状况下能够达到和应用全注意力机制的ViTPose相当的成果。 2.5 ViTPose的训练灵活性 表4 应用不同模块进行训练的ViTPose性能 为了充沛摸索ViTPose中各个模块对于姿势预计工作的奉献,ViTPose进一步摸索了仅应用FFN模块或者MHSA模块进行训练而放弃其余模块不动的训练形式。后果如表4所示。仅调整FFN模块能够达到和全副可训练相当的成果,而只训练MHSA模块则会带来较大的性能降落,阐明FFN模块负责更多特定工作相干的建模,在上游工作迁徙学习中施展更大作用。 2.6 ViTPose+应用MoE机制扩大多数据集 图2 ViTPose+中的FFN-MoE构造 表5 ViTPose+性能比拟 然而,不同的姿势预计数据集有不同的散布,简略通过繁多模型来建模不同的姿势预计数据集会因为数据集之间的抵触造成各个数据集上的性能降落。例如,应用动物数据集和人体数据集进行联结训练会影响人体姿势预计性能(如表5中I-FFN所示)。为解决这一问题,ViTPose+模型摸索了应用MoE机制来解决数据集抵触的问题,如图2所示,通过注意力机制解决后的特色会分块输出FFN模块中进行解决。通过本人数据集独有的局部和各个数据集共享的局部解决后的FFN模块会拼接起来输出到之后的模块中。如表5所示,这一机制超过了多任务学习的基线办法(MT Baseline),并与应用独立和共享FFN模块(IS-FFN)获得了相当的成果,但节俭了更多的参数量。 三、试验后果3.1 主观后果 表6 在MS COCO数据集上不同模型采纳Top-down检测范式的性能 表7 在MS COCO数据集上不同模型采纳Bottom-up检测范式的性能 如表6和表7所示,ViTPose在top-down和bottom-up两种检测形式下达到了和之前模型相当或者更好的成果。应用更多数据集联结训练的ViTPose+系列模型达到了更好的速度和性能的均衡,如ViTPose+-S模型在22M的参数量下达到了1439fps的速度和75.8 AP的准确度。这展现了应用简略视觉transformer在姿势预计工作上的后劲和可能性。 3.2 主观后果 图3 MS COCO主观后果展现 图4 AI Challenger主观后果展现 ...

September 7, 2023 · 2 min · jiezi

关于transformer:使用--Transformers-优化文本转语音模型-Bark

Transformers 提供了许多最新最先进 (state-of-the-art, SoTA) 的模型,这些模型横跨多个畛域及工作。为了使这些模型能以最佳性能运行,咱们须要优化其推理速度及内存应用。 Hugging Face 生态系统为满足上述需要提供了现成且易于应用的优化工具,这些工具可利用于库中的所有模型。用户只需增加几行代码就能够轻松 缩小内存占用 并 进步推理速度。 在本实战教程中,我将演示如何用三个简略的优化技巧来优化 Bark 模型。Bark 是 Transformers 反对的一个文本转语音 (Text-To-Speech, TTS) 模型。所有优化仅依赖于 Transformers、Optimum 以及 Accelerate 这三个 生态系统库。 本教程还演示了如何对模型及其不同的优化计划进行性能基准测试。 本文对应的 Google Colab 在:https://colab.research.google.com/github/ylacombe/notebooks/blob/main/Benchmark_Bark_HuggingFace.ipynb 本文构造如下: 目录Bark 模型 简介不同优化技巧及其长处 概述基准测试后果 展现Bark 模型架构Bark 是 Suno AI 提出的基于 transformer 的 TTS 模型,其原始代码库为 suno-ai/bark。该模型可能生成各种音频输入,包含语音、音乐、背景乐音以及简略的音效。此外,它还能够产生非语言语音,如笑声、叹息声和抽泣声等。 自 v4.31.0 起,Bark 已集成入 Transformers! 你能够通过 这个 notebook 试试 Bark 并摸索其性能。 Bark 次要由 4 个模型组成: BarkSemanticModel (也称为 文本 模型): 一个因果自回归 transformer 模型,其输出为分词后的词元序列,并输入能捕捉文义的语义词元。BarkCoarseModel (也称为 粗声学 模型): 一个因果自回归 transformer 模型,其接管 BarkSemanticModel 模型的输入,并据此预测 EnCodec 所需的前两个音频码本。BarkFineModel (也称为 细声学 模型),这次是个非因果自编码器 transformer 模型,它对 先前码本的嵌入和 进行迭代,从而生成最初一个码本。在 EncodecModel 的编码器局部预测出所有码本通道后,Bark 持续用其解码器来解码并输入音频序列。截至本文撰写时,共有两个 Bark checkpoint 可用,其中一个是 小版,一个是 大版。 ...

August 23, 2023 · 4 min · jiezi

关于transformer:OpenVI论文解读系列达摩院快速动作识别TPS-ECCV论文深入解读

一、背景许多工作尝试对时空自注意力进行合成,例如ViViT和Timesformer。这些办法尽管减小了计算复杂度,但会引入额定的参数量。本文提出了一种简略高效的时空自注意力Transformer,在比照2D Transformer网络不减少计算量和参数量状况下,实现了时空自注意力机制。并且在Sthv1&Sthv2, Kinetics400, Diving48获得了很好的性能。文章已被ECCV 2022录用。 二、办法视觉Transofrmer通常将图像宰割为不重叠的块(patch),patch之间通过自注意力机制(Self-Attention)进行特色聚合,patch外部通过全连贯层(FFN)进行特色映射。每个Transformer block中,蕴含Self-Attention和FFN,通过重叠Transformer block的形式达到学习图像特色的目标。 残缺内容请点击下方链接查看: https://developer.aliyun.com/article/1191077?utm_content=g_10... 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

June 29, 2023 · 1 min · jiezi

关于transformer:使用-Transformers-为多语种语音识别任务微调-Whisper-模型

本文提供了一个应用 Hugging Face Transformers 在任意多语种语音辨认 (ASR) 数据集上微调 Whisper 的分步指南。同时,咱们还深刻解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,并提供了数据筹备和微调的相干代码。如果你想要一个全副是代码,仅有大量解释的 Notebook,能够参阅这个 Google Colab。 目录简介在 Google Colab 中微调 Whisper 筹备环境加载数据集筹备特征提取器、分词器和数据训练与评估构建演示利用结束语简介Whisper 是一系列用于主动语音辨认 (automatic speech recognition,ASR) 的预训练模型,它由来自于 OpenAI 的 Alec Radford 等人于 2022 年 9 月 公布。与 Wav2Vec 2.0 等前作不同,以往的模型都是在未标注的音频数据上预训练的,而 Whisper 是在大量的 已标注 音频转录数据上预训练的。其用于训练的标注音频时长高达 68 万小时,比 Wav2Vec 2.0 应用的未标注训练数据 (6 万小时) 还多一个数量级。更妙的是,该预训练数据中还含有 11.7 万小时的多语种数据。因而,Whisper 训得的 checkpoint 可利用于超过 96 种语言,这其中蕴含不少 数据匮乏 的小语种。 这么多的标注数据使得咱们能够间接在 有监督 语音辨认工作上预训练 Whisper,从标注音频转录数据 ${}^1$ 中间接习得语音到文本的映射。因而,Whisper 简直不须要额定的微调就曾经是高性能的 ASR 模型了。这让 Wav2Vec 2.0 黯然失色,因为 Wav2Vec 2.0 是在 无监督 掩码预测工作上预训练的,所以其训得的模型仅从未标注的纯音频数据中习得了从语音到隐含状态的两头映射。尽管无监督预训练能产生高质量的语音表征,但它 学不到语音到文本的映射,要学到语音到文本的映射只能靠微调。因而,Wav2Vec 2.0 须要更多的微调能力取得较有竞争力的性能。 ...

June 27, 2023 · 7 min · jiezi

关于transformer:Transformer-再添一员比-Swin-更强的-DiNAT

出品人:Towhee 技术团队 张晨、顾梦佳 在视觉畛域,除了惯例 Transformer 的继续倒退,分层的 Transformer 构造也因为其性能和易集成性取得了极大的关注。DiNA 注意力机制是 Neighborhood Attention(NA)的拓展,更加天然、灵便、高效。它能够捕捉更多的全局上下文并以指数形式扩大感触域,而无需额定老本。DiNA Transformer 是基于两种注意力的新型分层视觉模型。相比 NAT、Swin 和 ConvNeXt 等强基线模型,DiNAT 变体带来了显著的改良。应用了 DiNA 的大型模型速度更快,在公开数据集 COCO 的指标检测中当先 Swin 模型 1.5% box AP,在实例宰割中超过 1.3% mask AP。 An illustration of DiNAT’s architecture.分层构造的 Transformer 模型通常采纳部分留神机制,例如滑动窗口 NA 或 Swin Transformer 的Shifted Window Self Attention。尽管该策略无效地升高了自注意力的二次复杂度,但部分注意力减弱了自注意力的两个最现实的个性:近程相互依赖建模和全局感触野。因而 DiNAT 首先将输出下采样到原始空间分辨率的四分之一,并通过 4 级 DiNA Transformer 编码器发送它们。特色图被下采样到其空间大小的一半,并在级别之间的通道中加倍。DiNAT 层与大多数 Transformer 类似,模型会每隔一层在部分 NA 和稠密全局 DiNA 之间切换。 相干材料: 代码地址:https://github.com/SHI-Labs/N...论文链接:Dilated Neighborhood Attention Transformer更多材料:Dilated Neighborhood Attention Transformer

January 19, 2023 · 1 min · jiezi

关于transformer:斯坦福NLP课程-第14讲-Transformers自注意力与生成模型

作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI教程地址:http://www.showmeai.tech/tutorials/36本文地址:http://www.showmeai.tech/article-detail/251申明:版权所有,转载请分割平台与作者并注明出处珍藏ShowMeAI查看更多精彩内容 ShowMeAI为斯坦福CS224n《自然语言解决与深度学习(Natural Language Processing with Deep Learning)》课程的全副课件,做了中文翻译和正文,并制作成了GIF动图!视频和课件等材料的获取形式见文末。 引言 学习变长数据的示意 学习变长数据的示意,这是序列学习的根本组件序列学习包含 NMT,text summarization,QA,···1.循环神经网络(RNN) 通常应用 RNN 学习变长的示意RNN 自身适宜句子和像素序列LSTMs, GRUs 和其变体在循环模型中占主导地位 然而序列计算克制了并行化没有对长期和短期依赖关系进行显式建模咱们想要对层次结构建模RNNs(程序对齐的状态)看起来很节约!2.卷积神经网络(CNN) 并行化(每层)很简略利用部分依赖不同地位的交互间隔是线性或是对数的近程依赖须要多层3.Attention 注意力 NMT 中,编码器和解码器之间的 Attention 是至关重要的为什么不把注意力用于示意呢?3.1 自注意力 自注意力机制4.文本生成 4.1 自注意力 任何两个地位之间的门路长度都是常数级别的门控 / 乘法 的交互能够并行化(每层)能够齐全代替序列计算吗?4.2 既有成绩 Classification & regression with self-attention: Parikh et al.(2016), Lin et al. (2016)Self-attention with RNNs: Long et al.(2016), Shao, Gows et al.(2017)Recurrent attention: Sukhbaatar et al.(2015)4.3 Transformer Transformer构造4.4 编码器与解码器的自注意力 编码器的自注意力解码器的自注意力4.5 Attention is Cheap! ...

May 16, 2022 · 3 min · jiezi

关于transformer:带你读AI论文丨用于细粒度分类的Transformer结构TransFG

摘要:本文解读了《TransFG: A Transformer Architecture for Fine-grained Recognition》,该论文针对细粒度分类工作,提出了对应的TransFG。本文分享自华为云社区《论文解读系列二十:用于细粒度分类的Transformer构造—TransFG》,作者: BigDragon 。 论文地址:https://arxiv.org/abs/2103.07976 GitHub地址:https://github.com/TACJu/TransFG 近来,细粒度分类钻研工作次要集中在如何定位差异性图片区域,以此进步网络捕获渺小差别的能力,而大部分工作次要通过应用不同的基模型来提取特定区域的特色,但这种形式会使流程复杂化,并从特定区域提取出大量冗余特色。因而,本文将所有原始注意力权重整合至注意力映射中,以此来领导模型高效地选取差异性图片区域,提出用于细粒度分类的Transformer构造TransFG。 图1 TransFG 构造 1 问题定义细粒度分类工作次要以定位办法及特色编码方法为主,定位办法次要通过定位差异性部分区域来进行分类,而特色编码方法通过高维信息或寻找差别对之间关系来学习更多信息。TransFG通过整合注意力权重,计算区域的比照损失,来定位差异性部分区域,以此进行细粒度分类。 2 TransFG2.1 图像序列化原有Vision Transformer将图片宰割为互相不重叠的patch,但这会侵害部分相邻构造,可能会导致差异性图像区域被拆散。因而,为解决这个问题,本文采纳滑动窗口产生重叠patch,所产生的patch数量N依据公式(1)进行计算。其中,H、W别离为图像长宽,P为图像patch尺寸,S为滑动窗口步长。 2.2 Patch Embedding 和 Transformer EncoderTransFG在Patch Embedding 和 Transformer Encoder两个模块遵循了原有ViT的模式,并未进行改变 2.3 部分选取模块(PSM) 图2 TransFG的注意力映射及所选取的token 首先假如模型中具备K个自留神首部,各层注意力权重如公式(2)所示,其中al指第l层K个首部注意力权重。 如公式(3)所示,将所有层的注意力权重进行矩阵相乘,afinal 捕获了图像信息从输出到更深层的整个过程,绝对于原有ViT,蕴含了更多信息,更加有助于选取具备识别性的区域 选取afinal中K个不同注意力首部的最大值A1、A2、…、AK,并将其与分类token进行拼接,其后果如公式(4)所示。该步骤不仅保留了全局信息,也让模型更加关注与不同类别之间的渺小差别。 2.4 比照损失如公式(5)所示,比照损失的指标是最小化不同类别对应的分类tokens的类似度,并最大化雷同类别对应的分类tokens的类似度。其中,为缩小loss被简略负样本影响,采纳来管制对loss有奉献的负样本对。 3 试验后果TranFG在CUB-200-2011、Stanford Cars、Stanford Dogs、NABirds及iNat2017五个数据集进行了验证,并在CUB-200-2011、Standford Dogs、NABirds数据集上获得了SOTA后果。 4. 总结在图像序列化局部,绝对于采纳非重叠的patch宰割办法,采纳重叠办法的精度进步了0.2%PSM整合所有注意力权重,保留全局信息,让模型更加关注于不同类别的渺小差异,让模型精度进步了0.7%。采纳比照损失函数,能缩小不同类别的类似度,进步雷同类别的类似度,让模型精度进步了0.4%-0.5%。参考文献[1] He, Ju, et al. "TransFG: A Transformer Architecture for Fine-grained Recognition." arXiv preprint arXiv:2103.07976 (2021). 想理解更多的AI技术干货,欢送上华为云的AI专区,目前有AI编程Python等六大实战营供大家收费学习 点击关注,第一工夫理解华为云陈腐技术~

September 11, 2021 · 1 min · jiezi

关于transformer:带你读AI论文基于Transformer的直线段检测

摘要:本文提出了一种基于Transformer的端到端的线段检测模型。采纳多尺度的Encoder/Decoder算法,能够失去比拟精确的线端点坐标。作者间接用预测的线段端点和Ground truth的端点的间隔作为指标函数,能够更好的对线段端点坐标进行回归。本文分享自华为云社区《论文解读系列十七:基于Transformer的直线段检测》,作者:cver。 1 文章摘要传统的形态学线段检测首先要对图像进行边缘检测,而后进行后处理失去线段的检测后果。个别的深度学习办法,首先要失去线段端点和线的热力求特色,而后进行交融解决失去线的检测后果。作者提出了一种新的基于Transformer的办法,无需进行边缘检测、也无需端点和线的热力求特色,端到端的间接失去线段的检测后果,也即线段的端点坐标。 线段检测属于指标检测的领域,本文提出的线段检测模型LETR是在DETR(End-to-End Object Detection with Transformers)的根底上的扩大,区别就是Decoder在最初预测和回归的时候,一个是回归的box的中心点、宽、高值,一个是回归的线的端点坐标。 因而,接下来首先介绍一下DETR是如何利用Transformer进行指标检测的。之后重点介绍一下LETR独有的一些内容。 2、如何利用Transformer进行指标检测(DETR) 图1. DETR模型构造 上图是DETR的模型构造。DETR首先利用一个CNN 的backbone提取图像的features,编码之后输出Transformer模型失去N个预测的box,而后利用FFN进行分类和坐标回归,这一部分和传统的指标检测相似,之后把N个预测的box和M个实在的box进行二分匹配(N>M,多出的为空类,即没有物体,坐标值间接设置为0)。利用匹配后果和匹配的loss更新权重参数,失去最终的box的检测后果和类别。这里有几个关键点: 首先是图像特色的序列化和编码。CNN-backbone输入的特色的维度为CHW,首先用11的conv进行降维,将channel从C压缩到d, 失去dHW的特色图。之后合并H、W两个维度,特色图的维度变为dHW。序列化的特色图失落了原图的地位信息,因而须要再加上position encoding特色,失去最终序列化编码的特色。 而后是Transformer的Decoder指标检测的Transformer的Decoder是一次解决全副的Decoder输出,也即 object queries,和原始的Transformer从左到右一个一个输入略有不同。 另外一点Decoder的输出是随机初始化的,并且是能够训练更新的。 二分匹配Transformer的Decoder输入了N个object proposal ,咱们并不知道它和实在的Ground truth的对应关系,因而须要经二分图匹配,采纳的是匈牙利算法,失去一个使的匹配loss最小的匹配。匹配loss如下: 失去最终匹配后,利用这个loss和分类loss更新参数。 3、LETR模型构造 图2. LETR模型构造 Transformer的构造次要包含Encoder、Decoder 和 FFN。每个Encoder蕴含一个self-attention和feed-forward两个子层。Decoder 除了self-attention和feed-forward还蕴含cross-attention。注意力机制:注意力机制和原始的Transformer相似,惟一的不同就是Decoder的cross-attention,上文曾经做了介绍,就不再赘述。 Coarse-to-Fine 策略从上图中能够看出LETR蕴含了两个Transformer。作者称此为a multi-scale Encoder/Decoder strategy,两个Transformer别离称之为Coarse Encoder/Decoder,Fine Encoder/Decoder。也就是先用CNN backbone深层的小尺度的feature map(ResNet的conv5,feature map的尺寸为原图尺寸的1/32,通道数为2048) 训练一个Transformer,即Coarse Encoder/Decoder,失去粗粒度的线段的特色(训练的时候固定Fine Encoder/Decoder,只更新Coarse Encoder/Decoder的参数)。而后把Coarse Decoder的输入作为Fine Decoder的输出,再训练一个Transformer,即Fine Encoder/Decoder。Fine Encoder的输出是CNN backbone浅层的feature map(ResNet的conv4,feature map的尺寸为原图尺寸的1/16,通道数为1024),比深层的feature map具备更大的维度,能够更好的利用图像的高分辨率信息。 注:CNN的backbone深层和浅层的feature map特色都须要先通过1*1的卷积把通道数都降到256维,再作为Transformer的输出 二分匹配和DETR一样, 利用fine Decoder的N个输入进行分类和回归,失去N个线段的预测后果。然而咱们并不知道N个预测后果和M个实在的线段的对应关系,并且N还要大于M。这个时候咱们就要进行二分匹配。所谓的二分匹配就是找到一个对应关系,使得匹配loss最小,因而咱们须要给出匹配的loss,和下面DERT的表达式一样,只不过这一项略有不同,一个是GIou一个是线段的端点间隔。 4、模型测试后果模型在Wireframe和YorkUrban数据集上达到了state-of–the-arts。 图3. 线段检测办法成果比照 图4、线段检测办法在两种数据集上的性能指标比照(Table 1);线段检测办法的PR曲线(Figure 6) [点击关注,第一工夫理解华为云陈腐技术~](https://bbs.huaweicloud.com/b...

August 10, 2021 · 1 min · jiezi