关于transform:论文解读transformer小目标检测综述

一、简要介绍 Transformer在计算机视觉畛域迅速遍及,特地是在指标辨认和检测畛域。在查看最先进的指标检测办法的后果时,咱们留神到,在简直每个视频或图像数据集中,transformer始终优于欠缺的基于cnn的检测器。尽管基于transformer的办法依然处于小指标检测(SOD)技术的前沿,但本文旨在摸索如此宽泛的网络所提供的性能效益,并确定其SOD劣势的潜在起因。小指标因为其低可见性,已被确定为检测框架中最具挑战性的指标类型之一。论文的目标是钻研能够进步transformer在SOD中的性能的潜在策略。本考察对逾越2020年至2023年的60多个针对SOD工作开发的transformer的钻研进行了分类。这些钻研包含各种检测利用,包含在通用图像、航空图像、医学图像、被动毫米图像、水下图像和视频中的小指标检测。论文还编制并提供了12个适宜SOD的大规模数据集,这些数据集在以前的钻研中被忽视了,并应用风行的指标如均匀均匀精度(mAP)、每秒帧(FPS)、参数数量等来比拟回顾钻研的性能。 二、钻研背景 小型指标检测(SOD)已被认为是最先进的(SOTA)指标检测办法的一个重大挑战。术语“小指标”指的是占据输出图像的一小部分的指标。例如,在宽泛应用的MS COCO数据集中,它定义了在典型的480×640图像中,边界框为32×32像素或更小的指标(图1)。其余数据集也有本人的定义,例如,占图像10%的指标。小指标常常被谬误的部分边界框脱漏或发现,有时还会有不正确的标签。SOD中定位有余的次要起因是输出图像或视频帧中提供的信息无限,再加上它们在深度网络中通过多层时随后经验的空间进化。因为小指标经常出现在行人检测、医学图像剖析、人脸识别、交通标志检测、交通灯检测、船舶检测、基于合成孔径雷达(SAR)的指标检测等各种应用领域中,因而值得钻研古代深度学习SOD技术的性能。在本文中,作者比拟了基于transformer的检测器与基于卷积神经网络(CNNs)的检测器在其小指标检测方面的性能。在性能显著优于cnn的状况下,论文而后试图揭示transformer的弱小性能背地的起因。一个间接的解释可能是,transformer建模了输出图像中成对地位之间的相互作用。这是一种无效的编码上下文的形式。而且,在人类和计算模型中,上下文都是检测和辨认小指标的次要信息起源。然而,这可能不是解释transformer胜利的惟一因素。具体来说,论文的指标是从几个维度来剖析这一胜利,包含指标示意、对高分辨率或多尺度特色图的疾速关注、齐全基于transformer的检测、架构和块批改、辅助技术、改良的特色示意和时空信息。此外,论文还指出了有可能进步SOD transformer性能的办法。 在之前的工作中,论文考察了许多基于深度学习的策略,以进步到2022年在光学图像和视频中的小指标检测的性能。论文发现,除了适应transformer等较新的深度学习构造之外,风行的办法还包含数据加强、超分辨率、多尺度特色学习、上下文学习、基于注意力的学习、区域倡议、损失函数正则化、利用辅助工作和时空特色聚合。此外,论文察看到,transformer是在大多数数据集中定位小指标的次要办法之一。然而,思考到之前的工作次要评估了160多篇关注于基于cnn的网络的论文,因而没有对以transformer为核心的办法进行深刻的摸索。意识到该畛域的增长和摸索速度,当初有了一个及时的窗口来深入研究针对小指标检测的以后transformer模型。 在本文中,作者的指标是全面理解影响transformer在利用于小指标检测时令人印象粗浅的性能的因素,以及它们与用于通用指标检测的策略的区别。为了奠定根底,论文首先突出了驰名的基于transformer的SOD指标检测器,并将它们的停顿与现有的基于cnn的办法并列起来。 自2017年以来,该畛域曾经发表了大量的综述文章。在之前的考察中介绍了这些评论的宽泛探讨和清单。最近的另一篇综述文章也次要关注基于cnn的技术。以后综述的叙述与之前的叙述不同。本文中的重点特地放大到transformer——一个之前没有摸索过的方面——将它们定位为图像和视频SOD的主导网络架构。这须要针对这种翻新体系结构量身定制的独特分类法,无意识地避开基于cnn的办法。鉴于这个主题的新颖性和复杂性,论文的评论次要优先思考2022年后提出的作品。此外,论文还说明了在更宽泛的利用范畴中用于定位和检测小指标的新数据集。 本考察中的钻研次要提出了针对小指标定位和分类的办法,或间接解决了SOD的挑战。推动咱们进行剖析的是这些论文中为小指标指定的检测后果。然而,晚期的钻研留神了SOD后果,但在其开发方法中体现出不佳或疏忽了SOD特定参数,没有思考纳入本综述。在本考察中,咱们假如读者曾经相熟了通用的指标检测技术、它们的架构和相干的性能度量。 本文的构造如下:在第3节中,论文提出了一个基于transformer的SOD技术的分类,并对每个类别进行了全面的深入研究。第4节展现了用于SOD的不同数据集,并跨一系列应用程序对它们进行了评估。在第5节中,论文剖析并将这些后果与之前来自CNN网络的后果进行了比照。本文在第6节中总结了一些论断。 三、用于小指标检测的transformer 在本节中,论文将探讨基于transformer的SOD网络。小指标检测器的分类法如图4所示。论文表明,现有的基于新型transformer的检测器能够通过以下一个或几个角度进行剖析:指标示意、对高分辨率或多尺度特色图的疾速注意力、齐全基于transformer的检测、架构和块批改、辅助技术、改良的特色示意和时空信息。在上面的大节中,将别离具体探讨这些类别。 3.1 Object Representation在指标检测技术中曾经采纳了各种指标示意技术。感兴趣的指标能够用矩形框、中心点和点集、概率指标和关键点来示意。在须要正文格局和小指标示意方面,每种指标示意技术都有本人的优缺点。在放弃现有示意技术的所有劣势的同时,寻找最优示意技术的谋求,从RelationNet++开始。这种办法连贯了各种异构的视觉示意,并通过一个称为桥接视觉示意(BVR)的模块联合了它们的劣势。BVR能够无效地运行,但并不毁坏次要示意所采纳的整体推理过程,它利用了要害采样和共享地位嵌入的新技术。更重要的是,BVR依赖于一个留神模块,该模块将一种示意模式指定为“主示意”(或查问),而其余示意则被指定为“辅助”示意(或键)。BVR块如图5所示,它通过将中心点和角点(键)无缝集成到基于锚定(查问)的指标检测办法中,加强了锚定盒的特色示意。 3.2 Fast Attention for High-Resolution or Multi-Scale Feature Maps 以往的钻研表明,放弃高分辨率的特色图是放弃SOD中高性能的必要步骤。与cnn相比,transformer实质上体现出显著更高的复杂度,这是因为它们的复杂度绝对于令牌的数量(例如,像素数量)呈二次减少。这种复杂性来自于跨所有令牌的成对相关性计算的要求。因而,训练工夫和推理工夫都超过了预期,使得检测器不适用于高分辨率图像和视频中的小指标检测。在他们对于可变形的DETR的工作中,Zhu等人解决了第一次在DETR中察看到的这个问题。他们倡议只关注一个参考文献四周的一小部分要害采样点,这大大降低了复杂性。采纳这种策略,通过应用多尺度变形留神模块无效地放弃了空间分辨率。值得注意的是,该办法打消了特色金字塔网络的必要性,从而大大提高了对小指标的检测和辨认。变形留神中多头留神模块的第i个输入为: 其中,i = 1,···,T和pi是查问的参考点,∆phik是K个采样(K<<T=HW)的采样偏移量(2D)。图6阐明了其多头留神模块内的计算过程。可变形的DETR受害于它的编码器和解码器模块,编码器内的复杂度程序为O(HW C2),其中H和W为输出特色图的高度和宽度,C为通道数。与DETR编码器相比,复杂度为O(H2W2C),随着H和W的减少,复杂性呈二次增长。可变形留神在其余各种检测器中施展了突出的作用,例如在T-TRD中。随后,DETR,具备动静编码器和动静解码器,利用从低分辨率到高分辨率示意的特色金字塔,从而实现高效的粗到细的指标检测和更快的收敛。动静编码器能够看作是齐全自我留神的程序合成近似,基于尺度、空间重要性和表征动静调整留神机制。可变形DETR和动静DETR都利用可变形卷积进行特征提取。在一种独特的办法中,O2DETR 证实了自留神模块提供的全局推理实际上对航空图像并不是必须的,在航空图像中,指标通常密集地汇集在同一图像区域。因而,用部分卷积代替留神模块,并集成多尺度特色映射,被证实能够在面向指标检测的环境中进步检测性能。RCDA作者提出了行-列解耦留神(RCDA)的概念,将要害特色的二维留神合成为两种更简略的模式:一维行留神和列留神。在CF-DETR 的状况下,提出了一种FPN的代替办法,即在第5级(E5)用编码器特色替换C5特色,从而改良了指标示意。该翻新被命名为transformer增强型FPN(TEF)模块。在另一项钻研中,Xu等人通过将跳跃连贯操作与Swintransformer集成,开发了一个加权的双向特色金字塔网络(BiFPN)。这种办法无效地保留了与小指标相干的信息。 3.3 Fully Transformer-Based Detectors Transformer的呈现及其在计算机视觉中许多简单工作中的杰出性能,逐步促使钻研人员从基于cnn或混合系统转向齐全基于transformer的视觉零碎。这项工作始于图像识别工作,该工作称为ViT。ViDT扩大了YOLOS模型(第一个齐全基于transformer的检测器),以开发出第一个实用于SOD的高效检测器。在ViDT中,DETR中用于特征提取的ResNet被各种ViT变体所取代,如Swintransformer、ViTDet 和DeiT ,以及重新配置的留神模块(RAM)。RAM可能解决[PATCH]×[PATCH]、[DET]×[PATCH]和[PATCH]×[DET]的留神。这些穿插和自我留神模块是必要的,因为与YOLOS相似,ViDT在输出中附加了[DET]和[PATCH]标记。ViDT只利用一个transformer解码器作为其颈部,以利用在其身材步骤的每个阶段产生的多尺度特色。图7阐明了ViDT的总体构造,并突出了其与DETR和YOLOS的区别。 意识到解码器模块是基于transformer的指标检测低效的次要起源,无解码器全transformer(DFFT)利用两个编码器:尺度聚合编码器(SAE)和工作对齐编码器(TAE),以放弃较高的准确性。SAE将多尺度特色(四个尺度)聚合成一个繁多特色图,而TAE则对繁多特色图进行对齐,用于指标类型、地位分类和回归。采纳面向检测的transformer(DOT)骨干技术进行了具备强语义的多尺度特征提取。 在基于稠密roi的可变形DETR(SRDD)中,作者提出了一种带有评分零碎的轻量级transformer,以最终去除编码器中的冗余令牌。这是通过在端到端学习计划中应用基于roi的检测来实现的。3.4 Architecture and Block Modifications DETR是第一种端到端指标检测办法,它在训练过程中缩短了收敛工夫,在小指标上体现较差。一些钻研工作曾经解决了这些问题,以进步SOD的性能。一个值得注意的奉献来自Sun等人,他从FCOS(一个齐全卷积单级检测器)和faster RCNN中取得灵感,提出了两种仅编码器的DETR变体,称为TSP-FCOS和TSP-RCNN。这是通过打消解码器中的穿插留神模块来实现的。他们的钻研结果表明,解码器中的穿插留神和匈牙利损失的不稳定性是DETR前期收敛的次要起因。这一发现导致他们放弃了解码器,并在这些新的变体中引入了一种新的二部匹配技术,即TSP-FCOS和TSP-RCNN。 Peng等人通过联结应用cnn和transformer的办法,提出了一种称为“构形”的混合网络结构。该构造将cnn提供的部分特色示意与不同分辨率的transformer提供的全局特色示意相结合(见图8)。这是通过特色耦合单元(FCUs)实现的,试验后果证实了其与ResNet50、ResNet101、DeiT等模型相比的有效性。 意识到部分感知和随机相关性的重要性,Xu等人在Swintransformer的Swintransformer块中增加了一个部分感知块(LPB)。这种新的骨干,称为部分感知振荡变换(LPSW),显著地改良了地面图像中小指标的检测。DIAG-TR 在编码器中引入了一个全局-部分特色交错(GLFI)模块,以自适应和分层地将部分特色嵌入到全局示意中。这种技术均衡了小指标的尺度差别。此外,可学习的锚盒坐标被增加到transformer解码器中的内容查问中,提供了一个演绎偏差。在最近的一项钻研中,Chen等人提出了混合网络transformer,它通过将卷积嵌入到transformer块中扩大了部分信息的范畴。这一改良加强了对MS COCO数据集的检测后果。在另一项钻研中,作者提出了一种名为NeXtfrorm的新骨干,它联合了CNN和transformer,以加强小指标的部分细节和特色,同时也提供了一个全局的承受域。 在各种办法中,O2DETR 用深度可拆散卷积代替了transformer中的留神机制。这一变动不仅升高了与多尺度特色相干的内存应用和计算成本,而且还潜在地进步了航空照片的检测精度。 Wang等人质疑之前工作中应用的指标查问,提出了锚点DETR,它应用锚点进行指标查问。这些锚点加强了指标查问地位的可解释性。对每个锚点应用多个模式,改良了对一个区域内的多个指标的检测。相比之下,Conditional DETR 强调从解码器内容中衍生出的条件空间查问,从而导致空间留神预测。随后的一个版本,条件DETR v2 ,通过将指标查问从新结构为方框查问的模式,加强了体系结构。此批改波及嵌入一个参考点和针对参考点转换框。在随后的工作中,DABDETR通过应用动静可调的锚定盒,进一步改良了查问设计的思维。这些锚点框既作为参考查问点,又作为锚点尺寸(参见图9)。 在另一项工作 中,作者察看到,尽管DETR中小指标的均匀均匀精度(mAP)不能与最先进的(SOTA)技术竞争,但它在小IoU阈值下的性能惊人地优于其竞争对手。这表明,尽管DETR提供了较强的感知能力,但它须要进行微调,以取得更好的定位精度。作为一种解决方案,提出了粗到精密的检测transformer(CF-DETR),通过解码器层中的自适应尺度交融(ASF)和部分穿插留神(LCA)模块来进行这种细化。在之前的一个钻研中,作者认为,基于transformer的检测器的次优性能能够归因于应用繁多的穿插留神模块进行分类和回归、内容查问的初始化有余以及在自留神模块中不足利用先验常识等因素。为了解决这些问题,他们提出了检测决裂transformer(DESTR)。该模型将穿插注意力分为两个分支,一个用于分类,另一个用于回归。此外,DESTR应用了一个迷你检测器来确保在解码器中适当的内容查问初始化,并加强了自留神模块。另一项钻研引入了FEA-Swin,它利用了Swintransformer框架中的高级前景加强关注,将上下文信息集成到原始的骨干中。这是因为Swintransformer不能充沛解决密集的指标检测,因为短少相邻指标之间的连贯。因而,前景加强突出了须要进一步进行相关性剖析的指标。TOLO 是最近的工作之一,旨在通过一个简略的颈部模块将感应偏差(应用CNN)引入transformer架构。该模块联合了来自不同层的个性,以合并高分辨率和高语义的属性。设计了多个光transformer磁头,用于检测不同尺度下的指标。由Liang等人提出的CBNet,不是批改每个架构中的模块,而是将通过复合连贯连贯的多个雷同的骨干进行分组。 在多源聚合transformer(MATR)中,该transformer的穿插留神模块用于利用来自不同视图的同一指标的其余反对映像。一项钻研中也采纳了相似的办法,其中多视图视觉transformer(MVViT)框架联合了来自多个视图的信息,包含指标视图,以进步当指标在繁多视图中不可见时的检测性能。 其余工作更喜爱保持YOLO架构。例如,SPH-Yolov5 在Yolov5网络的较浅层中减少了一个新的分支,以交融特色,以改良小指标定位。它还首次在Yolov5管道中退出了Swintransformer预测头。 另一项钻研中,作者认为,匈牙利损失的间接一对一的边界盒匹配办法可能并不总是无利的。他们证实了应用单组分配策略和应用NMS(非最大克制)模块能够导致更好的检测后果。与这个观点相同,Group DETR 通过一对一的标签调配实现了K组指标查问,从而对每个高空实在指标进行K个正指标查问,以进步性能。 DKTNet提出了一种双键transformer网络,其中应用了两个键——一个是Q流,另一个是V流。这加强了Q和V之间的一致性,从而改善了学习能力。此外,通过计算通道留神而不是空间留神,并应用一维卷积来减速该过程。 3.5 Auxiliary Techniques 试验结果表明,辅助技术或工作与主工作相结合,能够进步性能。在transformer的背景下,曾经采纳了几种技术,包含: (i)辅助解码/编码损失:这是指为边界框回归和指标分类而设计的前馈网络连接到独自的解码层的办法。因而,将不同尺度上的个体损失组合起来来训练模型,从而取得更好的检测后果。该技术或其变体已用于ViDT ,MDef-DETR,CBNet,SRDD 。(ii)迭代框细化:在这种办法中,每个解码层内的边界框都是依据前一层的预测进行细化的。这种反馈机制逐步提高了检测精度。该技术已用于ViDT 。(iii)自上而下的监督:这种办法利用人类可了解的语义来帮忙检测小的或类不可知的指标的简单工作,例如,MDef-DETR 中的对齐图像文本对,或TGOD 中的文本疏导指标检测器。(iv)预训练:这包含在大规模数据集上进行训练,而后对检测工作进行特定的微调。该技术已被用于CBNet V2-TTA 、FPDETR、T-TRD、SPH-Yolov5、MATR ,并广泛应用于DETR v2组。(v)数据加强:该技术通过利用旋转、翻转、放大、裁剪、翻译、增加噪声等各种加强技术,丰盛了检测数据集。数据加强是一种罕用的解决各种不均衡问题的办法,例如,在深度学习数据集中指标大小的不均衡。数据加强能够被看作是一种间接的办法,以最小化训练集和测试集之间的差距。一些办法在检测工作中应用了加强性能,包含TTRD [43]、SPH-Yolov5 、MATR 、NLFFTNet 、DeoT、HTDet和Sw-YoloX 。(vi)一对多标签调配:DETR中的一对一匹配会导致编码器内较差的甄别特色。因而,在其余办法中,一对多的作业,如Faster-RCNN、RetinaNet和FCOS曾经被用作CO-DETR的辅助头部。(vii)去噪训练:该技术旨在进步DETR中解码器的收敛速度,因为二部匹配而常常面临不稳固的收敛问题。在去噪训练中,解码器将有噪声的高空实在标签和盒子输出解码器。而后训练该模型来重建原始的GT值(在一个辅助损失的疏导下)。像DINO 和DN-DETR 这样的实现曾经证实了该技术在进步解码器的稳定性方面的有效性。 3.6 Improved Feature Representation 只管以后的指标检测器在惯例大小或大型指标的广泛应用中杰出,但某些用例须要专门的个性示意来改良SOD。例如,当波及到检测航空图像中的定向指标时,任何指标旋转都能够大大扭转特色示意,因为在场景中减少的背景噪声或杂波(区域倡议)。为了解决这个问题,Dai等人提出了AO2-DETR,这是一种设计为对任意指标旋转具备鲁棒性的办法。这是通过三个要害组件来实现的: (i)定向候选的生成,(ii)定向候选的改良模块,它提取旋转不变特色,以及(iii)旋转感知集匹配损失。这些模块有助于对消指标的任何旋转的影响。在一种相干的办法中,DETR++应用了多个双向特色金字塔层(BiFPN),它们以自底而上的形式利用于来自C3、C4和C5的特色图。而后,只抉择一个代表所有尺度特色的尺度,输出DETR框架进行检测。对于一些特定的应用程序,如工厂平安监测,其中感兴趣的指标通常与人类工人相干,利用这些上下文信息能够极大地改善特色示意。PointDet++ 利用了这一点,联合了人体姿势预计技术,集成了部分和全局特色来进步SOD性能。影响特色品质的另一个关键因素是骨干网络及其提取语义和高分辨率特色的能力。GhostNet提供了一个精简和更高效的网络,为transformer提供高质量、多尺度的性能。他们在这个网络中的Ghost模块局部生成输入特色图,其余部分应用简略的线性操作来复原。这是缓解骨干网络复杂性的关键步骤。在医学图像剖析的背景下,MStransformer应用自监督学习办法对输出图像执行随机掩模,这有助于重建更丰盛的特色,较不敏感的噪声。与分层transformer相结合,这种办法优于具备各种骨干的DETR框架。小指标偏好DETR(SOFDETR),特地反对通过在输出到DETR-transformer之前合并来自第3层和第4层的卷积特色来检测小指标。NLFFTNet通过引入非部分特色交融transformer卷积网络,捕捉不同特色层之间的长距离语义关系,解决了以后交融技术中只思考部分交互的局限性。DeoT 将一个仅限编码器的transformer与一个新的特色金字塔交融模块合并。通过在通道细化模块(CRM)和空间细化模块(SRM)中应用通道和空间注意力,加强了这种交融,从而可能提取出更丰盛的特色。HTDet 的作者提出了一种细粒度的FPN来累积交融低级和高级特色,以更好地进行指标检测。同时,在MDCT 中,作者提出了一个多核扩大卷积(MDC)模块,以同时利用小指标的本体和相邻空间特色来进步小指标相干特征提取的性能。该模块利用深度可拆散卷积来升高计算成本。最初,RTD-Net的一个特色交融模块配对了一个轻量级的骨干,通过拓宽承受域来加强小指标的视觉特色。RTD-Net中的混合留神模块,通过合并小指标四周的上下文信息,使零碎可能检测局部被遮挡的指标。 3.7 Spatio-Temporal Information 在本节中,咱们的重点齐全是基于视频的指标检测器,旨在辨认小指标。尽管许多这些钻研曾经在ImageNet VID数据集上进行了测试,但该数据集最后并不是用于小指标检测的。尽管如此,也有一些工作报告了他们对ImageNet VID数据集的小指标的后果。跟踪和检测视频中的小指标的主题也曾经利用transformer体系结构进行了摸索。尽管基于图像的SOD技术能够利用于视频,但它们通常不利用有价值的工夫信息,这对于辨认芜杂或遮挡帧中的小指标特地有用。transformer在个别指标检测/跟踪中的利用始于跟踪transformer和TransT。这些模型应用了帧到帧(设置前一帧作为参考)设置预测和模板到帧(设置一个模板帧作为参考)检测。Liu等人是第一批应用transformer专门用于基于视频的小指标检测和跟踪的人之一。他们的外围概念是更新模板框架,以捕获由小指标的存在引起的任何小的变动,并在模板框架和搜寻框架之间提供一个全局的留神驱动的关系。 通过引入端到端指标检测器TransVOD,基于transformer的指标检测取得了正式的辨认。该模型将空间和工夫transformer利用于一系列视频帧,从而辨认和连贯到这些帧中的指标。TransVOD曾经产生了几个变体,每个变体都有独特的个性,包含实时检测性能。PTSE采纳渐进策略,关注工夫信息和指标帧间的空间转换。它采纳了多尺度的特征提取来实现这一指标。与其余模型不同,PT-SEFrorter间接从相邻帧而不是整个数据集回归指标查问,提供了一种更本地化的办法。Sparse VOD 提出了一种端到端可训练的视频指标检测器,它联合了工夫信息来提出区域倡议。相比之下,DAFA 强调了视频中全局特色的重要性,而不是部分工夫特色。DEFA指出了FIFO记忆构造的低效,并提出了一种采纳指标级记忆代替帧级记忆的多样性感知记忆作为留神模块。VSTAM 在一一元素的根底上进步了特色品质,而后在将这些加强的特色用于指标候选区域检测之前执行稠密聚合。该模型还联合了内部记忆,以利用长期的上下文信息。在FAQ工作中,提出了一种在解码器模块中应用查问特色聚合的新型视频指标检测器。这与专一于编码器中的个性聚合的办法或对不同帧执行后处理的办法不同。钻研表明,该技术的检测性能优于SOTA办法。 ...

February 21, 2024 · 1 min · jiezi

关于transform:解读-EventBridge-Transform数据转换和处理的灵活能力

阿里云 EventBridge 提供了弱小而灵便的事件总线服务,它能够连贯应用程序、阿里云云服务和阿里云 Serverless 服务来疾速构建 EDA(Event-driven Architectures)事件驱动架构,驱动利用与利用,利用与云的连贯。除此之外,它还能够作为流式的数据管道,在不同的数据仓库和数据处理或分析程序之间疾速构建 ETL 零碎。 本文将从以下几个方面开展对阿里云 EventBridge Transform 能力的介绍: 1)首先介绍 ETL 基本概念; 2)接着介绍 T(Transform)的能力; 3)最初探讨 EventBridge Transform 能力及落地场景。 1.什么是 ETL?ETL 示意的是数据提取(Extract)、转换(Transform)和加载(Load)的过程,是数据集成的外围工作。三个步骤的次要作用如下: 1.1 提取从数据源中提取数据,数据源能够是各种数据存储系统,比方音讯队列、数据库等。 1.2 转换对提取的数据进行转换操作,比方数据富化、数据荡涤、数据聚合、数据拆分、格局转换等。 1.3 加载将通过转换后的数据加载到指标服务中,比方数据仓库、数据湖、BI 零碎等。ETL 利用宽泛,它能够帮忙企业治理和利用数据,实现数据驱动的决策和业务转型。 2.T(Transform)的能力2.1 Transform 利用场景ETL 中的 T(Transform)能够对提取的数据进行转换操作,它具体的应用场景如下: 2.1.1 数据富化调用内部服务获取额定信息丰盛原始数据,进步数据的残缺度和可应用性。 2.1.2 数据荡涤对原始数据进行荡涤或验证,去除反复、缺失或者不精确的数据,确保数据的品质和准确性,或者对数据中的信息进行脱敏,确保 数据的安全性。 2.1.3 数据聚合将多条原始数据进行合并,造成一个对立的数据视图,便于后续的疾速剖析和查问。 2.1.4 数据拆分将单条原始数据依据业务需要拆分为多条数据。 2.1.5 数据格式转换将上游数据转换为指标服务可承受的格局,比方将 Base64、Avro、PB 等格局的原始数据对立转换为 json 格局。 通过 Transform,能够将原始数据转化为一致性、准确性和安全性兼具的高质量数据,为后续的数据分析等操作提供牢靠的根底。 2.2 业界 Transform 架构概述目前业界的 Transform 能力,常见的做法有以下几类: 2.2.1 内置开箱即用的简略且轻量的 Transform 能力数据荡涤:去除数据中的敏感字段、解决乐音数据等。 数据格式转换:将数据中的指定字段转换为特定格局。 2.2.2 内置 Custom Transform 能力用户可自定义 Transform 的逻辑。这种常见的做法是:用户依据 Custom Transform 的接口标准,实现接口并将实现的代码打成 jar 包,之后在零碎导入该 jar 包即可应用本人编写的 Transform 逻辑。 ...

February 19, 2024 · 2 min · jiezi