共计 2759 个字符,预计需要花费 7 分钟才能阅读完成。
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models
https://arxiv.org/abs/2306.03799
Prompt engineering 是通过提供明确和具体的指令来加强大型语言模型 (llm) 能力的根本技术。它使 LLM 可能在各种工作中怀才不遇,例如算术推理、问题答复、摘要、关系提取、机器翻译和情感剖析。钻研人员始终在积极探索不同的提醒工程策略,如思维链 (CoT)、零样本思维链(Zero-CoT) 和情境学习(In-context learning)。然而一个尚未解决的问题是,目前的办法不足确定最佳提醒的松软实践根底。为了解决提醒工程中的这一问题,论文提出了一种新的、无效的办法——提醒空间。
ESL-SNNs: An Evolutionary Structure Learning Strategy for Spiking Neural Networks
https://arxiv.org/abs/2306.03693
缩小 SNN 模型大小和计算,同时在训练过程中通过修剪和再生连贯的进化过程放弃准确性。
在推理过程中,Spiking neural networks 在功耗和事件驱动个性方面体现出显著的劣势。为了充分利用低功耗的劣势,进一步提高这些模型的效率,论文摸索了在训练后寻找冗余连贯的稠密 snn 的剪枝办法。在人脑中,神经网络的从新布线过程是高度动静的,而突触连贯在大脑发育过程中放弃绝对稠密。受此启发,轮文提出了一种高效的 SNN 进化构造学习 (ESL) 框架,命名为 ESL-SNN,用于从头开始实现稠密 SNN 的训练。
Segment Anything in High Quality
https://arxiv.org/abs/2306.01567
用掩码校对对 SAM 进行批改能够进步性能,特地是在边缘状况下。
SAM 代表了一个微小的飞跃,只管应用了 11 亿个掩码进行训练,但 SAM 的掩码预测品质在许多状况下都存在有余,特地是在解决结构复杂的物体时。论文精心设计重用并保留了 SAM 的预训练模型权重,同时只引入了最小的额定参数和计算。
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
https://arxiv.org/abs/2306.03078
通过量化将 llm 压缩到每个 Int4,能够实用于笔记本电脑和移动电话等内存无限的设施,从而实现个性化应用。然而量化到每个参数 3 - 4 位通常会导致中等到高的精度损失,特地是对于 1 -10B 参数范畴内的较小模型。为了解决这个准确性问题,论文引入了稠密量化示意(SpQR),这是一种新的压缩格局和量化技术,首次实现了 llm 跨模型尺度的近无损压缩,同时达到了与以前办法类似的压缩程度。SpQR 的工作原理是辨认和隔离导致特地大的量化误差的异样权重,并以更高的精度存储它们,同时将所有其余权重压缩到 3 - 4 位。
Tracking Everything Everywhere All at Once
https://arxiv.org/abs/2306.05422
从视频序列中预计密集和远距离静止的测试工夫优化办法。
先前的光流或粒子视频跟踪算法通常在无限的工夫窗口内运行,难以通过遮挡进行跟踪并放弃预计静止轨迹的全局一致性。论文提出了一种残缺且全局统一的静止示意,称为 OmniMotion,它容许对视频中的每个像素进行精确的全长静止预计。OmniMotion 应用准 3d 标准体积示意视频,并通过本地和标准空间之间的双射执行逐像素跟踪
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding
https://arxiv.org/abs/2306.06094
大型语言模型 (llm) 在自然语言了解和生成方面获得了重大进展。然而它们在计算机视觉方面的后劲在很大水平上仍未被摸索。论文介绍了一种新的探索性办法,使 llm 可能应用可缩放矢量图形 (SVG) 格局解决图像。通过利用基于 xml 的 SVG 示意的文本形容而不是光栅图像,指标是弥合视觉和文本模式之间的差距,容许 llm 间接了解和操作图像,而不须要参数化的视觉组件
TrajectoryFormer: 3D Object Tracking Transformer with Predictive Trajectory Hypotheses
https://arxiv.org/abs/2306.05888
三维 MOT 技术在罕用的检测跟踪模式下获得了重要停顿。然而这些办法仅应用以后帧的检测盒来取得轨迹盒关联后果,这使得跟踪器无奈复原检测器错过的指标。论文提出了一种新的基于点云的 3D MOT 框架——TrajectoryFormer。
MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images
https://arxiv.org/abs/2306.07257
MovieFactory 是一个弱小的框架,能够依据自然语言的需要生成电影图片 (3072×1280),电影格调(多场景) 和多模态 (声音) 电影。作为所知的第一个齐全自动化的电影生成模型,论文的办法使用户可能应用简略的文本输出创立具备晦涩过渡的迷人电影,超过了现有的制作无声视频的办法,这些无声视频仅限于一个中等品质的场景。为了促成这种独特的性能,利用 ChatGPT 将用户提供的文本扩大为用于电影生成的具体程序脚本。而后通过视觉生成和音频检索使脚本在视觉和听觉上栩栩如生。
DEYOv2: Rank Feature with Greedy Matching for End-to-End Object Detection
https://arxiv.org/abs/2306.09165
通过改良对 Ground Truth 匹配的预测来改良用于指标检测工作的 transformer。
提出了一种新的指标检测器 DEYOv2,它是第一代 DEYO(带有 YOLO 的 DETR)模型的改良版本。与其前身相似,DEYOv2 采纳渐进式推理方法来减速模型训练并进步性能。论文深入研究了一对一匹配在优化中的局限性,并提出了无效的解决方案,如 Rank Feature 和 Greedy matching。这种办法使 DEYOv2 的第三阶段可能在不须要 NMS 的状况下最大限度地从第一阶段和第二阶段获取信息,实现端到端优化。
https://avoid.overfit.cn/post/b4e61ad1dc414676bcad40bc558c892c