GPTSecurity 是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等平安畛域利用的常识。在这里,您能够找到对于 GPT/AIGC/LLM 最新的钻研论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的奉献内容,现总结如下。
Security Papers
1.BadChain:大型语言模型的后门思维链
简介:大型语言模型(LLMs)通过链式思维(COT)提醒失去了晋升,但同时也面临后门攻打的威逼。研究者提出了 BadChain,一种针对 LLMs 的新型后门攻打,无需拜访训练数据集或模型参数,并且计算开销较低。BadChain 利用 LLMs 的推理能力,在模型输入中插入后门推理步骤,导致意外输入。研究者在多个 LLMs 和工作上展现了 BadChain 的有效性,尤其是对具备强推理能力的模型更易受攻击。现有的进攻办法对 BadChain 的成果无限,强调了将来进攻措施的迫切性。
链接:https://arxiv.org/pdf/2401.12242.pdf
2.ChatGPT 如何解决破绽治理问题
简介:本文应用大规模数据集摸索了 ChatGPT 在波及破绽治理工作的能力,并与 SOTA 办法进行比拟。结果显示,ChatGPT 在软件错误报告生成题目方面体现出熟练程度,但仍存在艰难和挑战,如如何无效疏导 ChatGPT 关注有用信息而不是无关内容。
链接:https://arxiv.org/pdf/2311.06530.pdf
3.LLM4Vuln: 一个对立的评估框架,用于解耦和加强 LLM 的破绽推理
简介:大型语言模型(LLM)在破绽检测等工作中展现了微小后劲。本文提出了一个评估框架 LLM4Vuln,将 LLMs 的破绽推理与其余能力离开,并通过试验发现了对于常识加强、上下文补充、提醒计划和模型的不同成果。在试点的破绽赏金打算中,发现了 9 个零日破绽并取得超过 1,000 美元的处分。
链接:https://arxiv.org/pdf/2401.16185.pdf
4. 应用大型语言模型进行破绽检测的微调
简介:本文通过微调大型语言模型(LLMs),特地是通过改良和适配 WizardCoder 模型,摸索了在源代码中检测破绽的工作。钻研团队对训练流程进行了调整,以适应不均衡的数据集,并通过不同技术改善分类性能。微调后的 WizardCoder 模型在均衡和不均衡的破绽数据集上都显示出相比于 CodeBERT 类模型更好的性能,特地是在 ROC AUC 和 F1 评估指标上。这一成绩不仅展现了预训练 LLMs 在源代码破绽检测方面的有效性,而且还强调了通过优化训练流程和解决数据不均衡问题来进步模型性能的重要性。此外,该钻研证实了利用大型预训练语言模型针对特定源代码剖析工作进行微调的转移学习后劲。
链接:https://arxiv.org/pdf/2401.17010.pdf
5. 用于破绽检测的大型语言模型:新兴后果和将来方向
简介:以前基于学习的破绽检测办法要么依赖于中型预训练模型,要么从头开始应用较小的神经网络。大型预训练语言模型(LLMs)的最新进展展现了在各种工作中杰出的少样本学习能力。然而,LLMs 在检测软件破绽方面的有效性尚未失去宽泛摸索。本文旨在填补这一空白,通过摸索 LLMs 在各种提醒下的体现,特地关注两个最先进的 LLMs:GPT-3.5 和 GPT-4。试验结果表明,GPT-3.5 在破绽检测方面获得了与先前最先进办法相竞争的性能,而 GPT- 4 始终体现优于最先进办法。
链接:https://arxiv.org/pdf/2401.15468.pdf