关于人工智能:ChatGPT写代码准确率暴降13％

58次阅读

共计 1241 个字符，预计需要花费 4 分钟才能阅读完成。

ChatGPT 炽热势头不减，各行各业的用户都在应用它来尝试是否代替业务原始工作内容。AI 将会取代某些职业的舆论也是层出不穷。有的人张望，有的人恐慌，有的人不在乎，有的人曾经开始钻研出论文了。关注这方面信息的人不难发现，不少程序员开始应用 ChatGPT 写代码了。并在网上放出了本人用 ChatGPT 编写的代码并进行了利用。大部分人还是持狐疑态度：ChatGPT 生成的代码，真的精确吗？最近来自伊利诺伊大学香槟分校和南京大学的一项最新钻研表明：ChatGPT 和 GPT- 4 生成代码的准确率，比之前评估的至多要升高 13%！其实就是采纳了新的测试方法对包含 ChatGPT 在内的 AI 生成代码工具进行测试。以往很多 ML 论文都在用一些有问题或有局限性的基准来评估模型，这就使得评估的准确性有肯定的偏差。这项最新钻研报告中提出他们应用了一种新的测试方法——EvalPlus，一种自动化代码评估框架来进行代码测试

这种测试方法通过改良现有评估数据集的输出多样性和问题形容准确性，来将这些评估基准变得更严格。作者们通过这个新的测试方法测试了以后比拟受欢迎的 14 种代码生成 AI，并贴出了 10 个平台的相应准确率表格。

数据显示：大模型们的准确率均匀降落了 15%，其中比拟宽泛钻研的 CODEGEN-16B 更是降落了超过 18%。ChatGPT 和 GPT- 4 生成代码的性能，也降落了至多 13%。很多人可能比较关心的是 AI 写代码为什么会存在准确率低的问题。为此小智向 AI 做出了发问，看看它是怎么答复的，以下为 AI 答复原文：问：AI 写代码的准确率低的起因是什么？AI 答复：数据集问题：数据集缺失值过多、样本不平衡、存在异样值等，都会影响模型的训练和推理成果。数据处理算法设计和实现问题：数据处理参数有误、未对数据进行归一化、特征提取算法存在谬误等，都会影响模型的准确率。算法设计和实现问题：API 应用谬误、没有遵循深度学习框架束缚、算子应用谬误、计算图构造谬误、权重共享谬误、权重解冻谬误等，都会影响模型的准确率。超参设置问题：超参数的设置不合理，例如学习率、批量大小、优化器等，都会影响模型的准确率。一般 python 编程谬误：例如代码格局不标准、变量未初始化、短少导入语句等，都会影响模型的准确率。环境问题：依赖软件问题、环境变量配置问题、云上环境问题等，都会影响模型的准确率。综上所述，AI 写代码准确率低的起因可能是数据集品质不佳、数据处理算法存在缺点、算法设计和实现不合理、超参数设置不合理、编程谬误等多种因素的综合影响。为了进步模型的准确率，须要对数据集进行品质管制，优化数据处理算法，调整超参数，查看代码格局和标准，以及正确配置环境等。你感觉 AI 写代码准确率低的起因是什么呢？又能通过哪些办法解决呢？相干论文获取可搜寻：Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation

正文完