关于自然语言处理:大语言模型距离替代程序员还有多远

1 背景

为理解基于大语言模型的代码生成的能力和原理，对要害的原始论文进行浏览和总结。

论文浏览准则：

在大模型生成代码畛域，具备代表性的奠定论文
能说分明最新前沿状况的最新论文

1.1 国外钻研现状

“AI 助手”与程序员并肩工作的想法存在于咱们的设想几十年了，它催生了来自编程语言[Ferdowsifard et al. 2020; Miltner et al. 2019; Ni et al. 2021; Raychev et al. 2014]和机器学习[Guo et al. 2021; Kalyan et al. 2018; Xu et al. 2020]社区的大量工作。因为大型语言模型(LLMs) [Li et al. 2022; Vaswani et al. 2017]的最新冲破，这个幻想变得靠近了。OpenAI的Codex模型[Chen et al. 2021]蕴含120亿个模型参数，训练了GitHub上5400万个软件库，可能正确解决30-70%的惯例的Python问题，而DeepMind的AlphaCode [Li et al. 2022]在竞争性编程平台Codeforces上排名前54.3%，超过了5000名人类程序员。凭借这种令人印象粗浅的体现，大型代码生成模型正在迅速逃离钻研实验室，为工业编程助手工具提供能源，例如Github Copilot [Friedman 2021]。

2 代表性的论文工作

2.1 OpenAI 的 Codex（2021）

2.1.1 概述

论文地址：Evaluating Large Language Models Trained on Code

论文摘要：

Codex是一种GPT语言模型，它是在GitHub上公开可用的代码上进行了微调，钻研了它的Python代码编写能力。Codex的生产版本驱动GitHub Copilot。在咱们公布的新评估集HumanEval中，咱们用于从docstrings合成程序的模型解决了28.8%的问题，而GPT-3解决了0%，GPT-J解决了11.4%。此外，咱们发现从模型中反复采样是一种出乎意料的无效策略，可用于生成解决难题的工作计划。应用这种办法，咱们每个问题应用100个样本解决了70.2%的问题。对咱们模型的认真考察揭示了其局限性，包含难以描述长操作链的docstrings以及将操作绑定到变量上。最初，咱们探讨了部署弱小的代码生成技术可能带来的潜在宽泛影响，涵盖平安、平安和经济方面。

这篇论文是对于评估在代码上训练的大型语言模型的。论文介绍了Codex，这是一个在GitHub上公开可用的代码上进行微调的GPT3语言模型，并钻研了它的Python代码编写能力。Codex的生产版本为GitHub Copilot提供反对能力。

论文钻研的动机：

因为思考到大语言模型通常很难在没有通过学习的数据集中体现良好，而 GPT3 的训练数据中比拟少蕴含代码数据，因而，论文作者决定基于 GPT3 上做代码的微调。另外一方面，作者们认为代码生成有广大的利用前景，该问题值得被钻研。

我的项目	OpenAI Codex	备注
大语言模型	GTP3
验证数据集	HumanEval dataset	OpenAI 钻研人员自行结构的 164 个比拟惯例的编程工作。164 original programming problems with unit tests.https://www.github.com/openai/human-eval
训练数据起源	54 million public software repositories hosted on GitHub通过荡涤后，159 GB 的程序文件。
输出和输入格局	输出：程序函数的正文输入：程序代码
训练形式	针对 GPT3 进行微调
利用场景	Github Copilot
局限性	正文输出不能太长

2.1.2 论文验证论断

PASS @ K 是指给定编程工作，生成 K 程序后果后通过的概率，惯例状况下，咱们认为一次生成一次做对的能力更有说服力，论文中提到生成 10 和 100 个带有肯定随机的程序后果，并且其中至多有一个能通过的概率。

模型版本	形容	参数规模	数据集的验证后果PASS@1	备注
Codex	基于编程数据集微调（Fine-tuning）后的 Codex	120 亿	28%	基于GPT3
原始GTP3	未通过微调的原始 GPT3	1750 亿	0%	GPT3 并未刻意学习过程序代码
GPT-Neo	2021 年另外一个钻研	27 亿	6.4%
GPT-J	2021 年另外一个钻研	60亿	11.62%

2.1.3 随着大语言模型规模的扩充，模型生成代码的准确率持续上升

尽管code generation 的成果随着模型规模的回升而回升，然而，它们之间并非线性相关，参数规模回升一个数量级，正确率只会回升一点点。

2.1.4 论文小结

HumanEval 的工作比较简单，即便在这样简略的工作中，一次生成正确程序的概率只有 28.8%。对于程序员来说，帮忙很无限。
原始的大语言模型并未学习过 code generation 工作，其成果会比拟差，必须进行微调。
尽管code generation 的成果随着模型规模的回升而回升，然而，它们之间并非线性相关，参数规模回升一个数量级，正确率只会回升一点点。

2.2 DeepMind（Google）的 AlphaCode（2022）

2.2.1 概述

论文地址：Competition-level code generation with alphacode

摘要：

编程是一种弱小而广泛的问题解决工具。开发可能帮助程序员甚至独立生成程序的零碎能够使编程更具生产力和可拜访性，但迄今为止，将AI翻新纳入其中曾经证实是具备挑战性的。最近的大规模语言模型展现了生成代码的令人印象粗浅的能力，当初可能实现简略的编程工作。然而，这些模型在评估须要超出简略将指令转换为代码的问题解决技能的更简单、未知问题时仍体现不佳。例如，须要了解算法和简单自然语言的竞争性编程问题依然极具挑战性。为了解决这一差距，咱们引入了AlphaCode，一个用于代码生成的零碎，能够创立这些须要更深刻推理的问题的新鲜解决方案。在Codeforces平台上最近的编程较量的模仿评估中，AlphaCode在超过5,000名参赛者的较量中均匀排名前54.3%。咱们发现，要实现良好且牢靠的性能，有三个要害组成部分：（1）用于培训和评估的宽泛而洁净的竞争性编程数据集，（2）大型且高效采样 Transformer 架构，以及（3）大规模模型采样以摸索搜寻空间，而后依据程序行为过滤到一小部分提交。

AlphaCode是 DeepMind 公布的一个代码生成零碎，也是基于 Transformer 架构，它在Codeforces平台上的编程比赛中取得了均匀排名为Top 54.3%的问题。

相比于 Codex，它反对更长的文档输出，生成更简单的代码（比赛级的代码）。这篇论文在媒体流传上有一个题目“战胜一半的程序员”（就是一个题目党！）。

我的项目	OpenAI Codex	备注
模型	基于 Transformer 架构的模型
验证数据集	比赛题目
训练数据起源	54 million public software repositories hosted on GitHub蕴含的语言：C++, C#, Go, Java, JavaScript, Lua, PHP, Python, Ruby, Rust, Scala, and TypeScript来自开源的 Github 代码，通过荡涤后，159 GB 的程序文件。除此之外，模型还专门针对比赛题目进行了额定的fine-turning 训练（CodeContests 数据集）
输出和输入格局	输出：程序函数的正文输入：程序代码
训练形式	-
利用场景	-

2.2.2 推理模型的输出和输入

竞赛题目标输出：

输入为编程程序：

2.2.3 模型架构

超参数设置：

n（Params）：模型的参数规模，最高达到 410 亿

d（dimension）：token 的向量维度数，d指 dimension

Query、KV（Key、Value）、Enc（Encode，编码）、Dec（Decode，解码）：Transformer 架构内的超参数

Batch：训练的 Batch 大小

Steps：训练步数

Tonkens：自然语言的拆解最小单位

2.2.4 模型验证后果

2.2.5 论文小结

该论文尽管号称在编程比赛中击败了 50% 的人类，实际上，该表述存在肯定的水分：

模型生成 1000 个程序，选取得分最高的 10 个程序后果提交到验证程序，通过率最高只有 16.4%。
在理论的编程比赛中，频繁提交是会被罚分的。
程序员在理论的开发过程中，不太可能让模型提供 1000 个程序的排序后果，而后让程序员抉择，程序员浏览这些程序就要消耗不少工夫，这种模式的理论研发效率比拟低。这也解释了为什么给 GitHub Copilot 写一个代码正文，它会提供好几个代码版本让程序员抉择。

2.3 北京大学的 TIP（2023.5）

2.3.1 概述

论文原文：Enabling Programming Thinking in Large Language Models Toward Code Generation

摘要：

大型语言模型（LLMs）（例如ChatGPT）在代码生成方面体现出了令人印象粗浅的性能。一项大规模钻研表明，编写程序须要编程思维，即剖析和实现编程逻辑中的要求（例如，程序、分支、循环）。现有钻研应用LLMs间接从要求生成程序，而不明确介绍编程思维。本文探讨如何在代码生成中解锁LLMs的编程思维，并提出了一种名为TIP的办法。咱们的想法是将代码生成合成为两个步骤，并逐渐疏导LLMs剖析和实现编程逻辑中的要求。具体而言，TIP首先生成一个代码草图，该草图应用编程逻辑提供高级解决方案，但省略了实现细节（例如API）。而后，TIP应用特定的编程语言将草图实现为程序。

咱们在三个公共基准测试（即HumanEval、MBPP和MBCPP）上进行了宽泛的试验。(1) TIP在Pass@1、Pass@3和Pass@5方面的体现优于最先进的基线-ChatGPT，别离进步了17.5％、11.02％和9.84％。(2) 人类评估显示，TIP在三个方面（即正确性、代码品质和可维护性）方面优于ChatGPT。(3) TIP对不同的LLMs无效。(4) 咱们探讨了多种抉择（例如思路链）的代码草图，并验证了咱们设计的优越性。(5) 咱们探讨了TIP与后处理办法（例如CodeT）之间的互补性。

选取浏览的起因：

论文发表于 2023 年 5 月，比拟新，它蕴含了过往三年的 code generation 的办法的总结和比照，并且提出了一个比拟特地的代码生成思路。

模型要害信息

我的项目	OpenAI Codex	备注
模型	基于 Transformer 架构的模型
验证数据集	- HumanEval 是 OpenAI 结构的一个Python函数级别的代码生成基准测试，其中蕴含164个手写编程问题。每个编程问题由一个英文要求、一个函数签名和几个测试用例组成，均匀每个问题有7.7个测试用例，之前用于 Codex 验证。

MBPP 是一个Python函数级别的代码生成基准测试。它蕴含974个编程问题，波及简略的数字操作或规范库的根本应用。每个问题都蕴含一个英文要求、一个函数签名和三个手动编写的测试用例，用于查看函数。
MBCPP 是一个C函数级别的代码生成基准测试。它由众包收集了848个编程问题。每个问题都蕴含一个英文形容、一个函数签名和三个测试用例，用于查看函数的正确性。 | 验证集比较简单。 |
| 训练数据起源 | | |
| 输出和输入格局 | 见下文 | |
| 训练形式 | - | |
| 利用场景 | - | - |

2.3.2 模型架构

将代码生成拆解成两段：

输出和输入：

2.3.3 论文验证论断

该论文发表于 2023 年 5 月，简直是最新的对于 code generation 论文，它蕴含了最近三年各个 code generation 模型的成果比照，咱们采纳最基准的 HumanEval 作为基准验证集，可看见，即便在拆解步骤的状况下，一次生成的代码正确率也仅有 60%，ChatGPT（3.5）非步骤拆解的形式，一次生成正确代码的正确率也仅有 52%，然而，其参数规模曾经高达 1750 亿。

依据前文可知，尽管模型的参数规模扩充，代码的正确率会持续上升，然而，它们之间并非线性相关，通常是模型的参数进步一个数量级，代码生成的准确率只能进步 5-10% 。而且，该验证集依然只是比较简单的编程工作。

3 总结

惯例大语言模型并未专门针对编程语言进行学习，它并不善于代码生成，因而，针对代码通常须要进行专门的微调（fine-turning），甚至专门训练面向代码的大模型。
从模型的原理、现状看，大模型在短时间内取代程序员并不事实，任重道远。即便面对比较简单的编程工作（HumanEval），ChatGPT 一次生成正确的概率也只有 52%，2023 年 5 月最 SOTA 的办法能达到 60%。在可预感的将来，AI 依然只能表演辅助编程的角色。
模型参数规模越大，越有利于进步程序生成的准确率，然而，这种鼎力出奇观的办法，须要消耗的计算成本也较高。通常是模型的参数进步一个数量级，代码生成的准确率只能进步 5-10% 。以此进行粗略推算，模型参数规模达到 10 万亿级别（相比 ChatGPT3.5 进步 100 倍），利用最前沿的办法，又或者算法自身取得极大的冲破，才有机会在简略工作中达到 90% 的一次生成正确率。

（篇幅所限，没有开展具体原理，对具体原理、数学公式感兴趣的同学，可点击原始论文哈）

4 参考文献

Code generation 系列论文：

Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.

Li Y, Choi D, Chung J, et al. Competition-level code generation with alphacode[J]. Science, 2022, 378(6624): 1092-1097.

Wang Y, Wang W, Joty S, et al. Codet5: Identifier-aware unified pre-trained encoder-decoder models for code understanding and generation[J]. arXiv preprint arXiv:2109.00859, 2021.

Barke S, James M B, Polikarpova N. Grounded copilot: How programmers interact with code-generating models[J]. Proceedings of the ACM on Programming Languages, 2023, 7(OOPSLA1): 85-111.

Li J, Li G, Li Y, et al. Enabling Programming Thinking in Large Language Models Toward Code Generation[J]. arXiv preprint arXiv:2305.06599, 2023.

GPT 系列的论文（别离为 ChatGPT 1、2、3、3.5、4）：

Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.

Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.

Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.

OpenAI R. GPT-4 technical report[J]. arXiv, 2023: 2303.08774.

本文作者：徐汉彬