关于challenge:ChatGPT的炼成方式和在哈啰营销落地能力

89次阅读

共计 3107 个字符，预计需要花费 8 分钟才能阅读完成。

ChatGPT 是由 OpenAI 开发的大型语言模型，能够帮忙咱们解决很多日常生活中的事件，如更改谬误、写小说、答复问题、翻译、写文案等。

GPT 一共有三代，即 GPT-1，GPT-2，GPT-3，目前十分火的 ChatGPT 是 GPT-3.5。GPT- 1 诞生于 2018 年 6 月，比 BERT 略早几个月，层数为 12 层，词向量长度为 768，训练参数量为 1.17 亿个，数据量为 5GB；时隔半年之后，GPT- 2 诞生于 2019 年 2 月，训练参数量为 15 亿个，数据量为 40GB；GPT- 3 诞生于 2020 年 5 月，训练参数量增长超过 100 倍至 1750 亿个，数据量达到 45TB。

GPT- 1 以 Transformer 为外围构造，是自左向右单向的。GPT- 2 提出了“所有的有监督学习都是无监督语言模型的一个子集”的思维，即它是一个无监督模型，两头所有的过程都是通过无监督去实现的。比照 GPT-2，GPT- 3 的模型构造上没有做任何的扭转，它应用了超大的数据和参数量，真正诠释了什么叫“暴力出奇观”。GPT 系列尽管都获得了不错的成绩，但始终会存在一个问题，即怎么样让它有害，它会生产出一些假的新闻，造成不好的社会影响。

自然语言外面有很多未标注数据，标好的数据比拟少。GPT- 1 面临的问题是在没有标注的中央学习一个语言模型，在标好的数据上训练一个小模型。在做无监督的时候，咱们会遇到两个最大的问题，一是不晓得指标函数是什么，二是怎么传递到下一个子工作。

GPT- 1 采纳的是传统语言模型的形式，k 是窗口的大小，窗口越大就代表整个工作会更难。

将这些预测的概率向量和它的地位编码进行联合，就能够失去 h0，h0 通过 transform 解码器去进行解码，最终就失去它的编码，最初会接上一个微调模型。

这是 GPT- 1 外面的利用，次要包含分类、蕴含、类似和多选，每一类工作都有一个标记，通知这是工作的开始阶段、两头阶段还是完结阶段，如果是分类工作就在开始和完结阶段两头抽取一个 text，开始和完结符号肯定是特殊符号，最好不要在这些文本当中呈现，最初咱们再接一个 Linear 的分类器。二是蕴含，即 B 是否可能反对 A，举个例子，小王和小李是好敌人，如果前面一句话是小王送给小李一个馒头，那么它的后果可能是正确的，这句话能证实他们是好敌人。如果是小王明天中午吃了一个馒头，这并不能证实小王和小李是好敌人。三是类似度的训练，相似头条的去重能够用到这样的算法。四是多选，即有 A、B、C 三个抉择，应该去抉择哪一个。当然整个的成果是不如 BERT 的，从技术难度上来说，BERT 会更简略，并且 GPT- 1 用的数据自身没有 BERT 那么大。

GPT- 2 模型来自论文《Language Models are Unsupervised Multitask Learners》，它心愿通过 zero-shot 有所翻新，即对于上游工作，不须要标注信息，在任何中央都能用。这里不能引入之前模型没见过的符号，提示符看上去更像一句话，这也是 ChatGPT 最后的一个版本，冒号后面通知它你要做什么事件，如在英语到法语的翻译工作中，给模型一个英语和法语。或者通知模型去答复一个问题，这个问题是什么，它会通知你答案是什么。作者在浏览了解、翻译、总结和答复问题上进行试验，能够发现 GPT- 2 在浏览了解和答复问题上成果会更好一些，同时当它的数据量越大，模型可能持续回升。

GPT- 3 模型来自论文《Language Models are Few-Shot Learners》，受到了 zero-shot 的启发，咱们发现用大量的数据去做标注很艰难，但如果一个样本都没有，它的泛化性不肯定好，同时人类不须要很大的数据去做工作。这里用了两个办法，一是元学习，二是 in-context learning。

接下来咱们来看一下 Zero-shot、One-shot、Few-shot 和 Fine-tuning 的区别。最常见的是 Fine-tuning，即会给一批新的数据，须要对原来的数据做肯定的梯度更新；Zero-shot 是说只给提醒，剩下本人去做；One-shot 是说会通知你去做什么，还会给一个示例；Few-shot 是说会给更多的示例，通知工作应该做成什么样。In-context learning 是它的外围，指咱们对模型进行疏导，教会它该当输入什么内容。

作者对这 3 种学习形式别离进行了试验，能够看到在成果上 Few-shot> One-shot > Zero-shot，且参数量越大模型体现越好。

ChatGPT 的训练能够分成三步，第一步是须要去做一个有监督的模型；第二步是去收集数据给模型一个反馈，即做强化学习；第三步是依据强化学习，去优化原来的模型。

整个训练过程能够分为四个阶段，包含文字接龙、找一个老师、让老师给评分以及成为老师。

ChatGPT 的第一个学习阶段是文字接龙，当咱们给出一个不残缺的句子，如“这个大白”，GPT 会接下一个字，如“大白天”、“大白美”、“大白丑”，每次输入都会不一样，然而它会有一个概率。这里咱们举个例子，如胡歌很帅，它刚开始学的就是胡，去预测胡歌；已知胡歌，去预测胡歌很；已知胡歌很，去预测胡歌很帅，整个过程齐全不须要人工标注。

文字接龙有什么用呢？它就可能帮咱们答复很多问题。如它在网上看到了一句话叫做“中国最大的淡水湖”，而后让它答复问题，它能够一个个字接下去，就可能会答复鄱阳湖。当然如果这样去做，它的准确率是非常低的，因为没有标注的数据，品质都是不可管制的。

比如说你问它“中国最大的淡水湖”，它可能答复“鄱阳湖”，也有可能答复“这个问题谁晓得呢”，还有可能答复网上的一个选择题“是鄱阳湖还是太湖呢”。那么，怎么让它输入稳定下来变得更加可控呢？

要达到一个可用的状态，就要给它找到一个老师，去提供正确的答案，当然这种答案不须要特地多，ChatGPT 外面大概给了一万个正确的答案。老师就会通知它“中国最大的淡水湖是鄱阳湖”，而后对这些正确的答案加上更多的权重，通知它人类的偏好是这样的，激发它原本的力量，原本 ChatGPT 也有能力生成这些答案。

当它找到老师当前，就能够去缓缓模拟一个老师的爱好。当 GPT 去输入“鄱阳湖”、“太湖”的时候，会有一个判断器通知说得分是多少，如果是“鄱阳湖”就能够给它更高的分数。

在失去评分的规范后，咱们须要把规范通知 GPT，让它晓得这个答案是正确的，这就是比拟常见的强化学习。即会通知你，如果你答复对了，我会给你一个处分，而后你去反馈到 GPT 当中去，给鄱阳湖加上更多的权重，这样 ChatGPT 就会本人成为老师，晓得什么样的答案是正确的答案。

ChatGPT 最外围的观点有两个，一是应用了超大的参数，二是给数据做高质量的标注。这能够给算法同学一个启发，咱们大部分工夫能够不花在怎么用一些 DIN、DCN、DeepFM 之类的模型，更重要的是须要去给它更多的数据，加大它的参数量；二是高分量的标注，训练样本的品质肯定要高，不能给一些谬误或者含糊的答案，要给的数据标签肯定要是十分正确的标签。在哈啰目前还没有一个超大模型呈现，利用在举荐、营销、定价等各个方向。

利用场景次要有两个，一是逛逛，在 ChatGPT 下面咱们能够通知它一句话，而后它能够去生成图片，或者在逛逛外面的一个问题，咱们能够用 ChatGPT 去辅助答复。二是经营同学在做广告标签的时候，咱们能够去让 ChatGPT 生成这些标语，拿过去给它十句左右的提醒语，适应哈啰的场景。

本文参加了 SegmentFault 思否写作挑战赛，欢送正在浏览的你也退出。

正文完

challenge

发表至： challenge

2023-02-23

0

关于challenge:Linux和Windows系统下AnacondaPaddlepytorch含GPUCPU版本详细安装过程

关于challenge:从零开始的知识图谱生活构建一个百科知识图谱基于ES的简单语义搜索

关于challenge:深度学习基础入门篇七常用归一化算法层次归一化算法归一化和标准化区别于联系应用案例场景分析

关于challenge:ChatGPT的炼成方式和在哈啰营销落地能力

关于数据库:实践教程之如何在-PolarDBX-中进行-Online-DDL

关于challenge:ChatGPT的炼成方式和在哈啰营销落地能力

GPT 的演进

GPT-1

GPT-2

GPT-3

ChatGPT 的原理

文字接龙

找一个老师

让老师给评分

成为老师

ChatGPT 在营销的利用

Just My Socks（注册教程内含优惠码）

关于challenge:ChatGPT的炼成方式和在哈啰营销落地能力

GPT 的演进

GPT-1

GPT-2

GPT-3

ChatGPT 的原理

文字接龙

找一个老师

让老师给评分

成为老师

ChatGPT 在营销的利用

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）