关于challenge:三分钟看完关于-ChatGPT-的技术概括

最近一段时间 OpenAPI 的人工智能聊天机器人 ChatGPT 火了，在寰球领有百万用户，有数投资人的青睐有加，掀起自媒体一场狂欢。在 ChatGPT 公布当前，其公司 OpenAI 的市值曾经超过了 290 亿美元。

在这里我想简略地聊一聊 ChatGPT 背地依赖的技术，再畅想一下它对咱们这个世界可能带来的扭转。

监督式学习是一种机器学习的范式，它示意所有的输出样本都有标注标签。以往的一些机器学习利用，例如：辨认图片中的物体，语音转文字，文字辨认等等，大部分是采纳了这种学习范式。

在 ChatGPT 的训练过程中，工作人员会与 AI 进行对话，以人工的形式进行标注。

强化学习是有别于监督学习的另一种机器学习范式，它可能使 AI 自主地寻找最优计划。它的特点是不再须要标注好的样本，也不须要人工地去纠正行为。AI 会在已知与未知之间找到平衡点。一些对抗性的人工智能利用，比方：会打 Dota 的 AI，驰名的围棋 AI alphago 等等，都是应用这种学习范式。

在 ChatGPT 的训练过程中，人类先给 AI 的对话回复进行打分，之后依据这些打分生成一个评分模型，之后便能够训练 AI 去取得更高的评分。

ChatGPT 的训练过程是事后实现好的，在微软的 Azure 云的超级计算基础设施上实现。

大型语言模型好像一种外星生物来临在地球上，引起了人们的好奇和恐怖。它在博览群书之后，彷佛曾经领有了人类全副的智慧结晶。但也有人说，ChatGPT 不过是一个只会寻章摘句的书袋子，无奈有本人的创新能力。

各种观点都有情理，我认为大型语言模型的后劲是不言而喻的，它能胜任很大一部分的对话工作，例如：客服，柜台服务人员等等。我认为目前对 ChatGPT，或者所对所有大型 AI 的制约次要来自于它们无奈像人类一样接触事实世界，因为实际是测验真谛的唯一标准，AI 从互联网上取得的内容是输出性质的，AI 本人产生的输入没有失去事实世界的无效反馈。（据说 ChatGPT 曾经在收集用户的对话反馈，或者当反馈达到一定量级之后会产生量变）。

构想一下，如果 AI 可能实时地观测事实世界的最新变动，并且参加到社会活动中，例如，进行化学试验，经营一家公司，做出股票投资，甚至治理一座城市等等。它就可能从实际中进行学习，再联合过往的常识，一直修改，产生新的常识。

我期待看到第一篇由 AI 发表的论文，第一个由 AI 齐全负责的基金（如果能推出肯定会卖爆，毕竟投资界一贯的格言是要解脱兽性），第一家由 AI 负责决策的公司。当然，这前面必须是有具体的人类进行负责的，例如公司“法人”的概念，毕竟 AI 即使成为立功的借口，也不能代替人去坐牢。

科技倒退是一个螺旋回升的门路，在山重水复疑无路时，会柳暗花明，但在众人追捧的时候又有可能陷入困境，对 AI 的倒退，咱们放弃乐观，也放弃沉着。

关于challenge:三分钟看完关于-ChatGPT-的技术概括

supervised learning（监督学习）

reinforcement learning（强化学习）

训练所用的硬件设施

大型语言模型的来临

总结