乐趣区

关于javascript:问答题如何构建一套满足GPT3的存储系统

这几天 GPT- 3 成为人工智能甚至整个科技圈最为热门的话题。作为驰名人工智能科研公司 OpenAI 开发的文字生成 (text generation) 人工智能,GPT- 3 的相干论文在 2020 年 5 月份就曾经发表,因为应用了 45TB 的数据,并采纳了天文数字级别的 1,750 亿参数量而引起极大轰动。当初,GPT- 3 开始凋谢申请,取得资格的人将通过 API 来应用 GPT-3。如果说软件定义所有,那么 API 就在定义软件。一些人在应用了 GPT- 3 之后,对其拍案叫绝:嗯,真香!

比方用 GPT3 做的这个页面生成器,只须要输出“给我一个长得像西瓜的按钮”,GPT3 就会很快输入一个看上去真的很像西瓜的按钮。

从目前的利用来说,GPT-3 更像是一个更懂你的新的搜索引擎,传统的搜索引擎只是将信息归类后进行展示,而 GPT-3 则是将信息进行了加工。仅就 45TB 的数据而论,如果一部电影依照 2G 大小来算的话,那么 45T 的数据相当于 23000 多部电影,每次 GPT- 3 都相当于将这 23000 多部电影看一遍,而后写出一篇“影评”。

而写出这篇“影评”不是依附作者的构思,而是依附算力。算力能够看作是单位工夫内的计算能力。从计算机诞生之日起,人们对算力的谋求就没有停歇过,1958 年集成电路的呈现让算力实现了一次质的飞跃,近年来,随着 CPU、GPU、NPU 等单元部件算力的一直加强,算力更是得以成为数字经济时代的外围引擎之一。

做个比喻,如果说算力是心脏,那么数据就是血液,两者之间还须要一个良好的血液循环系统予以保障,而存储系统就能够看作这样的一个血液循环系统。那么,应该如何更好的构建这个血液循环系统呢?

首先,为了撑持弱小的算力须要可能反对大规模的数据吞吐量;其次,须要更低的数据读写提早以晋升计算速度,再次,须要具备足够的弹性,保障算力峰值到来时数据容量的随时扩容。

如果从以上角度登程,那么一个适当的抉择就是文件存储。以阿里云文件存储 CPFS (Cloud Parallel File Storage) 为例,CPFS 是一个可齐全托管、可扩大的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的拜访和高聚合 I /O、高 IOPS 的数据读写申请,能够用于 AI 深度训练、主动驾驶、基因计算、EDA 仿真、石油勘探、气象剖析、机器学习、大数据分析以及影视渲染等业务场景中。

首先,CPFS 具备超高吞吐和 IOPS。采纳分布式的并行架构,数据条带化后均匀分布在存储集群上,能够实现计算节点并行拜访,提供数百 GB 的吞吐和千万级的 IOPS 以及亚毫秒级时延;其次,CPFS 弹性可扩大。CPFS 反对在线的扩容,因为所有数据均以条带化的形式存储并且反对扩容当前的主动负载平衡,可满足性能的线性增长并且即时利用扩容节点的吞吐和存储能力,满足业务增长须要的更多容量与性能的诉求。

目前 CPFS 曾经在公共云和混合云环境中有了宽泛的利用。

以阿里云弹性高性能计算云平台 HPCaaS 为例。该平台反对基于阿里云 ECS、EGS 弹性计算实例疾速构建任意规模的并行计算集群,并依据用户需要动静增删节点个数和存储规模。首先,该计划用户只需购买 EHPC 的集群实例,就能够立即取得相应数目的 ECS、EGS、文件存储和搭配的 RDS,OSS 等服务。其次,用户能够依据初期应用集群规模生成集群,在运行时通过集群调度动静伸缩集群数目。

而在混合云环境中,CPFS 推出了混合云 CPFS 存储。爱笔(北京)智能科技有限公司正是利用了混合云 CPFS 存储解决方案,构建云上云下多级存储池架构,解决计算机视觉、语音辨认、自然语言了解、大数据分析等技术场景下的数据存储与治理问题,从而将人工智能的线上与线下场景中进行交融,实现业务场景的数字化、智能化。

目前,对于 GPT- 3 的探讨还在持续,GPT- 3 母公司 OpenAI 的首席执行官 Sam Altman 也虚心的说道“人工智能终将扭转世界,但 GPT3 只是看到了一眼将来。咱们还有很多事件要解决。”不过不可否认的是,大多数人对于 GPT- 3 还是充斥期待——人工智能的时代曾经到来,而 GPT- 3 的这一小步兴许为整个人工智能行业迈出了一大步。

原文链接:https://developer.aliyun.com/…_content=g_1000161686

本文为阿里云原创内容,未经容许不得转载。

退出移动版