关于云原生:OpenPie-和-ChatGPT-聊聊云上数据计算的那些事儿

8次阅读

共计 2139 个字符,预计需要花费 6 分钟才能阅读完成。

要说时下科技圈最火的新技术话题,那就非 ChatGPT 莫属了。由它引发的各类“人工智能(AI)是否取代人工”的探讨狂飙不停,抛开法律和道德层面的争议,ChatGPT 的确能够精确地答复用户大部分的通用常识问题。那么大家是否会好奇,ChatGPT 是依附什么取得了这样“无所不知”的超能力呢?
 

作为一款交换机器人,ChatGPT 的全称是 Chat Generative Pre-trained Transformer(生成式预训练转换器),由 OpenAI 公司研发,并于 2022 年 11 月公布。ChatGPT 应用了基于 GPT-3.5(最新凋谢版本)架构的大型语言模型,并通过强化学习在 Microsoft Azure 的超级计算机上进行训练,而后通过近端策略优化算法进行微调,参数量多达 1750 亿个。用一句话来概括:ChatGPT 的背地,技术底座是大型语言模型,外围竞争力是算力

ChatGPT 对算力的需要之大能够通过这样一组数据出现,GPT-3.5 的训练应用 Microsoft 专门建设的 AI 计算零碎,由 1 万个 V100 GPU 组成的高性能网络集群,总算力耗费约 3640 PF-day,即如果每秒计算一千万亿次,须要计算 3640 天。于此同时,ChatGPT 的算力耗费也在一直扩张,其大型语言模型经验了三次迭代,GPT、GPT-2 和 GPT-3 的参数量从 1.17 亿减少到 1750 亿,预训练数据量从 5GB 减少到 45TB,其中 GPT-3 训练单次的老本就曾经高达 460 万美元。以理论场景为例,咱们每问 ChatGPT 一个问题,它就须要破费几美分来计算。所以对于 OpenAI 而言,如何继续一直地取得算力反对并管制昂扬的计算成本是至关重要的。目前 ChatGPT 和 Microsoft 提供的零碎是强绑定的关系,OpenAI 也示意:无论当初还是未来,Microsoft Azure 都会是 ChatGPT 惟一指定的云计算供应商。这么一来,Microsoft 的投资逻辑也就显而易见了,我先借资金和算力给你,日后再靠你一直扩张的算力需要来赚钱,Microsoft 十分分明地意识到了数据计算背地的商机。
 

换言之,哪怕取得了这个简单大模型的代码,也不是谁都能够跑得起来的。所以,ChatGPT 的胜利不仅是简单算法的功绩,更是依赖了云计算服务的撑持,OpenAI 从 Microsoft 取得的不只是资金层面的反对,更是技术层面的系统优化,其中包含但不限于计算、存储、数据库和网络等方面的资源配置。对于 ChatGPT 来说,借助云的特点在 Microsoft Azure 上实现高性能计算、数据存储和解决、寰球可用性、弹性治理资源、老本效益是零碎失常运行的根底。比方近日 ChatGPT 身处舆论的风口浪尖,寰球各地拜访网站的流量激增,Microsoft Azure 能够主动为模型提供更多资源(如 CPU 和内存),以解决减少的负载。相同,当流量下降时,它也能够缩减配置资源以节省成本。与此同时,ChatGPT 也不须要建设本人的数据中心,能够从 Microsoft Azure 云计算服务那里租用所需的资源,按需付费,还省去了运维费用,将老本效益最大化。

ChatGPT 的爆火反映的不只是 AI 技术畛域的冲破,更是大数据在行业利用的发展趋势。 数据计算上云、资源租赁代替购买是大方向,解决宏大数据时能实现弹性伸缩资源,让企业降本增效,这正是 PieCloudDB Database 的设计初衷。 

  • 此答复仅供参考,请以官网产品描述为准   

利用云计算的技术改革,云原生数据库 PieCloudDB Database 能够实现 IT 零碎从购买到租赁的转变,真正交付在 PC 机时代未能交付的大数据承诺。举个例子,对于一类脉冲式场景(如双十一),当天可能须要素日上百倍的算力来反对,PC 构造的设计迫使客户不得不投入上百倍的机器,并且只为一年 365 天中的某几天。这种状况下,客户有两种抉择,一是放弃脉冲式场景的数据计算,二是在后期投入宏大的资金,这也使得客户的投入产出比降落、错失了一些套利机会。尤其对于像 ChatGPT 这样资源耗费极高的场景,如何均衡网站流量激增或下降时的资源需要,是保障公司无效利用资源、管制总体收入的必要前提。

在 PieCloudDB 里,存储和计算各自作为两个独立变量,各自在云端弹性伸缩。用户能够在云端传输海量数据,云中的存储也会随之主动减少,这个舒展过程无需用户懊恼,PieCloudDB 能够主动实现。如果用户须要更大的算力,只需开启更多的虚拟机或者容器,PieCloudDB 会霎时扩容。在用户实现脉冲计算当前,能够敞开和放大计算的集群,从而节约在云中的计算费用。通过计算与存储的解耦合,得以实现资源的池化。用户从而能够通过租赁的形式来应用池中的资源,按使用量进行付费。PieCloudDB 让用户能够专一于应用,无需思考运维和降级等工作。

在这样一个零碎中,用户会继续将所有数据存储在云上,让已有的利用和将来的利用真正实现数据共享,PieCloudDB 从而帮忙用户真正实现大数据愿景(Big Data Promises finally Come True)。  


正文完
 0