关于sql:阿里云贾扬清大数据AI工程化让数据从成本变为资产

53次阅读

共计 5168 个字符,预计需要花费 13 分钟才能阅读完成。

简介: 近年来,数字经济倒退迅速,企业转型背地频频涌现「数字力量」的身影。云计算、大数据、人工智能的疾速交融造成了数字经济的新基建,也为数字经济倒退带来了新的时机。

近年来,数字经济倒退迅速,企业转型背地频频涌现「数字力量」的身影。云计算、大数据、人工智能的疾速交融造成了数字经济的新基建,也为数字经济倒退带来了新的时机。

5 月 20 日,阿里巴巴副总裁、阿里云计算平台负责人贾扬清在媒体沟通会做了《科技翻新时代的数字力量》演讲,本文对其演讲内容做了精简编辑,以飨读者。

01 科技翻新时代的数字力量

咱们先来意识一家修建公司。

说修建公司的起因是,每一次工业革命往前降级、向前倒退的背地,最重要的其实是现有行业怎么变革本人的生产力。建筑行业是十分典型的一个例子,明天说了那么多大数据和 AI,到底能给他们带来什么样的价值?

这家公司叫中建三局一公司,是国家基建中的外围力量,始终以修建速度跟效率著称。

30 多年以前,1985 年,就以「三天一层楼」建造了深圳第一座超高层地标性修建、过后「中国高楼之最」——深圳国贸大厦。

1996 年,又以「九天四个结构层」的速度缔造了过后亚洲第一、世界第四高楼——深圳地王大厦,将中国建筑业从个别超高层推向可与世界摩天大楼相媲美的领先水平。

放眼全国乃至世界,都有他们的作品,承建了十分多咱们耳熟能详的标杆性修建:国家体育馆(鸟巢)、央视新址 CCTV 大楼…… 除了地标性修建,他们还建了机场、地铁、高速、医院(雷神山医院)、学校(清华美院)、办公大楼(阿里腾讯新浪挪动等办公大楼)……

中建三局一公司高效的修建能力,给咱们带来十分大的价值。

几十年过来了,建筑设计变得越来越新,砖瓦构造变成了钢筋混凝土构造,中建三局一公司对建筑行业的了解也始终在向前倒退。30 多年前,他们依附人与工夫的赛跑;现在,他们依附数据的流动。去年,中建三局一公司联手阿里云,独特建设数据中台。

造一座高楼,有十分多的物质在流转,从一粒沙子到砖头、玻璃、钢筋、螺丝、各种工程机械,怎么让它们更高效地流转起来,是修建公司都会遇到的问题。不仅如此,他们还须要思考怎么晋升建造工艺、晋升翻新的修建办法,以及通过数字化能力,来治理修建过程、建筑物料等一系列问题。

阿里云基于一站式数据开发和综合治理平台 DataWorks 打造的数据中台,为中建三局一公司建设了一个「数字孪生体」,用数据和算法来预测,何时补沙子、何时调配工程机械,以及做其余经营治理方面的事件。

明天,咱们看到,中国整个修建市场有 10 万家修建公司,除了中建三局一公司这种大型的标杆企业,还有很多中小型的修建公司,从业人员共有 5000 余万。帮忙这些中小型企业从传统的、小作坊式的、刀耕火种的模式变成像中建三局一公司那样,是阿里云心愿在数据方面做的一些事件。

咱们置信把阿里云数据中台建设的外围能力,和各行各业的专业知识联合起来之后,能够帮忙更多企业,就像中建三局一公司一样实现数字化转型。

02「一体两面」,助力企业用好数据

尽管每个人都在提大数据,每个人也都感觉本人在用大数据,但其实谁也不晓得大数据到底该怎么用。

阿里云打造了一系列将数据用起来的「武器」,心愿通过云上数据综合治理及智能化,赋予企业数字力量。

企业常常面临的挑战是,建了很多系统的数据系统,表格、Word、照片、视频等异构数据存在 Excel、数据仓库等不同的数据库里,最初成为「数据孤岛」。

因而,企业在建设数据中台时,常常会在技术、业务、组织三方面遇到挑战。技术上,数据怎么买通;业务上,不同口径的数据如何总结;组织上,怎么把寄存在不同地点的数据对立治理起来。

商业公司常常遇到的一个挑战是——算支出会面临财务、证监会等各种各样的不同口径,经营同学须要去看不同状况的营业额,这些最初都会下沉到一句 SQL 语言或者一个数据工作上。这些工作如果不统一,最初就会呈现数据的不统一,后果的不统一,口径的不统一,都是一系列问题。

从技术角度来讲,咱们逐步构建了一套残缺的数据处理体系,叫「一体两面」。

「一体」是指一体化的数据开发和数据综合治理平台 DataWorks,各种各样的行业利用都基于这个平台搭建。

DataWorks 迄今为止曾经累积了约 8 万名用户。每天阿里大略有 1/4 的员工在 DataWorks 上做数据开发和利用。

一体化的开发平台下,有两种不同的数据组织状态——数据仓库和数据湖,即所谓「两面」。

「数据仓库」的概念很早以前就有了,能够将其了解为一个微小的 Excel 表格或者一堆微小的 Excel 表格。阿里很早以前就建了本人的数据仓库 MaxCompute,它是「飞天」的重要组成部分之一,曾经积淀了十分好的大规模数据仓库能力。

在 MaxCompute 的演进过程中,对数据进行实时剖析的需要诞生了。比方说,双 11 时,促销策略要依据用户的购买行为进行及时调整。于是,几年前,咱们开发了一套实时计算引擎 Flink。Flink 最开始是由德国一个团队做的,当初阿里巴巴和德国团队一起,持续把 Flink 作为一个开源的流计算施行规范往前推动。

以前,咱们只是对数据进行总结,出报表;但越来越多的数据开始须要实时的服务,比方说「猜你喜爱」,既须要实时化,也须要对用户的历史行为做实时剖析,而后迅速对相干产品做服务。

前几年开始,咱们在「T+1」计算的离线数仓根底上,做了实时数仓 + 服务一体化的利用——交互式剖析产品 Hologres,它在双 11 撑持了十分多的实时决策。淘宝、天猫的决策层能够通过 Hologres 实时看到每一个商品品类在每一个地区的实时的销售额状况,当发现销售额 / 触达率与预期不统一时,能够及时调整策略。

随着异构数据越来越多,在咱们做各种服务的时候,不再是表格那么精准的数据出现模式,可能是像日志(log)的模式,这些图片、视频、语音等数据状态对传统的数据仓库来说就不是那么适合了。记得咱们 2013 年在谷歌刚开始做机器学习的时候,把一堆图片存在了数据仓库里,后果发现,所有图片都是一堆字符串,看不见图片的内容。

于是,「数据湖」的概念衰亡了。先不焦急把数据都存成 Excel 表格,该是 Word 就是 Word,该是图片就是图片,该是视频就是视频,不论数据起源和格局,先把这些数据都放到一个湖里。

但业务数据,有些存在湖里,有些存在仓里,怎么合起来对立做剖析和解决?去年,咱们提出「湖仓一体」,在传统的数据湖和数据仓库上建一个数据中台。
图片
这对于翻新业务来说,没什么问题。但现有十分多的企业,自身曾经有数据仓库了,那如何把已有的资源利用起来?

咱们在技术侧做了很多工作。通过最底层的存储资源、计算资源的买通,让大家可能更加容易地从数据仓库的角度存取数据湖里的信息,或者在数据湖上构建一系列开源引擎,同时剖析数据湖和数据仓库里的数据。

03 AI 加持,开掘数据的价值,变「老本」为「资产」

管好数据的同时,咱们发现,数据量越来越大,数据的单位价值越来越低。

因而,咱们开始思考,怎么开掘数据的价值,帮忙企业翻新业务、提高效率,将数据从老本变成资产。

AI 能够让数据更加智能。AI 算法不只能做数据的总结,还能够做剖析和决策。

但并不是所有的企业都具备将 AI 变为生产力的能力,为本人所用。Gartner 的考察钻研发现,只有 53% 的我的项目可能从人工智能(AI)原型转化为生产。AI 要成为企业生产力,就必须以工程化的技术来解决模型开发、部署、治理、预测、推理等全链路生命周期治理的问题。

咱们总结发现,AI 工程化畛域有三大亟待推动的事件:数据和算力的云原生化,调度和编程范式的规模化,开发和服务的标准化普惠化。

第一,从供应角度看,AI 工程化是数据和算力的云原生化。

智能时代是靠数据和算力来驱动的。无论是计算机视觉、自然语言解决,还是其余的 AI 零碎,都与数据量密不可分。

上世纪九十年代,手写体邮政编码曾经在用 AI 辨认,那时用来训练 AI 模型的数据量仅有 10M 左右。阿里与清华大学不久前单干公布的超大规模中文多模态预训练模型 M6,是用 2TB 图像、300GB 语料数据预训练而成的。明天,在产业界,训练一个 AI 模型须要的数据量通常会更大。

OpenAI 曾做过一个统计,从 2012 年做出 AlexNet,到 2018 年 DeepMind 做出 AlphaGo Zero,对于计算量的需要增长了约 30 万倍。

依据摩尔定律,每 18 个月,CPU 单核的计算能力就会增长一倍。但 2008 年前后,摩尔定律就开始「生效」,算力的增速开始逐步变缓。

能够看到,随着数据量越来越大,模型变得越来越精准、高效且简单,无论是在数据还是计算方面,都须要有一个更大规模、更大体量的底座,来撑持下层 AI 的需要。而云计算可能在数据和算力上提供更强的反对。

第二,从核心技术的角度看,AI 工程化是调度和编程范式的规模化。

因为大规模、大体量底座的背地,往往面临两个老本问题:

一个是资源的老本。训练一个大模型,往往须要一堆 GPU 来做大规模计算。英伟达最新的 DGX-2,售价大略在一台 20 万美元,真的贵。OpenAI 训练模型大略须要 512 块 GPU、64 台机器。如果搭一个专门用来做大规模训练的集群,可能是小一个亿的老本。这个时候,如果跑去跟公司、研究院或者跟政府说,我须要一个亿,就是为了搭一个集群,这个集群就是为了训练一个模型,这个模型拿来还不晓得怎么用,我得先训练进去看看。这显然是很麻烦的事件。

治理大规模的集群和大规模的零碎,须要用到十分典型的「削峰填谷」办法,考验咱们是否可能把 AI 计算工作掰开、揉碎,变成一小块一小块的工作,部署在资源闲暇的机器上。这背地是一个微小的训练任务,AI 工程师须要做十分多的工作。

咱们在训练 M6 模型的时候没有买新的机器,就是在现有的生产集群下面,利用「潮汐效应」,把计算量提出来,用来训练模型。

另一个是人的老本。AI 没有 SQL 那么清晰洁净的、以指标导向的框架,比方,写一句 SQL,就能驱动 MaxCompute 等计算引擎拉一堆机器来做运算;AI 也不像在线服务一样,能够实现非常简单的、一台机器和几台机器的简略复制,机器间不须要交互,操作简略。

AI 程序要在各种各样的机器、资源之间(GPU 与 GPU 间,或 GPU 与 CPU 间)捣腾数据,要把一个算法(一个数学公式)放到参数服务器上,通知机器 A 何时与机器 B 谈话,机器 B 何时与机器 C 谈话,并且最好是快一点。于是,AI 工程师就得写一堆无比简单、很多人看不懂的代码。

AI 工程师都据说过数据并行、模型并行等概念,这些概念下须要有一个绝对简略的软件编程范式,让咱们更加容易把集群以及计算的需要切片,把 Computer 跟 Communication 比拟好地调配。然而编程范式明天还没有达到一个让彼此都很好了解的水平。因而,人力老本十分高。

也就是说,在大量的数据和算力根底上,一个非常明显的需要是如何更好地做到资源调度和资源调配,以及如何让工程师更容易撰写分布式编程范式,特地是如何来规模化,这是 AI 工程化的第二个体现。

咱们设计了一个绝对简略、洁净的编程框架 Whale,让开发者可能更容易地从单机的编程范式跳到分布式的编程范式。比方,只需通知 Whale,将模型分为 4 个 stage,Whale 就会主动把这些 stage 放到不同的机器下来做运算。

第三,从需要或者进口的角度看,AI 工程化是开发和服务的标准化、普惠化。

AI 做了十分多有意思的模型,为了使这些模型可能更加严密地利用在理论场景中,还须要很多工作。但并不是每个人都有工夫来学习 AI 如何建模,如何训练和部署等。

所以,咱们始终在思考,如何让大家更容易上手这些高大上的 AI 技术。

阿里云机器学习平台 PAI 团队,基于阿里云 IaaS 产品,在云上构建了一个残缺的 AI 开发全生命周期的管理体系,从最开始写模型,到训练模型,到部署模型。其中,Studio 平台提供可视化建模,DLC 平台(Deep Learning Container)提供云原生一站式的深度学习训练,DSW 平台(Data Science Workshop)提供交互式建模,EAS 平台(Elastic Algorithm Service)提供更繁难、省心的模型推理服务。咱们的指标是,心愿 AI 工程师能在几分钟之内就开始写第一行 AI 代码。

迄今为止,阿里云通过大数据、AI 平台曾经服务了各行各业的客户,宝钢、三一团体、四川农信、太平洋保险、小红书、VIPKID、斗鱼、亲宝宝等。咱们心愿通过咱们的大数据和 AI 能力,给企业提供降级的能源。

版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0