关于人工智能:贾扬清演讲实录一个AI开发者的奇幻漂流

4次阅读

共计 3846 个字符,预计需要花费 10 分钟才能阅读完成。

简介:2021 阿里灵杰 AI 工程化峰会,贾扬清深度解读阿里灵杰大数据和 AI 一体化平台

演讲人:贾扬清

演讲主题:一个 AI 开发者的奇幻漂流

流动:2021 阿里灵杰 AI 工程化峰会

对于绝大多数人来说,这一波 AI 浪潮兴许是从深度学习开始的。

2011 年谷歌发表的一篇文章讲到,用 16000 个 CPU 和 11 个参数的连贯来训练一个可能辨认猫的模型。

明天 AI 算法和利用百花齐放,给咱们带来了十分多的幻想;而这几年整个行业的起起伏伏,背地也有许多弯路和故事。明天咱们曾经习惯了刷脸领取,然而仿佛有一些更加高冷的幻想,比方像无人驾驶,都还只在路上。

我叫贾扬清,明天是一个生产网红的年代,所以咱们起了一个名字叫奇幻漂流。如果能够的话,我想把本人形容成一个 AI 老兵。在人工智能的上半场当中,咱们的体验可能没有那么奇幻,因为基本上咱们就像拓荒者一样,身兼多个角色,在尝试着把 AI 算法跟利用可能逐步落地。

咱们做过算法研究员,从 AlexNet 开始到 ResNet,到 LSTM 到 Transformer,各种各样的模型,咱们都心愿逐步把它落地。

咱们做过软件工程师,从各种各样的框架,像 Torch、Theano、Caffe 开始,到明天大家耳熟能详的 Tensorflow 和 Pytorch,咱们相当于在一直从新设计一套又一套语言,让咱们可能把算法高效地实现进去。

咱们做过数据工程师,把图片、语音、自然语言、用户各种行为等数据做荡涤做标注,把它放在无论是磁盘还是数仓的各种中央,而后再输出到各种算法当中去来做利用。

最初。咱们也做过零碎工程师,从 GPU 开始到各种各样嵌入式的零碎。咱们搭了大大小小的零碎,让咱们这些模型可能简略更高效地跑起来。

当然咱们也在一直地看利用,搭一个 webserver,做一个 open API,把下面训练进去的模型可能理论的做成一个像刷脸,或者说 hopefully 主动驾驶这样的利用。

然而咱们就在想,老兵们遇到的挑战是什么?明天事件越来越多,各种组件越来越简单。咱们会发现,要把全链路问题都像以前这样人拉肩扛地解掉会累死也不可能。明天 AI 的利用曾经不是一个模型,一个算法那么的简略。

回到技术的角度,数据、算法、模型、以及最重要的人,咱们有了怎么的一些变动?咱们心愿可能做什么样的进一步思考?我想从这几个角度来比拟过来和明天有什么样的区别。

咱们先说数据,以前咱们在做图片存储的时候,咱们就把图片都放到一个磁盘下面去。

会发现速度比较慢,于是咱们又把它放到一个,比如说相似 LevelDB 数据库下面,回过头来看,咱们会发现这些就是十分规范的 KV 数据库。

在洞察用户行为的时候,咱们首先要从 Hive 的数仓外面做各种各样的解决,把数据从 Java 的环境里搬出来。再到 Python 的环境里做训练,而这个训练底层的实现又是 C ++ 的,相似这样的拉通,以及 AI 的模型规范等等,这一系列的问题都变得十分麻烦。

而在 AI 利用当中,怎么样把数据回流下来,进一步地再做新的训练,这些数据链路的品质都会决定了最终利用的品质。明天咱们就会十分须要一个大数据和 AI 一体化的平台来解决数据的全生命周期当中各种各样的问题。

软件就更是一个备受关注的畛域。如果往回倒 8 年,咱们常常听到“我的框架比你的快”这样的比拟。那么多年过来之后,明天为止咱们仍然看见有很多框架在走着老路,从新设计一套语言,从新设计一个开发环境等等。我感觉明天咱们不须要来反复地造轮子。软件,或者说框架,外围次要在于两个,一个是往下如何来兼容各种各样的硬件、不同的处理器、不同的新的芯片,另一个是往上如何实现更好的分布式开发。

尤其是当超大规模的模型变得越来越受关注,往下咱们须要有更加好地 AI 编译环境,让软件和硬件更容易地迭代和开发。往上咱们会须要有更好的零碎和模型,或者说零碎和算法工程师更好的相协同工作模式,让咱们构建起分布式的模型以及规模化训练。在明天接下来的讲座当中,咱们就会讲到在 AICompiler 以及在分布式框架 Whale 等等下面做的工作和思考。

当有了数据和算法,咱们怎么样来找到最须要的 AI 模型?最简略的形式是间接训练一个。然而图片、语音、自然语言解决等等畛域有太多的模型,咱们不可能每一个都从零开始本人训练。学术界有一个 Model Hub,咱们常常能够在网上找到偏差学术的不同畛域的模型。但这些试验模型怎么部署,会是个难题。工业界咱们可能看到各种各样的 AI 服务,比如说像 OCR、语音辨认等,但要把它们连接起来,如同又比拟难。开发者本人也多多少少有一些本人的模型,咱们怎么样来本人部署一个模型,怎么样实现所须要的弹性、稳定性、免运维的能力,怎么样把模型从十分大的训练后果到逐步做量化、做蒸馏、做压缩,到变成一个能够在不同平台上部署的模型,这些都是咱们在平台层面须要解决的问题。

最初咱们来说人的故事。咱们以前在做代码开发的时候,有 GitHub 等十分成熟的模式。AI 要管的货色更多,有数据、有算法代码、有模型、有计算资源、有训练跟推理的资源。怎么样来让一个开发平台从以前的单机,到明天的多机多卡多个数据中心的状况下,仍然可能高效地治理调度这些资源。明天前面会跟大家讲到,咱们在 AIdesigner 或者说 AI 工作空间上的思考,用一个对立的空间来拉通咱们的算法迭代,数据管理、模型训练和最初模型上线。

AI 的苦楚在于实质上明天 AI 还没有范式。AI 不是一个产品,这句话有两层含意,一方面它不光是一个单点的产品,而是一系列能力的组合;AI 明天十分强烈地须要规范软件和定制化服务的协同。

咱们在云栖大会推出的阿里灵杰就是这样的一个大数据和 AI 一体化的产品体系。为什么要推出灵杰呢?咱们十分强烈地意识到,咱们须要把软件、定制化服务、以及开发者效率都联合起来。灵杰做的一件事件是,它将能够标准化的局部标准化,将没法标准化的局部用一系列工具和组件的形式提供进去,让开发者在定制下层服务的时候,可能更加便捷易用。

咱们能够把灵杰了解为四层产品的有机组合。它的最底层是基于云基础设施,比方像计算、存储、网络等等这一些咱们耳熟能详的根底产品。和以前不同的是,咱们并不需要思考,从资源视角怎么样搭一个集群、加一堆 GPU、或者装一个硬盘。明天咱们能够从需要视角来思考,须要多大存储、怎么的异构计算、怎么通过云原生容器化等等形式把资源简略地链接起来。这是最底层基础设施给咱们提供的简单化、便捷化的能力。

在下面是大数据和 AI 一体化的平台。我感觉它是灵杰的外围局部。首先它给咱们提供了大数据跟 AI 联合的能力。比方 MaxCompute 平台曾经能够调用 10 万台集群来反对 2000 万张表跟千万级任务调度,它的 Serverless 模式代表着咱们能够在十分小的,例如一张表、一个数据集、一个 GB、一个工作开始就用零公摊老本来应用简直有限的弹性。

和大家分享一个数字。过来咱们常常有一个感觉,感觉大数据和 AI 是离开的。当咱们在看阿里团体内本人的利用状况时,在大数据平台上,有超过 30% 的数据计算都曾经利用于 AI 模型训练,这里都还没有计入 AI 推理这块。通过 AI Compiler 和 Whale 软件框架,咱们明天也在进一步晋升 AI 计算效率。当然平台的另一个重点是晋升开发效率。在明天前面的分享中,咱们会向大家介绍在大数据和 AI 一体化的平台上,如何用 AI 工作空间这样的轻量化平台,以及 PAI-DSW、PAI-DLC、PAI-EAS 等组件来买通数据、训练、资源管理、推理和服务等等这一系列挑战。工程平台最终目标是为了实现算法翻新。设想一下 8 年前咱们要做一个 AI 利用的时候应该怎么办?基本上就是咱们本人去收集数据,而后训练一个模型,再十分苦楚地把这个模型在本人手工搭建 Web Server 外面透出进去。还要时刻放心,如果没有人来拜访这个模型,是不是资源就节约了,如果太多人来拜访,是不是服务稳定性又会打折扣。

明天很多 AI 能力,比如说像 OCR、语音、自然语言解决等等,都曾经是标准化开箱即用的状态了。因而阿里云的工程师和达摩院的算法同学们单干,在 10 多种场景下的凋谢服务层,提供了上百种标准化的算法模型和服务,来解决 AI 落地利用最初一公里的问题。无论是 OCR、语音、还是文本的了解,咱们心愿可能通过一个规范的模式来实现 AI 模型的开明、接入和应用流程,就像下载和应用一个 APP 那么简略。在灵杰之上咱们搭建了十分多利用,明天大家可能都常常听见,像城市大脑、医疗大脑等等这样的概念。明天前面分享当中,咱们想跟大家分享在互联网畛域一个十分典型的利用,就是像在电商这类业务中,如何实现更高效地增长。它的实质就是怎么样把用户和他们所感兴趣的内容联合起来,最终达到用户体验和商业后果双赢的场面,前面的分享会有更细节地出现。总结一下,8 年前咱们说可能训练一个图像识别模型而后搭一个小的 demo,就曾经是一个顶级的 AI 开发者了。明天咱们所面对的需要是将 AI 的数据、算法和场景联合起来,去构建一个残缺而且更加简单的解决方案,来解决各行各业当中的理论问题。从开发的角度来说,从咱们想写第一行代码开始,到写下第一个 AI 模型须要多久?从利用的角度来说,从咱们看到一个需要到 prototype 上线和服务须要多久?这是咱们明天始终在思考的问题。阿里灵杰解决这个问题的思路,就是让不同的开发者们都可能按需取用、开箱即用。从最底层的根底产品,到两头的开发平台,到下层的凋谢服务,来帮忙各行各业的科学家们和开发者们在云上一起画出人工智能增长的第二曲线。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0