共计 5535 个字符,预计需要花费 14 分钟才能阅读完成。
2022/11/19 Apps Everywhere 上海
2022 年 11 月 19 日下午,亚马逊云科技 User Group 上海举办《AI GC 的技术与利用构建》为主题 Apps Everywhere 系列流动,邀请到四位机器学习畛域的专家,与大家一起探讨 AI 创作背地的技术及其利用的可能性,让 AI 创作真正成为无益的工具。让咱们一起回顾一下流动的精彩内容!
讲师分享内容
01 Shadow《AIGC 利用共创》
Shadow,Mixlab 无界社区创始人 / MixDAO 成员
讲师介绍:
毕业于上海交大、同济大学,次要职业:元宇宙创作者、设计黑客、程序员、设计师、老师。目前专一于:社区的孵化。自 2015 年发动 Mixlab 无界社区,目前社区人数已有 5w+,核心成员 1.2w+。
内容概括
从计算生成数字内容、数字艺术到 AIGC- 人工智能生成内容,介绍 AIGC 目前的利用成果和工作流。Shadow 老师首先进行了自我介绍。作为一名设计师出身的程序员,Shadow 老师跨界设计和软件开发。Shadow 老师自述曾于 2017 年在人工智能海报生成、2018 年在人工智能写作方向进行 AI 守业,回望过来的技术只能做 AI 辅助产品,在海报生成中进行内容了解、色彩提取、信息聚合等辅助工作,智能写作也只是辅助写作(改写、匹配素材、内容审核等),而现如今技术的倒退已实现海报、写作内容可由 AI 一键生成,具备发明全新体验的产品可能。Shadow 老师通过以下 2 个案例介绍了数字内容艺术:1、戒指:每位用户可定制本人的戒指,戒指设计千人千面并可转化为实物。2、音乐可视化 + 虚构走秀 +AR 体验。
接着 Shadow 老师介绍了 AIGC 的一些利用场景:
1、将 AI 用于图像生成,艺术创作不再是艺术家能力实现的事件,普通人只有有肯定艺术概念,也能用 AI 生成画作。
下方左图是 AI 生成的超现实主义格调画作,右图则是赛博格调。
2、AIGC 用于文创:传统艺术家往往难以切换格调,通过 AIGC , 艺术家也能在不善于的格调畛域实现创作,甚至任何人都能够创作任何格调。以下是富裕中国传统元素的 AI 画作。
AI 能提供更酷炫的艺术体现,人工智能擅长于交融不同实体,在须要想象力的创作上往往比人更具劣势。如下猫和海浪的联合、芯片与人的形象的联合,都展示了 AIGC 的丰盛想象力。
AIGC 利用于生成游戏里概念场景,之前汇聚不同行业专家能力实现的创作,当初个体借由 AI 即可实现,繁琐的插画工作也可由 AI 代替人实现。
3、AIGC 还可生成视频,通过生成不同人物形象,驱动人物表情,加上 TTS (Text to Speech) 的配音,观赏一段动画视频《坐看云起时》。
4、Shadow 老师着重介绍了 AIGC 利用于漫画创作,通过 AI 生成图像,人工增加对白,来生成漫画,这是他看好的 AIGC 利用场景。
但其难点是角色一致性。因为 AI 生成难以管制,须要解决人物一致性问题,解决思路如下:
1. 可通过生成不同角度人脸库,进行换脸。
2. 可事后生成丰盛的肢体动作库。
实际中发现漫画格调为写实风时换脸成功率高。
将 AIGC 用于漫画格调复刻,将原图内容词和格调词剥离,放弃格调词,替换内容词,即可按某种格调绘制新的内容的漫画。
提供图像作为输出,AI 可对图像做很多变体,如上面水浒传宋江的变体图,以及小屋各视角的图。
最初,Shadow 老师介绍了 AIGC 工作流,通过对白文案生成图像,人工筛选最合乎场景的图像。通过这种模式的人机合作,可大幅提高生产效率。利用 AI 创作,集体如同领有了一支世界上最奢华且便宜的视觉团队。
02 李雪晴《AIGC 的“小众”利用方向》
李雪晴,亚马逊云科技机器学习解决方案架构师
讲师介绍:
一名计算机视觉算法爱好者,在接触视觉算法之前我是一名金融业的行研人员,偶尔刷到的几个短视频让我的技术之心彻底沉睡。技术的反馈往往来自于生产认可。然而算法研发到生产公布还有很长一段路,因而我致力于帮助客户用最轻便的形式进行算法工程化部署。
内容概括
“AIGC”也就是 AI 生成类模型在往年又跨入了一个新的纪元,更多可达到商业水准的 SOTA 模型接连面世。以近期比拟火的 Stable Diffusion 模型为例,开源简略的部署形式让大家都能够很不便的尝试文字生成图片,而生成的图片成果也远远超出了以往人们对于 AI 的期待。我将简略为大家介绍 Diffusion 类模型,他们的生产化挑战,以及该类模型的利用场景,诸如设计辅助,声音拟合,内容审核以及工业瑕疵检测等等。
李老师的演讲分为 4 局部:
Part1:
李老师首先介绍什么是 AIGC . AIGC 全称为 AI-Generated Content , 指基于生成反抗网络 GAN、大型预训练模型等人工智能技术,通过已有数据寻找法则,并通过适当的泛化能力生成相干内容的技术。李老师以 AIGC 在股票上的利用举例,指出 AIGC 不仅受到 AI 技术从业者的关注,而且也受到金融从业者和公众的关注。
AIGC 有多模态、大模型、炽热开源的特点,尤其其开源资源丰盛、封装度高、可一键启用打包成利用,在工业制作中更易被利用。
Part2:
李老师介绍了支流 AIGC 场景中的利用。
DALL-E 2 模型利用的 AIGC 场景包含:
1. 通过文字生成图片。
2. 图片补全。
3. 图片格调转换。
4. 通过文本形容进行图片编辑。
AIGC 最适宜的场景是咱们难以想象的场景。例如咱们想让美甲师做出咱们想要的美甲格调,然而通过一番形容,理论的美甲成果却没有达到咱们设想中的美感,此时利用 AIGC 生成美甲的图样就能够帮到爱美人士。此外包、服饰等也适宜用 AIGC 生成设计图。AIGC 还能够生成与图片格调相符的文字。
Stable Diffusion 模型可依据文本生成图片,如咱们输出 “a wedding cake with gold tears”, 而后发现生成的 4 张图中左下角的图出现了咱们心目中的成果,又如咱们输出 “a golden bathroom with a black tub”, 模型就为咱们生成了多张浴室设计效果图供咱们筛选,此外,该模型也可用于绘画、美妆。
李老师介绍了开源的 Mubert-Text-to-Music 我的项目,提供了文本生成音乐的模型部署接口。
Part3:
李老师介绍了“小众”AIGC 场景,包含:
内容审核:
1. 生成内容的违规性,是否涉黄涉暴。
2. 用一些出名 IP 如冰雪奇缘艾莎生成的内容是否侵权。
3. 将来身份验证不仅要思考活体检测,还要检测是否是 AI 生成的视频、人脸。
声音拟合:
李老师介绍了开源的 Mocking Bird 我的项目,举例 AIGC 在声音拟合方面的利用场景,如在元宇宙中每个用户可拟合本人的声音模型。
并提出难度不在模型训练上,而在于模型治理,如何在同一台机器部署多个模型,需思考容器化部署及部署老本。
更多三维资产:
AIGC 生成变动间断的图片,但成果差强人意,另外可用 AIGC 生成古建筑图纸。
制造业瑕疵检测的利用:
李老师讲述了一个 Amazon 做过的对有问题整机降噪判断的案例。
Part4:
李老师介绍了亚马逊科技在 AIGC 上对企业的助力,包含:
1.SageMaker 提供弹性资源扩缩容以麻利适配企业业务扩大。
2.AI 百宝箱:Amazon 将透过客户视角看到的有后劲模型放入 AI 百宝箱中,提供点击式 AI , 企业用户可花更多工夫专一于模型训练,而不用在工程部署上消耗过多精力。
03 周金晶《基于云原生机器学习开发平台进步 AIGC 开发效率》
周金晶,TensorChord CTO & 联结创始人
讲师介绍:
本科毕业于上海纽约大学。曾在亚马逊上海人工智能实验室负责机器学习工程师,作为核心成员开发 Deep Graph Library 我的项目,创建 TensorChord 是致力于打造更好用,对算法科学家更敌对的机器学习工具。
内容概括
envd 致力于将算法科学家作为外围用户进行设计,通过对底层基础设施的抽像使得科学家们能轻松应用弹性资源以及隔离洁净的开发环境,在晋升开发效率的同时,缩小计算资源的节约。本次分享将介绍 envd 的想法起源以及应用办法,展现 envd 能给团队开发带来的劣势。
从现有的云原生及机器学习平台登程,介绍 envd 我的项目的初衷以及设计思路。
用 envd 做展现,运行预训练模型来生成图像。
1、在云原生环境下多套环境动静生成实施方案。
2、在满足多环境需要下云老本优化。
周老师首先进行了自我介绍:
前亚马逊上海人工智能研究院机器学习工程师
Deep Graph Library 开创成员 + 外围开发者
TensorChord 联结创始人 https://github.com/tensorchor…
而后周老师论述了 envd 的产生源于机器学习的痛点:
Part1:机器学习很简单,须要细分畛域工程师(包含数据科学家、软件工程师、后端工程师、DevOps 工程师)单干来实现,周老师认为能够用工具解决工种间沟通老本高的问题。
Part2:新算法层出不穷,从模型钻研到生产上线产生商业价值仍有很长一段距离。
Part3:现有工具和从业者知识结构的不匹配,须要有工具补救 Data Scientist 和 Infra 间的 gap。
Part4:机器学习开发的痛点有:1. 多人共享同一台机器开发,相互烦扰(CUDA 版 2. 本不同、库抵触)。3. 对弹性算力要求高(须要调参)。4. 算力缓和(价格高)。5. 对云原生,云计算生态不够理解。6. 训练流水线简单(数据预处理)。7. 数据集宏大。Part5:现有的 Data Scientist 和 Infra 的合作模式往往是数据科学家提要求将工单给到 infra team , infra team 配好环境给数据科学家,两头的重复沟通消耗工夫老本高。
由机器学习的痛点,周老师开源了 envd 我的项目。
1、envd 通过 Python 语法申明环境要求,给每个我的项目配置隔离的容器化开发环境,罢黜数据科学家与 infra 重复沟通的耗时耗力。
2、环境信息以代码模式和我的项目源代码放在一起,开发者拉取 github 代码后可构建一摸一样的环境,本地疾速将代码 run 起来, 升高配置环境老本。
3、envd 提供了依赖组件的可复用,例如可通过 include envdlib 不便地装置 S3 SDK。
4、envd 实现本地和集群开发体验统一,实现云上开发、本地开发无缝连接。
5、envd 提供的不仅仅是开发环境,它联合 Tensorflow / Pytorch 等深度学习框架,为开发者提供一整套 ML DevOps 解决方案。
04 张小军《EasyAR Mega 元宇宙空间计算平台》
张小军,视 +AR CEO
讲师介绍:
视 +AR (视辰信息科技(上海)有限公司) 创建于 2012 年,是中国当先的 AR 开放平台,寰球有 20 万开发者,是国内应用范畴最广最大的空间计算平台,在国内上也名落孙山,其中 40% 的用户来自海内。视 +AR 自主研发的 EasyAR Mega 元宇宙空间计算平台,为利用开发者提供稳固的建图、定位能力和欠缺的工具链,最终造成城市级线下元宇宙解决方案,为文化地标、商业地标和公共地标提供 MR 产品和利用。
内容概括
1、介绍元宇宙空间下视 +AR 的倒退历程、EasyAR Mega 的平台劣势及利用其在垂直行业打造的大量标杆案例和解决方案。
2、AI 加持的大空间识别系统 EasyAR Mega 能够在大空间场景内让开发者及用户去产生及生成基于空间的内容。
张老师首先简略进行了公司介绍,并介绍了 EasyAR 空间计算开放平台。
张老师谈到他对元宇宙的认识。说到元宇宙,大家可能联想到《头等玩家》、《黑客帝国》等科幻电影中的场景,张老师认为将来咱们的元宇宙该当是虚实交融的,既拥抱数字世界带来的弱小发明能力,又拥抱实在生存,即便科技再倒退、虚拟化再弱小,也该当是使咱们实在生存更美妙的。
接着张老师介绍了 AR 技术和利用场景的演变:从图像跟踪到静止跟踪到大空间。
张老师以城市三维重建为例讲述 EasyAR Mega 平台劣势。在城市测绘三维重建中,应用 AR 的老本高、门槛高,一台手持设施须要破费 10-30 万元,且须要业余人员进行勘探测绘,像这种业余治理场景,应用 AR 的老本高,导致难以民用推广。EasyAR Mega 平台在城市级三维重建中具备以下劣势:
1. 反对城市级地图规模。
2. 无需低廉的激光设施,应用生产级相机即可实现数据采集。
3.24 小时实现建图,反对部分更新。
4. 高精度三维重建,残缺还原实在环境。
5. 灵便的规模化采集计划。
张老师讲述 EasyAR Mega 平台劣势包含:
1. 快准稳的定位能力。
2. 成熟的工具链。
3. 反对全终端 / 入口部署。
最初张老师用几个例子活泼展现了 AR 的利用:
1. 全息向导、空间解说成为无效的数字经济创收伎俩。
2. 空间还原:将 AR 利用于场景还原和文物还原。
3. 沉迷式 AR 剧本杀。
4.AR 眼镜游夫子庙。
问答互动
Q&A 环节,听众与演讲嘉宾互动满满,氛围非常沉闷。
流动现场咱们筹备了诚意满满的周边礼品和技术书籍,参加答题互动即可赢取大礼包,获奖者示意很惊喜。
茶歇环节,大家合影留念,互动交换,享受茶点,又是播种满满的一天!
亚马逊云科技 User Group 期待你的退出
感激加入本场 Meetup 的讲师、开发者和志愿者们,也感激云上继续关注的敌人们!
欲知更多信息或流动预报,请继续关注微信公众号【User Group】
心愿理解学习更多的小伙伴也能够扫下方二维码观看回放。
❖ 社区介绍
亚马逊云科技 User Group 开发者社区是一个为开发者们提供彼此学习、分享技术实际、培训进阶等流动的技术交换分享社区。
❖ 继续招募
咱们正在招募讲师和和志愿者,如果你对开源社区分享与共建有趣味,并有足够的闲暇工夫,违心广交气味相投的敌人,欢送退出咱们!
退出形式:公众号后盾回复“讲师”或“志愿者”,填写报名表单即可!
❖ 微信交换群
关注公众号【User Group】后盾即可取得各社区群二维码
❖ 欢送与咱们共赴一场技术之约!