关于modelarts:国庆出游神器魔幻黑科技换天造物让vlog秒变科幻大片

摘要:国庆旅游景点人太多,拍进去的照片全是人人人、车车车,该怎么办?无妨试试这个黑科技,让你的出游vlog秒变科幻大片。本文分享自华为云社区《国庆出游神器,魔幻黑科技换天造物,让vlog秒变科幻大片!》,作者:技术火炬手 。 国庆出游,无论是拍人、拍景或是其余,“天空”都是要害元素。比方,一张平平无奇的风物图加上落日余晖的天空色调,气氛感就有了。 当然,自然景观的天空还不是最酷炫的。明天给大家介绍一款基于原生视频的AI解决办法,不仅能够一键置换天空背景,还能够打造任意“天空之城”。 比方换成《星际迷航》中的浩瀚星空、宇宙飞船,将本人顺手拍的平平无奇vlog秒变为科幻大片,画面毫无违和感。 该办法源自Github上的开源我的项目SkyAR,它能够自动识别天空,而后将天空从图片中切割进去,再将天空替换成指标天空,从而实现魔法换天。 上面,咱们将基于SkyAR和ModelArts的JupyterLab从零开始“换天造物”。只有脑洞够大,利用这项AI技术,就能够发明出有限种玩法。 本案例在CPU和GPU上面均可运行,CPU环境运行预计破费9分钟,GPU环境运行预计破费2分钟。 试验指标通过本案例的学习: 理解图像宰割的根本利用; 理解静止预计的根本利用; 理解图像混合的根本利用。 注意事项如果您是第一次应用 JupyterLab,请查看《ModelArts JupyterLab应用领导》理解应用办法;如果您在应用 JupyterLab 过程中碰到报错,请参考《ModelArts JupyterLab常见问题解决办法》尝试解决问题。试验步骤1、装置和导入依赖包import osimport moxing as moxfile_name = 'SkyAR'if not os.path.exists(file_name): mox.file.copy('obs://modelarts-labs-bj4-v2/case_zoo/SkyAR/SkyAR.zip', 'SkyAR.zip') os.system('unzip SkyAR.zip') os.system('rm SkyAR.zip')mox.file.copy_parallel('obs://modelarts-labs-bj4-v2/case_zoo/SkyAR/resnet50-19c8e357.pth', '/home/ma-user/.cache/torch/checkpoints/resnet50-19c8e357.pth')INFO:root:Using MoXing-v1.17.3-43fbf97fINFO:root:Using OBS-Python-SDK-3.20.7!pip uninstall opencv-python -y!pip uninstall opencv-contrib-python -yFound existing installation: opencv-python 4.1.2.30Uninstalling opencv-python-4.1.2.30: Successfully uninstalled opencv-python-4.1.2.30WARNING: Skipping opencv-contrib-python as it is not installed.!pip install opencv-contrib-python==4.5.3.56Looking in indexes: http://repo.myhuaweicloud.com/repository/pypi/simpleCollecting opencv-contrib-python==4.5.3.56 Downloading http://repo.myhuaweicloud.com/repository/pypi/packages/3f/ce/36772cc6d9061b423b080e86919fd62cdef0837263f29ba6ff92e07f72d7/opencv_contrib_python-4.5.3.56-cp37-cp37m-manylinux2014_x86_64.whl (56.1 MB) |████████████████████████████████| 56.1 MB 166 kB/s eta 0:00:01|█████▋ | 9.8 MB 9.4 MB/s eta 0:00:05 MB 9.4 MB/s eta 0:00:05███▏ | 26.6 MB 9.4 MB/s eta 0:00:04/s eta 0:00:03��██▍ | 35.8 MB 9.4 MB/s eta 0:00:03�███████████▌ | 42.9 MB 9.4 MB/s eta 0:00:02��██████████████▎ | 49.6 MB 166 kB/s eta 0:00:40Requirement already satisfied: numpy>=1.14.5 in /home/ma-user/anaconda3/envs/PyTorch-1.4/lib/python3.7/site-packages (from opencv-contrib-python==4.5.3.56) (1.20.3)Installing collected packages: opencv-contrib-pythonSuccessfully installed opencv-contrib-python-4.5.3.56WARNING: You are using pip version 20.3.3; however, version 21.1.3 is available.You should consider upgrading via the '/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python -m pip install --upgrade pip' command.cd SkyAR//home/ma-user/work/Untitled Folder/SkyARimport timeimport jsonimport base64import numpy as npimport matplotlib.pyplot as pltimport cv2import argparsefrom networks import *from skyboxengine import *import utilsimport torchfrom IPython.display import clear_output, Image, display, HTML%matplotlib inline# 如果存在GPU则在GPU下面运行device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")INFO:matplotlib.font_manager:generated new fontManager2、预览一下原视频video_name = "test_videos/sky.mp4"def arrayShow(img): img = cv2.resize(img, (0, 0), fx=0.25, fy=0.25, interpolation=cv2.INTER_NEAREST) _,ret = cv2.imencode('.jpg', img) return Image(data=ret)# 关上一个视频流cap = cv2.VideoCapture(video_name)frame_id = 0while True: try: clear_output(wait=True) # 革除之前的显示 ret, frame = cap.read() # 读取一帧图片 if ret: frame_id += 1 if frame_id > 200: break cv2.putText(frame, str(frame_id), (5, 15), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 1) # 画frame_id tmp = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) # 转换色调模式 img = arrayShow(frame) display(img) # 显示图片 time.sleep(0.05) # 线程睡眠一段时间再解决下一帧图片 else: break except KeyboardInterrupt: cap.release()cap.release() ...

September 30, 2021 · 4 min · jiezi

关于modelarts:U2Net基于ModelArts-Notbook的仿真实验

摘要:U2Net是一个优良的显著性指标检测算法,由Qin Xuebin等人发表在Pattern Recognition 2020期刊[Arxiv]。U2Net名称的起源在于其网络结构由两层嵌套的Unet构造,能够在不须要预训练骨干网络的状况下从零开始训练,领有优异的体现。本文分享自华为云社区《ModelArts Notebook疾速开源我的项目实战 — U2Net》,作者:shpity 。 一、U2Net介绍U2Net是一个优良的显著性指标检测算法,由Qin Xuebin等人发表在Pattern Recognition 2020期刊[Arxiv]。U2Net名称的起源在于其网络结构由两层嵌套的Unet构造,能够在不须要预训练骨干网络的状况下从零开始训练,领有优异的体现。其网络结构如图1所示。 图1. U2Net的主体框架是一个相似于U-Net的编解码构造,然而每一个block替换为新提出的残差U-block模块 我的项目开源地址:https://github.com/xuebinqin/... 二、创立Notebook开发环境1.进入ModelArts控制台 2.抉择开发环境 -> Notebook -> 创立 3.创立Notebook 3.1 能够抉择和工作相干的名称,方便管理; 3.2 为了缩小不必要的资源耗费,倡议开启主动进行; 3.3 U2Net所需的运行环境在公共镜像中曾经蕴含,能够抉择pytorch1.4-cuda10.1-cudnn7-ubuntu18.04; 3.4 倡议抉择GPU类型,不便模型疾速训练; 3.5 抉择立刻创立 -> 提交,期待notebook创立实现后关上Notebook。 4.导入开源我的项目源码(git/手动上传) 4.1 在Terminal应用git克隆近程仓库 cd work # 留神:只有/home/ma-user/work目录及其子目录下的文件在Notebook实例敞开后会保留git clone https://github.com/xuebinqin/U-2-Net.git4.2 如果git速度较慢也能够从本地上传代码,间接将压缩包拖到左侧文件目录栏或者采纳OBS上传。 三、 数据筹备1.下载训练数据APDrawing dataset 应用Wget间接下载到Notebook,也可下载本地后再拖拽到Notebook中。 wget https://cg.cs.tsinghua.edu.cn/people/~Yongjin/APDrawingDB.zipunzip APDrawingDB.zip注:如果数据集较大(>5GB)须要下载到其它目录(实例进行后会被删除),倡议寄存在OBS中,须要的时候随时拉取。 #从OBS中拉取代码到指定目录sh-4.4$ source /home/ma-user/anaconda3/bin/activate PyTorch-1.4sh-4.4$ python>>> mox.file.copy_parallel('obs://bucket-xxxx/APDrawingDB', '/home/ma-user/work/APDrawingDB')2.切分训练数据 数据集中./APDrawingDB/data/train中蕴含了420张训练图片,分辨率为512*1024,左侧为输出图像,右侧为对应的ground truth。咱们须要将大图从两头切分为两个子图。 2.1 在Notebook开发环境中新建一个Pytorch-1.4的jupyter Notebook文件,名称能够为split.ipynb,脚本将会在./APDrawingDB/data/train/split目录下生成840张子图,其中原始图像以.jpg结尾,gt图像以.png结尾,不便后续训练代码读取【test文件夹切分步骤同理】。 from PIL import Imageimport ostrain_img_dir = os.path.join("./APDrawingDB/data/train")img_list = os.listdir(train_img_dir)for image in img_list: img_path = os.path.join(train_img_dir, image) if not os.path.isdir(img_path): img = Image.open(img_path) #print(img.size) save_img_dir = os.path.join(train_img_dir, 'split_train') if not os.path.exists(save_img_dir): os.mkdir(save_img_dir) save_img_path = os.path.join(save_img_dir, image) cropped_left = img.crop((0, 0, 512, 512)) # (left, upper, right, lower) cropped_right = img.crop((512, 0, 1024, 512)) # (left, upper, right, lower) cropped_left.save(save_img_path[:-3] + 'jpg') cropped_right.save(save_img_path)test_img_dir = os.path.join("./APDrawingDB/data/test")img_list = os.listdir(test_img_dir)for image in img_list: img_path = os.path.join(test_img_dir, image) if not os.path.isdir(img_path): img = Image.open(img_path) #print(img.size) save_img_dir = os.path.join(test_img_dir, 'split') if not os.path.exists(save_img_dir): os.mkdir(save_img_dir) save_img_path = os.path.join(save_img_dir, image) cropped_left = img.crop((0, 0, 512, 512)) # (left, upper, right, lower) cropped_right = img.crop((512, 0, 1024, 512)) # (left, upper, right, lower) cropped_left.save(save_img_path[:-3] + 'jpg')3.将切分好的数据依照如下层级构造整顿出训练和测试所需的datasets文件夹 ...

August 12, 2021 · 6 min · jiezi

关于modelarts:云小课|ModelArts-Pro-视觉套件零代码构建视觉AI应用

阅识风波是华为云信息大咖,善于将简单信息多元化出现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您疾速上手华为云。更多精彩内容请单击此处。 摘要:ModelArts Pro提供了视觉套件,旨在帮忙各行业客户疾速开发满足业务诉求的视觉AI利用,同时反对客户自主进行工作流编排,疾速实现AI利用的开发和部署,晋升视觉AI开发效率。明天就带大家看看如何零代码构建视觉AI利用~本文分享自华为云社区《云小课|ModelArts Pro 视觉套件:零代码构建视觉AI利用》,作者: 阅识风波。 ModelArts Pro 是为企业级AI利用打造的业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。 ModelArts Pro提供了视觉套件,旨在帮忙各行业客户疾速开发满足业务诉求的视觉AI利用,同时反对客户自主进行工作流编排,疾速实现AI利用的开发和部署,晋升视觉AI开发效率。 预置工作流· 批发商品辨认工作流 超市、批发商店等场景下,商品种类更新速度快,商品辨认技术会大大晋升商品优化和经营效率。ModelArts Pro提供批发商品辨认工作流,为您提供高精度的商品辨认算法,进步批发商品新品上线效率。 · 热轧钢板外表缺点检测工作流 在钢铁厂中,钢板的材质、热处理工艺以及应用环境等外界因素均会影响钢板的使用寿命,而这些外界因素导致钢板缺点。钻研钢板外表的缺点类型对钢板的使用寿命至关重要,ModelArts Pro提供热轧钢板外表缺点检测工作流,提供高精度钢板外表缺点辨认算法,进步钢板外表缺点检测场景上线效率。 · 云状辨认工作流 察看云的内部形态,即云的形状特色、构造特点和云底高度,对预测天气变动有重要的影响。ModelArts Pro提供云状辨认工作流,为您提供高精度的云状辨认算法,通过云的内部形态预测天气变动。 · 刹车盘辨认工作流 在汽车零部件的生产制作中,经常会同时生产几十、上百种不同型号的产品。是否在出厂前对这些零部件进行高效、精准的分拣,对企业的效益尤为重要。ModelArts Pro提供刹车盘辨认工作流,通过构建刹车盘辨认模型,疾速、精确的辨认刹车盘类别。 · 无监督车牌检测工作流 车牌检测与辨认技术对于交通管理智能化、进步交通执法的稳定性具备重要意义。ModelArts Pro提供无监督车牌检测工作流,基于高精度的无监督车牌检测算法,无需用户标注数据,大大降低标注老本和进步车牌检测场景上线效率。 特色劣势· 场景丰盛,笼罩批发、工业、气象、交通等多种场景。 · 模型训练、更新的流程自动化,更新模型简便。 · 业余畛域模型,精确辨认和了解图像内容。 · 可依据应用过程中的反馈继续优化模型。 零代码构建视觉利用第一步:开明套件目前ModelArts Pro 视觉套件处于公测阶段,首次应用视觉套件须要开明公测权限。 登录ModelArts Pro控制台,抉择行业套件卡片并单击“申请公测”,在申请公测页面依据界面提醒填写所需信息。 申请公测操作实现后,单击“返回我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,示意您曾经取得了该行业套件的公测权限。 第二步:委托受权在您应用ModelArts Pro过程中,ModelArts Pro须要进行委托受权,用于拜访ModelArts服务的云资源。如果没有受权,相干性能将不能失常应用。 如果未取得ModelArts委托受权和拜访秘钥(AK/SK)受权,当进入ModelArts Pro控制台的行业套件时,会弹出“拜访受权”对话框。 在弹出的“拜访受权”对话框填写受权信息,而后单击“批准受权”,实现拜访受权的配置。 “用户名”为以后须要受权的用户名,放弃默认值。 “委托”抉择“modelarts_agency”。 勾选“我曾经具体浏览并批准《ModelArts服务申明》”。 第三步:创立利用依据您的行业和利用场景,抉择匹配的工作流,创立您的利用。 1、在ModelArts Pro控制台界面,单击“自然语言解决套件”卡片的“进入套件”。 进入视觉套件控制台。 2、在左侧导航栏抉择“利用开发>工作台”。 默认进入“我的利用”页签。 3、在“我的利用”页签下,单击“新建利用”。 进入“新建利用”页面。 您也能够单击“我的工作流”,切换至“我的工作流”页签,抉择工作流并单击卡片中的“新建利用”。 4、依据业务需要填写“利用名称”、“利用负责人”和“利用形容”,抉择“所属行业”及工作流,而后依据所选工作流填写“资产配置”。 5、确认信息后,单击“确定”。 胜利新建利用。 第四步:开发并上线利用依据流程指引实现工作流,并将利用公布上线。 批发商品辨认工作流: 热轧钢板外表缺点检测工作流: ...

July 21, 2021 · 1 min · jiezi

关于modelarts:云小课-ModelArts-Pro-自然语言处理套件高效构建行业高精度文本处理模型

摘要:ModelArts Pro提供了自然语言解决套件,为客户提供自然语言解决的自定制工具,旨在帮忙客户高效地构建行业畛域的高精度文本处理模型,可利用于政府、金融、法律等行业。本文分享自华为云社区《【云小课】EI第20课 ModelArts Pro 自然语言解决套件 高效构建行业文本处理模型》,原文作者:Hi,EI 。 ModelArts Pro 是为企业级AI利用打造的业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。 ModelArts Pro提供了自然语言解决套件,为客户提供自然语言解决的自定制工具,旨在帮忙客户高效地构建行业畛域的高精度文本处理模型,可利用于政府、金融、法律等行业。 还等什么,连忙跟我来看看吧~ 预置工作流通用文本分类工作流反对自主上传文本数据,构建高精度文本分类预测模型,适配不同行业场景的业务数据,疾速取得定制服务。此工作流仅反对对中文进行文本分类,且反对单标签分类和多标签分类。 多语种文本分类工作流反对自主上传多语种文本数据,构建高精度文本分类预测模型,此工作流反对文本分类的语种包含英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等,反对单标签分类和多标签分类。 通用实体抽取工作流反对自主上传文本数据,构建高精度实体抽取模型,适配不同行业场景的业务数据,疾速取得定制服务。 特色劣势实用智能问答、舆情剖析、内容举荐等多种场景。针对多场景畛域提供预训练模型,反对抽取文本中的实体,分类准确率高。提供欠缺的文本处理能力,反对多种数据格式内容,适配不同场景的业务数据。可依据应用过程中的反馈继续优化模型。疾速上手自然语言解决套件第一步:开明套件目前ModelArts Pro 自然语言解决套件处于公测阶段,首次应用自然语言解决套件须要开明公测权限。 登录ModelArts Pro控制台,抉择行业套件卡片并单击“申请公测”,在申请公测页面依据界面提醒填写所需信息。 申请公测操作实现后,单击“返回我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,示意您曾经取得了该行业套件的公测权限。 第二步:委托受权 在您应用ModelArts Pro过程中,ModelArts Pro须要进行委托受权,用于拜访ModelArts服务的云资源。如果没有受权,相干性能将不能失常应用。 如果未取得ModelArts委托受权和拜访秘钥(AK/SK)受权,当进入ModelArts Pro控制台的行业套件时,会弹出“拜访受权”对话框。 在弹出的“拜访受权”对话框填写受权信息,而后单击“批准受权”,实现拜访受权的配置。 “用户名”为以后须要受权的用户名,放弃默认值。“委托”抉择“modelarts_agency”。勾选“我曾经具体浏览并批准《ModelArts服务申明》”。第三步:创立利用依据您的行业和利用场景,抉择匹配的工作流,创立您的利用。 1、在ModelArts Pro控制台界面,单击“自然语言解决套件”卡片的“进入套件”。 进入文字辨认套件控制台。 2、在左侧导航栏抉择“利用开发>工作台”。 默认进入“我的利用”页签。 3、在“我的利用”页签下,单击“新建利用”。 进入“新建利用”页面。 您也能够单击“我的工作流”,切换至“我的工作流”页签,抉择工作流并单击卡片中的“新建利用”。 4、依据业务需要填写“利用名称”、“利用负责人”和“利用形容”,抉择“所属行业”及工作流。 5、确认信息后,单击“确定”。 胜利新建利用。 第四步:开发并上线利用依据流程指引实现工作流,并将利用公布上线。 通用文本分类工作流:多语种文本分类工作流:通用实体抽取工作流第五步:迭代优化保护利用,一直优化迭代。 互联网/电商+ModelArts Pro在互联网电商平台上,每天都会产生海量商品评论。如果不及时发现客户评论中的负面反馈,就容易导致投诉率回升、产品畅销。 ModelArts Pro内置了文本分类工作流情感剖析服务,最快一个小时可实现部署上线。 点击下方“理解更多”, ModelArts Pro服务等着您! 点击关注,第一工夫理解华为云陈腐技术~

July 2, 2021 · 1 min · jiezi

关于modelarts:六一儿童节看我用ModelArts让8090梦回童年

【本期举荐】 8岁小朋友的儿童节,有点硬核,一起来意识这些小小程序员,看他们如何coding出一个不同凡响的童年。 摘要: 如果还能再过一次儿童节……本文分享自华为云社区《“梦回童年,尽享美食“--ModelArts + Wechaty 辨认童年美食》,原文作者:华为云EI专家胡琦。 大家好,我是Copy攻城狮胡琦,昨晚终于把憋了很久的 ModelArts + Wechaty 实现乏味的美食图片辨认利用跑通了。只管联合 Wechaty 调用 AI 相干服务在多年以前就被千人实现过了,不过作为小白的我可能借助一站式AI开发平台 ModelArts 老手制作数据集、训练模型并部署,最终通过最好的微信开发库 Wechaty 实现调用 AI 服务的聊天小助手,还是非常乏味的。当然,我也急不可待地将我的实际分享给大家,也心愿可能取得各位大佬的领导! 数据集制作咱们从AI开发流程登程,当我确定了我的目标是要联合 ModelArts + Wechaty 来实现童年美食辨认,基本上我的技术选型也就确定了,鉴于我学艺不精,零根底都能上手的一站式AI开发平台ModelArts和四行代码就能实现聊天机器人的微信开发库 Wechaty,便成了我惟一的抉择。筹备数据的阶段,我有幸遇到了前辈奉献的代码,因而可能疾速从某度图片获取我想要的图片,具体操作能够查看我的历史文章《老手小白如何疾速获取数据集》。我用同样的手法获取到了菠萝啤、大白兔奶糖、罗唆面、果丹皮、汉堡橡皮糖、猴王丹、花生牛轧糖、健力宝、酒心巧克力、烤红薯、辣条、老冰棍、三色冰淇淋、沙琪玛、跳跳糖、娃哈哈AD钙、旺旺碎冰冰、旺仔牛奶、西瓜泡泡糖、仙贝、鱼皮花生、玉米软糖、真知棒、咪咪虾条共24个分类,从7200张图片中一张一张分拣,最终标注3543张,实现了一个临时看上去想那么回事的数据集--《"儿童节特辑"--8090的童年美食》。 不过,目前从数据的标签散布来看,不太正当,被标注最多的标签数量多达268个,而被标注起码的标签数量仅23个,两者差了一个数量级,因而训练进去的模型大概率会跑偏。 在ModelArts上进行数据标注时,其实也是有肯定技巧的。比方,我在本地获取到了大量的图片,通过 OBS 的命令行工具上传到 OBS 桶中之后,因为此次标注是图像分类,因而我在标注时能够通过图片寄存的 OBS 目录来疾速筛选出以后要分拣的标签以及进行标注。目前ModelArts数据集解决时单页最多可显示60张图片,这也给我对图片进行精挑细选提供了强有力的反对。其次,在进行图片筛选时,能够从最初一页进行,每次删除图片时顺带把源文件也从 OBS 中移除,移除往前直至解决到第一页。最初,又能够全选当前页进行标注。整个数据集从数据获取到数据处理再到数据集公布,花了不到2小时,个人感觉对老手小白曾经很敌对了! 训练及评估模型如果您对《"儿童节特辑"--8090的童年美食》数据集感兴趣,能够在 AI Gallery 进行一键下载,既能够下载到 OBS 也也可间接下载到 ModelArts 数据集。 基于数据集,在 ModelArts 平台上除了能够自行开发算法并训练模型,也能够应用 AI Gallery 的订阅算法或者间接应用 ModelArts 的主动学习来训练模型。这里为了更简便的操作,本大狮就间接应用简略粗犷的主动学习来实现,次要想看到以后的数据集能训练出怎么样的后果(PS:其实次要是收费,「请把免费打在评论区」),您期待吗? 在创立完主动学习的工作运行9分钟之后,我 Get 到了一个模型,从训练后果来看还是十分现实的,不过到底是骡子是马,还得看最终部署之后的成果。 表中是各个标签所对应的参考值,其中F1值是模型准确率和召回率的加权和谐均匀,用于评估模型的好坏,当F1值较高时阐明模型成果较好;精确度指的是被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的辨别能力;召回率指的是被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的辨认能力。 部署模型目前 ModelArts 反对一个收费的部署服务实例,因为我之前的实际曾经占用了名额,因而当我再次在主动学习中部署模型时会提醒以下图中的报错,从而我只能去到「部署在线--在线服务」手动新建一个服务实例。 在部署模型的时候,咱们能够依据本身的需要增加一些个性化设置或者其余性能,比方数据采集、难例筛选等等。看到服务部署胜利之后,我曾经急不可待地想先调试一下,轻易找了一张「跳跳糖」的图片,让 AI 辨认一下,哎呀还不错哦,感觉比我设想中的要好。ModelArts 的开发局部就告一段落,接着咱们依照在线服务的调试指南进行与 Wechaty 的联合开发,“Talk is cheap. Show me the code.” ...

June 1, 2021 · 2 min · jiezi

关于modelarts:ModelArts的雪中送炭让我拿下CCF-BDCI华为Severless工作负载预测亚军

摘要: 中国计算机学会大数据与计算智能大赛(CCF BDCI)华为Severless工作负载预测亚军计划和ModelArts应用体验分享本文分享自华为云社区《收费薅ModelArts算力资源-拿下CCF BDCI华为Severless工作负载预测亚军》,原文作者:wyhhyw 。 赛题简介基于历史数据和历史趋势,对Severless软件架构的工作负载进行精准预测,便于优化资源调整和晋升用户服务质量。 数据提供了43个队列数天中的应用状况,其中包涵CPU使用率、磁盘使用率、提交作业数量,作业是否提交胜利等信息。要求依据历史信息,预测测试集将来25分钟内,每距离五分钟的CPU使用率和提交作业数量。赛题链接https://www.datafountain.cn/c... 赛题剖析这是一道十分典型的工夫序列回归问题,指标时对将来五个工夫点的CPU使用率和提交作业进行预测。能够从以下几个角度对指标进行建模。 趋势拟合:依据待预测工夫点之前的使用率和作业数拟合曲线,并给出预测,参考arima等模型。单标签回归:以5为工夫距离,对指标进行预测,例如,x1 -> x6, x2 -> x7。具体如下图所示:多标签回归:参考pandas.shift函数,结构历史信息的平滑特色,每次预测一个工夫点的指标。示意图如下:计划介绍笔者有幸取得该较量的第二名(二等奖),建模办法为交融lightgbm和lstm预测后果,其中lightgbm线上第二,lstm线上第10左右。因为本计划采纳的lstm构造比较简单且问题不是特地现实,而第三名的lstm是决赛问难队伍中线上问题最高的神经网络模型,因而本文还介绍了第三名(同二等奖)的lstm架构。 数据分析在特色工程和建模之前,首先来一波EDA~ 下图展现了不同队列下的CPU使用率散布状况,能够发现,不同队列下的数据分布存在较大差异,因而队列号对于预测CPU使用率也是一个十分强力的特色。 下图展现了某队列号下CPU使用率随小时的变化趋势,能够发现下午至凌晨3点使用率均较高,因而小时和分钟也是一个十分强力的特色。须要留神的是,赛题方对工夫戳的年月日进行了脱敏,因而仅能应用小时和分钟两个特色。 特色工程必不可少的局部,特色为王 滑动特色:对CPU使用率等特色应用pandas.shift函数构建其平滑特色。差分特色:在平滑特色的根底上结构各阶差分特色。基于滑窗的统计特色:在平滑特色的根底上开一个窗口,而后滑动,每次取窗口内特色的均值、方差、最大值等统计特色。聚合统计特色:例如历史数据中不同小时下CPU使用率的均值和方差等特色。伪穿梭特色:穿梭特色个别是不被容许的。那么对于时序问题,能够构建伪穿梭特色,其实也就是聚合统计特色。例如,待预测的工夫点是上午9点,能够依据历史数据结构上午10点的均值等统计特色,并且衍生出差值比值等特色。模型建模策略:见赛题剖析中的多标签回归。一般来说,这种建模形式都会获得较好的成果。lightgbm:对每一个标签都进行五折穿插验证,CPU使用率和提交作业数各五个工夫点,则一共进行了十次五折穿插验证。lstm:CPU使用率是0-100的整数,间断五个工夫点的数据如"10-21-41-31-34"能够看做是nlp中的字符索引,因而能够间接用于索引embedding lookup table中的字向量,那么建模就很天然的适度到了lstm。下图展现了本文所用的lstm架构,成果并不是非常现实,线上大概在第十左右。在赛后和队友剖析探讨之后,认为咱们的框架存在几个问题。首先是将每个CPU使用率当做字向量,那么lstm中的input_dim为1,成果必定不好。其次是咱们的框架很简略,并没有引入卷积或者注意力机制等。 上面给出二等奖中另一支队伍的lstm框架,该框架包含两局部:(1)LSTM提取CPU使用率、硬盘使用率的时序信息,引入注意力机制(2)全连贯提取其余手工特色的信息,进行高阶穿插,并且设置跨层连贯,形成“不同尺度的集成模型”。 训练损失:因为数据稳定较大,因而能够认为存在肯定的离群点,所以采纳smooth l1作为损失函数。算力:lightgbm建模对算力的要求较小,16G内存足以。但应用上述神经网络训练时,因为是多标签回归(10个标签),对每个标签都须要训练一个模型,如果再联合五折穿插验证,那么将训练50个模型,这对算力就有肯定的需要。笔者在赛程靠近序幕时才开始训练nn模型,然而自己只有一张玩具显卡gtx1650,对于该多标签工作训练数十个模型切实太过消耗工夫,无可奈何去寻找算力资源。通过师兄的举荐,最初选定了华为云的ModelArts,每天两小时的收费算力,而且是V100,感觉很不错。最初让实验室兄弟多开几个号,一边训练一边保留模型,工夫快到了就换号持续训练,两三天就把模型跑好了。尽管因为时限须要切换账号,但总体的应用体验还是不错的,上面就给大家简略介绍一下ModelArts的应用体验。 ModelArts应用体验应用感触(1)尽管是在云端训练,然而ModelArts提供了jupyter lab/notebook,就像平时在本地PC上上传数据到notebook中而后写代码一样,齐全感知不到训练流程的变动。lab中集成了不同的引擎,惯例的如pytorch, tf, xgboost这些都有。 (2)装置依赖包很不便,间接在cell中’!pip install xxx’就能够,原生的notebook中如同没有这个性能。比方我新建的notebook是pytorch引擎,但又须要xgboost,那么就可间接装置,见下图。 (3)目前上传数据有限度,一次只能上传大概是几百MB,能够先将数据上传至notebook中后再进行特色工程,对于比拟大的数据,能够本地切分当前分批上传,所以这也是一个无关紧要的问题,毕竟收费V100太香了。 还有一些其余的细节,各位小伙伴们能够自行摸索呀! 划重点-如何申请还愣着干什么,猛点链接,抢算力呀!!! https://bbs.huaweicloud.com/f... 点击关注,第一工夫理解华为云陈腐技术~

June 1, 2021 · 1 min · jiezi

关于modelarts:云小课-一个三分钟快速定制OCR应用的神器要不

摘要:ModelArts Pro提供了文字辨认套件,基于丰盛的文字辨认算法和行业常识积攒,帮忙客户疾速构建满足不同业务场景需要的文字辨认服务。三分钟即可疾速定制OCR服务,实现多种版式图像的文字信息结构化提取。本文分享自华为云社区《【云小课】EI第15课 ModelArts Pro 文字辨认套件,三分钟疾速定制OCR服务》,原文作者: Hi,EI 。 ModelArts Pro 是为企业级AI利用打造的业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。 ModelArts Pro提供了文字辨认套件,基于丰盛的文字辨认算法和行业常识积攒,帮忙客户疾速构建满足不同业务场景需要的文字辨认服务。三分钟即可疾速定制OCR服务,实现多种版式图像的文字信息结构化提取。 接下来就是见证奇观的时刻~ 预置工作流文字辨认套件以后提供了单模板工作流和多模板工作流,自主构建文字辨认模板,辨认模板图片中的文字,提供高精度的文字辨认模型,保障结构化信息提取精度。 通用单模板工作流通过构建文字辨认模板,辨认单个板式图片中的文字,提供高精度的文字辨认模型,保障结构化信息提取精度。 多模板分类工作流反对用户自定义多个文字辨认模板,通过模型训练,自动识别图片所需应用的模板,从而反对从大量不同板式图像中提取结构化信息。通常实用于物流行业。 特色劣势当先的AI开发平台底层依靠ModelArts提供的当先的算法技术,保障AI利用开发的高效和推理后果的精确,同时缩小人力投入。 简略的流程式开发无需人工智能专业知识,用户可借助预置的行业工作流,全流程可视化实现实现AI利用开发以及继续迭代。 高效的行业算法当先人工智能技术联合行业专家教训,构建出优质高效的行业预置算法,行业AI利用开发者仅需大量标注数据,就能取得高精度的AI利用。 反对简单场景旋转、褶皱等不利的图片品质下,能做到高精度的无效辨认。 5步上手文字辨认套件第一步:开明套件目前ModelArts Pro 文字辨认套件处于公测阶段,首次应用文字辨认套件须要开明公测权限。 登录ModelArts Pro控制台,抉择行业套件卡片并单击“申请公测”,在申请公测页面依据界面提醒填写所需信息。 申请公测操作实现后,单击“返回我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,示意您曾经取得了该行业套件的公测权限。 第二步:委托受权在您应用ModelArts Pro过程中,ModelArts Pro须要进行委托受权,用于拜访ModelArts服务的云资源。如果没有受权,相干性能将不能失常应用。 如果未取得ModelArts委托受权和拜访秘钥(AK/SK)受权,当进入ModelArts Pro控制台的行业套件时,会弹出“拜访受权”对话框。 在弹出的“拜访受权”对话框填写受权信息,而后单击“批准受权”,实现拜访受权的配置。 “用户名”为以后须要受权的用户名,放弃默认值。“委托”抉择“modelarts_agency”。勾选“我曾经具体浏览并批准《ModelArts服务申明》”。详情请见配置拜访权限。 第三步:创立利用依据您的行业和利用场景,抉择匹配的工作流,创立您的利用。 1、在ModelArts Pro控制台界面,单击“文字辨认”套件卡片的“进入套件”。 进入文字辨认套件控制台。 2、在左侧导航栏抉择“利用开发>工作台”。 默认进入“我的利用”页签。 3、在“我的利用”页签下,单击“新建利用”。 进入“新建利用”页面。 您也能够单击“我的工作流”,切换至“我的工作流”页签,抉择工作流并单击卡片中的“新建利用”。 4、依据业务需要填写“利用名称”、“利用负责人”和“利用形容”,抉择“所属行业”及工作流。 5、确认信息后,单击“确定”。 胜利新建利用。 第四步:开发并上线利用依据流程指引实现工作流,并将利用公布上线。 通用单模板工作流: 多模板分类工作流: 第五步:迭代优化保护利用,一直优化迭代。 物流+ModelArts Pro 文字辨认套件物流企业源自寰球各地的单据板式数以万计,物流参加各方须要消耗人力执行大量的纸质单证信息的手工录入等操作。 传统形式开发文字辨认须要7天,应用ModelArts Pro 文字辨认套件的预置工作流实现新版式票证构造提取接口开发仅需3分钟。 那么,实际一下,教您五步上手文字辨认套件~ 详情请戳这里理解。 [点击关注,第一工夫理解华为云陈腐技术~](https://bbs.huaweicloud.com/b...

May 17, 2021 · 1 min · jiezi

关于modelarts:云图说|ModelArts-Pro为企业级AI应用打造的专业开发套件

摘要: ModelArts Pro 为企业级AI利用打造业余开发套件。基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。AI技术的高门槛与落地难是中国利用者面临的最大挑战。如何升高AI利用的技术门槛,如何提供简略易用、便捷高效的落地计划,成为了行业AI利用路线上须要解决的重大课题。 ModelArts Pro 是为企业级AI利用打造的业余开发套件,基于华为云的先进算法和疾速训练能力,提供预置工作流和模型,晋升企业AI利用的开发效率,升高开发难度。 应用ModelArts Pro进行AI开发到底有多不便?“云图说”带您理解它的前因后果。 点击“理解更多”, ModelArts Pro服务等着您! 点击关注,第一工夫理解华为云陈腐技术~

April 30, 2021 · 1 min · jiezi

关于modelarts:除了方文山用TA你也能帮周杰伦写歌词了

周杰伦简直陪伴了每个90后的青春,那如果AI写杰伦格调的歌词会写成怎么呢? 首先当然咱们须要筹备杰伦的歌词,这里一共收录了他的十几张专辑,近5000多行歌词。 原文档格局: 第一步数据预处理def preprocess(data): """ 对文本中的字符进行替换,空格转换成逗号;换行变为句号。 """ data = data.replace(' ', ',') data = data.replace('\n', '。') words = jieba.lcut(data, cut_all=False) # 全模式切词 return words解决后后果: 前10个词: ['想要', '有', '直升机', '。', '想要', '和', '你', '飞到', '宇宙', '去']将解决完的数据写入内存并将文本转换完数字 # 结构词典及映射vocab = set(text)vocab_to_int = {w: idx for idx, w in enumerate(vocab)}int_to_vocab = {idx: w for idx, w in enumerate(vocab)}# 转换文本为整数int_text = [vocab_to_int[w] for w in text]构建神经网络a. 构建输出层 ...

September 2, 2020 · 2 min · jiezi

关于modelarts:释放DT时代释放金融数据价值驱动金融商业裂变

摘要:客户微细分模型上线华为云ModelArts,看如何以AI科技开掘金融数据价值。以后信息化浪潮席卷寰球,新一轮的科技反动和产业革命推动金融行业倒退到全新阶段。人工智能2.0时代,智慧金融方兴未艾,曾经成为社会经济高质量倒退的重要助推力。 面对金融科技带来的激烈变动,“金融+科技+AI”现在已成为大部分金融公司的策略方向。金融公司一直依靠本身劣势从策略层面强化金融与科技的交融,构建新业务状态,改革其组织、流程、经营、技术等,建设新业务体系。因而,过来几年,金融科技企业和第三方服务公司始终在单干推出新的利用和服务,越来越多的金融科技产品展露视线。 近日,索信达携手华为云,在ModelArts平台上线“索信达客户微细分模型”,这个模型也成了首个上线ModelArts的金融营销模型。在人工智能强势赋能金融业的当下,这样一个模型的推出,又能给行业带来什么样的影响和意义? 客户微细分,寻找数据价值的突破口银行业是一个十分重视客户群体细分的产业,受到突飞猛进倒退的时代影响,客户的共性、特色以及需要也在实时变动。只管很多银行曾经力不从心地做了客户细分,通常也只分到几个大类,剖析做得不够粗疏,导致无奈无效模仿业务的倒退。 同时,很多为银行提供数据服务的供应商,也没有真正考量用户数据中的业务价值,匆匆将人脸识别、语音、视频等通用深度学习模型上线,但无奈为银行提供更加深刻业务洞察的数据营销服务。 而索信达和华为云推出的客户微细分模型,它不仅仅是简略的只对用户结构化数据进行整合细分,而是通过利用宏大的交易数据,创造性的提出了“数据图像化”的新思路。 据理解,该模型能够通过对银行数据的收集和剖析来达到将结构化数据翻新地变成图像,而后对图像进行深度学习,采纳深度神经网络来挖掘更多无效的深层特色,同时拟合更简单的关系,从而达到对客户进行微细分的目标。 简略来说,就是首先通过银行的用户数据进行离散化的解决,进步运算效率。其次通过相干剖析、万有引力定律、网络布局、坐标定位、染色等技术解决,来实现数据图像化的成果。之后,开始对数据图像进行深度学习,通过读取图像特色、DBSCAN密度聚类、无限状态机等形式来剖析客户的动静演变。最初生成状态转移全景图,以供银行更加直观的理解用户特色,以及预判用户数据的演变法则,最终做出更加正当的用户策略。 通过数据图像化的形式,可能帮忙银行建设更加精准的用户模型,从而助力寻找数据价值的突破口。据悉,通过引入客户微细分产生的新图像特色,能够将上线模型前10%名单的命中率进步20%至40%,间接产生的营销效益高达数百万至上千万。 “金融+科技”的深层次交融当下科技对于金融行业倒退的促成不再局限于渠道等浅层次方面,而是开启了“金融+科技”的深层次交融。金融与科技的深层次交融,扭转了金融渠道、获客等前端环节,也在驱动产品设计、风控、合规等中后盾畛域的改革。 家喻户晓,2020年的疫情影响了寰球的经济生态,也给银行业带来了间接的影响。新批发、小微经济的暴发,也将市场的格局推到了一个新的高度。数字化已成为新批发的外围驱动力,如何对更多元的客户进行微细分,成为了必须要面对的难题,也成为了企业抢占市场的时机。索信达与华为云的强强联合,整合了华为云弱小的平台劣势以及索信达创新性的金融营销模型,这或将给金融业的数字转型带来事倍功半的成果。 能够看出,此次单干体现了华为云ModelArtsAI市场在AI技术-产品-市场的全周期治理理念。目前华为云AI模型市场是国内第一个提供公布及订阅AI模型服务的平台,次要包含AI模型市场、API市场、WIKI数据集、比赛Hub和案例Hub等模块。对于各种上线的模型也有着严格的审核和筛查。并且,华为云可实现寰球本地化服务反对,在云中可实现开发、测试、部署、运维、经营等一系列研发流动,这可为索信达提供弱小的生态反对,让索信达的金融营销模型惠及更广的范畴。 随着金融科技的浸透,如果咱们把目前下阶段金融科技带来的改革看作是将来的新起始。金融科技都将会向深层次进一步浸透,开启了“金融+科技”的深层次交融。金融与科技彼此赋能、彼此成就,互相的作用产生出更加弱小的效力,成为推动古代社会经济倒退的加速器。 点击关注,第一工夫理解华为云陈腐技术~

August 11, 2020 · 1 min · jiezi

关于modelarts:Developer-转型记一个开发平台的魔力

摘要:开发者该如何借助AI技术,摸索可积淀的落地利用?在这AI技术浪潮下,实现完满的利用翻新?咱们一起来听听他的故事……随着政策的加持、技术疾速的迭代,人工智能热潮正在蔓延。2020年,AI落地大考还在持续,随之带来的人才需求,也在一直增长,同样率先把握住机会的开发者就有更大机会占据先机。 那么,开发者该如何借助AI技术,摸索可积淀的落地利用?在这AI技术浪潮下,实现完满的利用翻新?或者华为云MDG社区华为云MVP毛昌启的故事,能给你带来一点点的思路。 千回百转,茫茫中遇到TA华为云MVP毛昌启,作为一家企业治理征询公司的技术工程师,次要负责外部信息化零碎建设,及客户在征询我的项目中配套的信息系统建设工作。谈到本人的开发者经验,华为云MVP毛昌启悲喜交集。 “最后接触IT技术,次要是要做一个图书管理系统的大学毕业设计。对于开发语言无所不通,不得已在学校左近报名了一个软件培训学院进行自学。”华为云MVP毛昌启示意,也正是这一次的涉足,对他起初的工作抉择产生了很大的影响。在进入公司之后,在一个我的项目中因为本人的教训和所把握技术等问题,未能在产品的黄金倒退期间抓住研发产品的外围,最终导致产品失败。 开发者最不怕的就是失败。为了可能更好地成长,华为云MVP毛昌启便开始接触最热的技术——人工智能。他示意,与AI技术的接触越深,发现企业在各个领域对AI技术都有很大需要。选定方向之后,华为云MVP毛昌启就开始学习相干的技术,当然在这两头也走了一段弯路。 直到在2019年5月加入华为云ModelArts沙龙流动。华为云MVP毛昌启发现,本人走进了一个全新的技术世界中。在之后的工夫中,华为云MVP毛昌启陆续加入了19年6月华为云组织的ModelArts实训营。还在9月的全连贯大会上,进行了ModelArts实战分享。“以往想学习理解AI,会遇到长时间、高老本、高投入、简单繁琐的AI开发流程。ModelArts让AI开发不在是遥不可及,将普惠AI切实的落到开发者身上。”华为云MVP毛昌启谈到。 MDG:独乐乐不如众乐乐六年的征询公司的工作经验,让华为云MVP毛昌启理解到企业的需要都是围绕着“降本增效”去施行的。如何让企业治理老本、生产成本、研发老本等一系列老本方面升高。“在跟企业单干的过程中,因为开发能力无限,咱们也就只能提供一套文字版的解决方案。”华为云MVP毛昌启示意,在接触华为云技术之后,发现之前的那些就都不是问题了。财务问题能够间接调用华为云的OCR服务能力,将图片或扫描件中的文字辨认成可编辑的文本,代替人工录入,晋升业务效率。也还能够利用ModelArts间接训练一个OCR模型。 “ModelArts平台就是一个让小白轻松学会训练AI模型、让AI新手节省时间脑力的开发神器,让各行各业对于AI的创意都能疾速实现。” 华为云MVP毛昌启讲到。 在失去华为云带来的帮忙和反对,也让华为云MVP毛昌启有了“独乐乐不如众乐乐”的想法。在19年的全连贯大会上, 在和华为云的几位老师进行一番沟通之后,华为云MVP毛昌启联结几位资深的AI开发者就正式开启了MDG之旅。华为云MVP毛昌启讲到,ModelArts Developer Groups(MDG)是ModelArts 开发者发动的开发者社区我的项目,是面向对 ModelArts和开源、凋谢技术感兴趣的公益性开发者社区。社区通过举办各种线上线下技术分享流动,让小白也能疾速上手甚至0代码来学习各种AI开发技术、训练实际AI模型、部署运行AI我的项目等等。 基于这个初心,华为云MVP毛昌启和几位专家在19年12月21日举办了MDG第一次线下流动,吸引了50多人的加入。这一次的社区活动大家因为经验不足发现了很多有余的中央,在随后的日子中,大家总结经验,分心经营MDG社区。在2020年4月,借助“在武汉樱花下写观后感”直播流动正式开启了2020年的MDG流动。与此同时,他们还组织起了MDG志愿者团队,在大家的共同努力下组织了三场线上直播流动,吸引上千人的观看。通过一系列的社区内容和流动经营,MDG社区也吸引了大量的AI爱好者的关注。 “一个人的能力是无限的,而团队的力量是无穷的。MDG社区将为大家提供一个独特交流学习AI技术的中央,帮忙开发者更好地成长!”华为云MVP毛昌启谈到。经营MDG社区之后,华为云MVP毛昌启也接触了不少年老的开发者,对于这些开发者,他本人想对“萌新”们一些忠告:扎实本人的开发技能;以业务为导向,精通一个畛域;空闲之余尝试总结本人的工作或学习内容;永远要学习,把学习当作习惯;置信工夫的力量。当你每天比他人多学一个小时,无论你学习什么,都会是这个畛域的专家了。 正如华为云在推出ModelArts平台的“授人以鱼不如授人以渔”的理念,华为云MVP毛昌启和他的小伙伴心愿通过本人的致力,让更多的开发者都能在技术浪潮中的“乘风而行”。 点击关注,第一工夫理解华为云陈腐技术~

July 30, 2020 · 1 min · jiezi

关于modelarts:实战案例丨ModelArts在数据标注数据过滤上的应用技巧自动分组

大量简单、乱序的图片顺次标注效率极低,如果一次能够标注一大片的图片将极大地晋升标注效率。 主动分组辨认并提取图像特色,通过ModelArts先进的聚类算法能够将所有图片分组:将特色类似的图片归为一类,将特色差异大的图片群拆散。 在花朵辨认我的项目中,需对大量无标注的花朵图片进行标注,顺次乱序标注蒲公英、郁金香、向日葵等将消耗大量宝贵时间 分组标注场景 启动主动分组,咱们当时晓得花朵数据集中存在5个类别,为他们分组6类(聚类算法不能保障肯定将5类别齐全辨别进去,需更细化地分组,于是往往分组数需大于理论类别数): 过约3分钟后,通过筛选条件,咱们能够失去主动分组的后果,如第1类简直都是郁金香的图片,第3类简直都是蒲公英的图片。 第1类 第3类 于是抉择当前页 -> 输出蒲公英 ,即可间接对他们一次性进行标注。 当然并不是每个组都是完满的,如一个组中大多都是向日葵,但还夹杂着非洲菊 。此时抉择当前页后,去掉相应非向日葵图片左上角的勾即可: 数据过滤场景事实中的实在图像数据量少,往往无奈满足深度学习网络训练数据量的要求,于是开发者们个别选择网络爬取须要的图片,但爬取下来的图片格调迥异、噪声杂多,想要从中提取须要的图片工作量是微小的。 ModelArts提供的主动分组算法除了在分组标注上功能强大,在数据过滤场景上也是奇技淫巧 。 在安全帽我的项目中,因为理论安全帽图像过少,从谷歌爬取了大量安全帽相干图像(约3000张): 然而这些并不全是咱们想要的“安全帽”,咱们须要工地为背景,且工人类型的安全帽。 于是在主动分组中咱们对这些图像细分为10个组(越大的分组数对数据集分组越细,能拆散出更多噪声图像),以下为局部组的展现: 第0组 第1组 第4组 第9组 显然相似第1组和第9组的图片才是咱们须要的后果,第1组和第4组浏览大抵后能够全副删除,抉择当前页并删除: 删掉噪声图像后,只剩下约1600张,过滤了快50%的图像: 当然如果还存在很多噪声,咱们持续进行分组,对剩下的1640张图再主动分组10个类 能够看到,仍旧有许多与安全帽不相干的图像如: 再一次浏览所有分组,对数据进行荡涤,最终只剩下1008张图像,过滤了约65%的噪声图像,极大地升高了标注的压力。 点击关注,第一工夫理解华为云陈腐技术~

July 25, 2020 · 1 min · jiezi

关于modelarts:实战案例丨ModelArts在数据标注数据过滤上的应用技巧自动分组

大量简单、乱序的图片顺次标注效率极低,如果一次能够标注一大片的图片将极大地晋升标注效率。 主动分组辨认并提取图像特色,通过ModelArts先进的聚类算法能够将所有图片分组:将特色类似的图片归为一类,将特色差异大的图片群拆散。 在花朵辨认我的项目中,需对大量无标注的花朵图片进行标注,顺次乱序标注蒲公英、郁金香、向日葵等将消耗大量宝贵时间 分组标注场景 启动主动分组,咱们当时晓得花朵数据集中存在5个类别,为他们分组6类(聚类算法不能保障肯定将5类别齐全辨别进去,需更细化地分组,于是往往分组数需大于理论类别数): 过约3分钟后,通过筛选条件,咱们能够失去主动分组的后果,如第1类简直都是郁金香的图片,第3类简直都是蒲公英的图片。 第1类 第3类 于是抉择当前页 -> 输出蒲公英 ,即可间接对他们一次性进行标注。 当然并不是每个组都是完满的,如一个组中大多都是向日葵,但还夹杂着非洲菊 。此时抉择当前页后,去掉相应非向日葵图片左上角的勾即可: 数据过滤场景事实中的实在图像数据量少,往往无奈满足深度学习网络训练数据量的要求,于是开发者们个别选择网络爬取须要的图片,但爬取下来的图片格调迥异、噪声杂多,想要从中提取须要的图片工作量是微小的。 ModelArts提供的主动分组算法除了在分组标注上功能强大,在数据过滤场景上也是奇技淫巧 。 在安全帽我的项目中,因为理论安全帽图像过少,从谷歌爬取了大量安全帽相干图像(约3000张): 然而这些并不全是咱们想要的“安全帽”,咱们须要工地为背景,且工人类型的安全帽。 于是在主动分组中咱们对这些图像细分为10个组(越大的分组数对数据集分组越细,能拆散出更多噪声图像),以下为局部组的展现: 第0组 第1组 第4组 第9组 显然相似第1组和第9组的图片才是咱们须要的后果,第1组和第4组浏览大抵后能够全副删除,抉择当前页并删除: 删掉噪声图像后,只剩下约1600张,过滤了快50%的图像: 当然如果还存在很多噪声,咱们持续进行分组,对剩下的1640张图再主动分组10个类 能够看到,仍旧有许多与安全帽不相干的图像如: 再一次浏览所有分组,对数据进行荡涤,最终只剩下1008张图像,过滤了约65%的噪声图像,极大地升高了标注的压力。 点击关注,第一工夫理解华为云陈腐技术~

July 25, 2020 · 1 min · jiezi