关于数据:2023爱分析-数据科学与机器学习平台厂商全景报告-爱分析报告

报告编委
黄勇
爱剖析合伙人 & 首席分析师
孟晨静
爱剖析分析师

钻研范畴定义
厂商全景地图
市场剖析与厂商评估
入选厂商列表

1. 钻研范畴定义

钻研范畴
经济新常态下，如何对海量数据进行剖析开掘以撑持麻利决策、适应市场的疾速变动，正成为企业数字化转型的要害。机器学习算法能辨认数据模型，基于法则实现学习、推理和决策，正宽泛的利用在金融、消费品与批发、制造业、能源业、政府与公共服务等行业的各种业务场景中，如精准营销、智能风控、产品研发、设施监管、智能排产、流程优化等。企业传统的机器学习尽管能无效撑持业务决策，但因为重大依赖数据科学家，其技术门槛高、建模周期长的特点正成为企业实现数据驱动的妨碍。
数据迷信与机器学习平台是指笼罩数据采集、数据摸索、数据处理、特色工程、模型构建、模型训练、模型部署与公布、模型治理与经营等建模全流程的平台，提供一站式建模服务，能显著晋升建模效率、升高建模门槛。数据迷信与机器学习平台能反对并赋能企业各业务场景实现智能决策，帮忙企业打造数据驱动型组织。
本报告对数据迷信与机器学习平台市场进行重点钻研，面向金融、消费品与批发、制作与能源、政府与公共服务等行业企业，以及人工智能软件与服务提供商的数据部门、业务部门负责人，通过对业务场景的需要定义和代表厂商的能力评估，为企业数据迷信与机器学习平台的建设布局、厂商选型提供参考。
厂商入选规范
本次入选报告的厂商需同时合乎以下条件：

厂商的产品服务满足市场剖析的厂商能力要求；
近一年厂商具备肯定数量以上的付费客户（参考第 3 章市场剖析局部）；
近一年厂商在特定市场的支出达到指标要求（参考第 3 章市场剖析局部）。

2. 厂商全景地图
爱剖析基于对甲方企业和典型厂商的调研以及桌面钻研，遴选出在数据迷信与机器学习市场中具备成熟解决方案和落地能力的入选厂商。

3. 市场剖析与厂商评估
爱剖析对本次数据迷信与机器学习平台我的项目的市场剖析如下。同时，针对参加此次报告的局部代表厂商，爱剖析撰写了厂商能力评估。
数据迷信与机器学习平台
市场定义：
数据迷信与机器学习平台是指笼罩数据采集、数据摸索、数据处理、特色工程、模型构建、模型训练、模型部署与公布、模型治理与经营等建模全流程的平台，提供一站式建模服务，能显著晋升建模效率、升高建模门槛。
甲方终端用户：
金融、消费品与批发、制作与能源、政府与公共服务等行业企业，以及人工智能软件与服务提供商的数据科学家、风控建模人员、营销建模人员、业务剖析人员、模型利用人员
甲方外围需要：
企业对机器学习的利用越来越宽泛。一方面，数据量的激增、算法的冲破以及 CPU、GPU、DPU 等多种算力技术的倒退，为以机器学习为根底的数据挖掘、计算机视觉、自然语言解决、生物特色辨认等技术在企业的利用奠定了技术根底；另一方面，市场环境的疾速变动对企业决策敏捷性要求加强，不仅推动企业将机器学习模型利用到营销、广告、风控、生产等更多业务场景，也对模型精度、模型开发敏捷性以及模型利用广度提出更高要求。然而，机器学习技术门槛高、建模周期长，难以满足企业通过基于机器学习模型晋升经营效率的需要。
数据迷信与机器学习平台具备工具丰盛集成、建模效率晋升以及模型资产复用等特点，能充沛满足企业对智能利用的需要，正成为企业智能化基础设施的必要形成。
不同企业对数据迷信与机器学习平台的需要不同，其差别取决于企业本身机器学习建模能力和对算法的需要。
1、对于金融、消费品与批发、制作与能源、政府与公共服务等行业企业
除大型金融机构外，传统企业广泛不具备机器学习建模能力。大型金融机构数据迷信团队人才欠缺，对机器学习算法的摸索和利用更前沿，如将机器学习模型利用在精准营销、智能风控、产品研发、客户体验治理等多个场景中。但更多的传统企业面临 IT 人才缺失、尚未开始智能化利用或处于部分试验的初期阶段。传统企业对数据迷信与机器学习平台的需要次要体现在以下四个方面：
1）升高机器学习建模门槛，使非专业建模人员也能把握机器学习建模技术，赋能业务。传统机器学习建模技术门槛高，须要组建专门的数据迷信团队，包含数据工程师、数据科学家、开发工程师等，人力老本昂扬。传统企业心愿能升高机器学习建模门槛，如平台能实现数据主动解决、主动特色工程、图形化建模或主动建模等性能，使非专业的业务人员也能疾速发展建模工作，宽泛赋能业务，实现普惠 AI。
2）提供定制化算法、模型部署和经营服务，疾速发明业务价值。传统行业多具备行业个性，行业垂直场景下的模型开发耗时耗力，而且传统企业对 AI 智能利用的摸索尚处于初期，更偏向“小步快跑”，因而购买定制化算法能节约人力、实现疾速产出以及验证 AI 智能利用成果。企业须要厂商提供定制化算法服务、模型在硬件平台和操作系统平台的部署服务以及模型经营服务。
3）缩短建模周期，进步业务麻利响应度。以金融行业为例，金融企业的产品、服务、风控模型均需随着客户行为扭转而继续迭代更新。但传统的机器学习建模周期长达数月，无奈麻利响应业务需要。企业须要数据迷信与机器学习平台内置丰盛的行业算法、模型模板、案例等，供建模人员间接调用，减速模型训练；或是提供一键部署性能，实现模型在生产环境的疾速部署。
4）提供咨询服务，晋升模型品质。对于具备肯定机器学习建模能力的金融机构，须要厂商提供建模征询反对，帮助企业实现数据筹备、模型训练、模型部署等环节，晋升模型品质。
2、对于人工智能软件与服务提供商
对于中小企业或是刚开始试点智能利用的企业，相较于数据迷信与机器学习平台须要的组织、人才、流程上的改革与反对，洽购实用于特定场景的 AI 智能利用是性价比更高、更迅捷的解决方案。人工智能软件与服务商如算法服务商、ISV 即面向此类需要，提供模型和智能应用服务。以算法服务商为例，只管具备业余的数据迷信团队，但中小型企业的算法需要多样且个性化，如尽管都是 AI 视觉算法，智慧城市、智慧工业下的利用场景如安全帽辨认、产品瑕疵辨认的模型却截然不同，须要基于业务数据集、业务思路别离进行训练。这使得算法服务商经常面临严格的算法交付周期和算法精度要求。具体而言，人工智能软件与服务提供商对数据迷信与机器学习平台的外围需要次要体现在以下四个方面：
1）进步机器学习建模效率。软件开发公司、算法提供商面临严格的交付周期，但在传统 AI 利用开发方式下，数据接入、数据处理、模型训练等一系列建模流程都须要人工操作，建模周期长。其中数据接入环节因开源算法工具对不同类型的数据兼容性较差，需人工将原始数据转化为开源算法所反对的数据类型；数据标注环节往往通过人工实现，并且局部畛域的标注过程重大依赖专业知识，整体数据筹备将消耗数周工夫；模型部署中对模型的集成、监控和更新须要大量的调研和施行工作，单个模型部署到上线须要 3 - 5 个月。企业须要欠缺的数据迷信工具和建模性能，反对实现数据采集、数据筹备、特色工程、模型训练、模型部署等建模全流程，进步建模效率。
2）满足数据科学家简单场景建模需要。平台需反对数据科学家在简单场景下进行灵便建模，如提供丰盛的算法，预置支流机器学习框架，反对 NoteBook 建模形式，以及反对数据科学家在模型训练中手动调参等。
3）对模型开发资源和计算资源进行对立治理，反对计算资源弹性扩容，减速建模计算性能。传统开发模式中反复建设重大，如各我的项目数据筹备、特色工程、模型训练等各自研发，造成模型开发治理资源、计算资源节约，难以适应大规模智能利用开发需要。另外，机器学习模型训练过程中消耗大量计算资源，而一旦完结训练，计算资源又处于闲置状态。企业须要实现计算资源弹性扩容，满足模型开发不同阶段的计算需要。
4）为多角色的数据迷信团队提供合作平台。机器学习建模过程须要数据工程师、数据科学家、数据分析师等多角色独特合作实现，存在重复沟通、合作流程不明确等问题，带来重复性工作。
厂商能力要求：
为满足金融、消费品与批发、制作与能源、政府与公共服务等行业企业，以及人工智能软件与服务提供商等甲方客户的外围需要，厂商需具备以下能力：
1、厂商应具备欠缺的机器学习模型开发性能，提供包含数据采集、数据筹备、特色工程、模型训练、模型部署等性能在内的一站式端到端数据迷信与机器学习平台。
1）数据采集方面，平台应具备整合多源异构数据的能力，反对实时接入结构化数据和非结构化数据（如表格、图片、工夫序列数据、语音和文本等），并具备根本的 ETL 能力、数据实时更新和同步能力。
2）数据筹备方面，平台应提供丰盛的数据荡涤、数据摸索工具。其中数据荡涤环节，应能反对进行数据交融、数据缺失解决、数据分类、数据标注、数据异样解决、数据平滑以及整合非结构化数据和结构化数据等数据荡涤工作，缩小人工干预。数据摸索环节，厂商需具备单变量和多变量统计、聚类分析、天文定位图、类似度度量等剖析能力。
3）模型训练环节，针对非专业建模人员，平台应提供简便易用的建模工具，升高机器学习建模门槛。如平台可通过建模全流程可视化升高用户应用门槛，尤其在模型构建环节，应反对以利落拽的形式实现建模。针对业余建模人员，平台应具备较高的灵活性和开放性，提供支流开源算法和建模工具。如为业余的数据科学家提供自在灵便的 NoteBook 建模形式，并预置支流机器学习框架 R、TensorFlow、Pytorch、Spark 等，以及丰盛的机器学习算法。
4）模型部署环节，平台应反对模型一键部署，使建模人员可疾速将模型从开发环境部署到生产环境中，并提供 API 接口供业务人员调用。此外，平台还应提供模型版本治理和模型监控性能，实时监测模型性能，保障模型品质。
5）资源管理方面，平台需能对 CPU、GPU 资源进行治理和整合，以容器化形式对算力虚拟化，实现弹性扩容、性能减速等性能，且不同部门和我的项目之间可共享集群资源。
6）平台应具备 AutoML 能力，包含提供数据主动荡涤、智能标注、主动特色工程和主动模型训练等性能，进步建模效率。其中特色工程环节，数据迷信与机器学习平台应能实现自动化特色构建、特征选择、特色降维和特色编码；模型训练环节，平台应反对自动化模型抉择、自动化调参、自动化超参数搜寻、模型主动验证等，缩小模型训练工夫老本和人力老本。
7）此外，平台还应反对多角色的数据迷信团队合作，协同数据工程师、数据科学家、业务人员等不同角色在建模工作流程中的模型注解、探讨、答疑、评论等，使建模过程可追溯、模型可复用，缩小重复性工作。
2、厂商需具备垂直行业 Know-how 能力，为企业提供征询和施行部署服务。厂商的业余服务能力体现在三个方面：一方面，基于丰盛的垂直行业常识和教训积攒，厂商能为用户提供行业场景相干的算法、模型模板，或是将行业教训与模型算法相结合，造成诸如精准营销、智能举荐、反欺诈、设施预警等智能业务模型，供用户间接调用；另一方面，厂商能提供建模咨询服务，通过数据迷信专家团队布局无效的模型利用到特定业务的经营计划，帮助用户实现数据筹备、模型训练、模型部署、模型经营等工作，以及将企业既有的数据集教训、特色工程教训、模型教训等提炼造成数字资产，内嵌到平台中。此外，厂商应具备较强的施行部署能力，包含提供定制化模型算法在硬件平台和操作系统平台的部署服务、以及数据迷信与机器学习平台的部署服务。
入选规范：
1. 合乎市场定义中的厂商能力要求；
2.2021Q3 至 2022Q2 该市场付费客户数量≥10 个；
3.2021Q3 至 2022Q2 该市场合同支出≥1000 万元；
代表厂商评估：

百分点科技
厂商介绍：
北京百分点科技集团股份有限公司（简称“百分点科技”）成立于 2009 年，是当先的数据迷信根底平台及数据智能利用提供商，围绕智慧政务、公共安全、数字产业三大业务板块，为国内外企业和政府客户提供端到端数智化解决方案。
产品服务介绍：
百分点数据迷信根底平台围绕数据价值增值过程，提供数据交融治理、数据建模与常识生产、常识利用三大工具集，笼罩从数据集成、数据治理、数据建模、数据分析到数据服务的残缺数据价值链条。其中数据建模环节，内置机器学习平台，能一站式、可视化地实现数据筹备、特色工程、模型开发与训练、模型部署与公布、模型治理等机器学习建模全流程，帮忙企业疾速构建数据分析、语义剖析、语音剖析以及视觉剖析利用。
厂商评估：
百分点机器学习平台能实现一站式、可视化机器学习建模全流程治理，具备高效的数据预处理、丰盛的模型服务能力。此外，百分点科技具备欠缺的数据建模上下游数据迷信工具，能帮忙用户实现“数据——常识——利用”闭环，并在智慧公安、应急治理、客户体验治理等畛域积淀丰盛行业教训，能为用户提供端到端解决方案。

具备便捷、高效的数据预处理能力。百分点机器学习平台封装了大量预处理算法组件反对对数据的提取、荡涤、转化、组合、去重等多种解决操作，尤其分布式数据处理组件，可大幅晋升数据预处理速度。此外，百分点机器学习平台还提供文本标注、语音标注、图像标注、视频标注四种标注类型，反对多模态信息抽取和交融。
建模全流程可视化，显著升高用户应用门槛。百分点机器学习平台提供从数据接入、数据预处理、特色工程、模型训练、模型评估、模型治理及公布的全流程可视化操作。其中在建模环节，机器学习平台封装大量机器学习算法组件并反对可视化参数配置，用户可零代码操作，通过简略拖拽和连线对算法组件进行组合，进而构建简单的机器学习框架，以及通过调节、配置参数实现模型创立。在模型训练及评估环节，平台反对模型评估指标以图、表的模式展示，用户可动静查看评估指标，实时掌控模型优度状况。在模型公布后，反对对公布上线的工作进行可视化实时监控，帮忙建模人员轻松实现智能监控、定时任务调度。
提供丰盛的模型服务，简化模型工程化事项。在模型公布方面，提供一键部署性能，主动调配集群资源，实现大数据环境下机器学习模型的稳固运行。模型治理方面，反对模型详细信息查看、多版本比照以及模型复用。此外，百分点科技还提供模型的下发、上报、订阅及评论性能，反对模型的共享和评估，如在全国公安机关警务督察信息研判零碎案例中，零碎能够将模型下发到省级、市级警务督察部门，并且反对基层干警对模型进行修改或评估，以实现模型疾速分享和反馈。
具备欠缺的数据建模上下游数据迷信工具，为用户实现“数据——常识——利用”闭环。百分点数据迷信根底平台中，数据建模的上游工具包含数据集成、数据治理、数据开发等多种数据交融治理工具，能进步用户数据治理能力、积淀数据资产。上游工具包含常识生产工具，如指标体系、标签体系、常识图谱构建，基于数据建模帮忙企业实现常识生产；以及常识利用工具，如商业智能剖析、常识交融剖析、畛域常识治理等，将常识进一步利用到业务场景中，晋升企业经营效率。
在智慧公安、应急治理、客户体验治理畛域提供端到端解决方案，赋能业务场景利用。百分点科技成立于 2009 年，在智慧公安、应急治理、客户体验治理等畛域积淀了大量畛域 know-how 和我的项目教训，能为政府单位用户以及工业、批发快消等行业企业用户提供端到端的解决方案，包含我的项目征询、我的项目开发、我的项目经营、我的项目服务等。在服务用户的过程中，百分点科技我的项目团队蕴含数据科学家、数据工程师、业务专家等，协同用户一起将数据、模型和工具融入智慧统计、数字营商、经营剖析、营销洞察等业务场景中，真正实现业务价值。此外，百分点科技也将行业教训与模型算法相结合，造成销量预测、库存预警、指挥调度、监测预警、危险预测等丰盛的智能业务模型，供用户间接调用。

典型客户：
中旅中免、应急管理部、北京市公安局、北京市统计局

入选厂商列表