关于数据挖掘:打通数据价值链百分点数据科学基础平台实现数据到决策的价值转换-爱分析调研

41次阅读

共计 6636 个字符,预计需要花费 17 分钟才能阅读完成。

随着企业数据规模的大幅增长,如何利用数据、充沛开掘数据价值,服务于企业经营治理成为当下企业数字化转型的要害。

如何开掘数据价值?企业须要一步步实现数据价值链条的多个环节,如数据集成、数据治理、数据建模、数据分析、数据服务、数据利用等,能力将数据转换为洞察和决策。

以后企业在实现数据价值链的过程中积攒了多种工具和流程。工具和流程的繁琐反而成为企业数据价值进一步利用的妨碍。一方面工具的扩散使得企业赋能业务场景时,难以施展协同作用,多种工具待整合与集成。另一方面工具的技术性较强,当企业发展数据平民化时,业务人员面临较高的技术门槛。

数据迷信强调从数据到信息、从信息到常识、从常识到决策的数据价值转换。而具备全栈技术和工具的数据迷信平台,不仅一站式集成多种数据价值实现能力,还反对数据工程师、数据科学家、数据分析师以及一线业务人员便捷、灵便地应用数据并赋能业务,正成为企业数字化转型的重要伎俩。

百分点科技是一家提供数据迷信工具的技术厂商。回顾百分点科技的成长史,为更好地服务企业客户,百分点科技继续更新本身能力,从大数据全栈技术到认知智能技术,从场景化剖析洞察技术到数据智能利用,百分点科技逐步具备欠缺的数据科学技术和工具,联合 13 年行业服务教训积淀,能为客户提供端到端解决方案。2022 年,百分点科技正式提出“数据迷信根底平台及数据智能利用提供商”的定位,通过数据迷信根底平台服务客户,帮忙客户买通数据价值链,赋能业务场景。

近期,爱剖析专访了百分点科技 CTO 刘译璟博士和百分点数据迷信研究院院长杜晓梦博士,就市场对数据迷信工具的需要变动、数据迷信畛域技术新趋势、百分点数据迷信平台产品特点以及利用场景等问题开展了探讨。

刘译璟
百分点科技 CTO,北京大学利用数据业余博士,率领团队搭建了百分点科技大数据和人工智能技术体系以及产品体系,翻新提出海量简单数据处理架构、多源异构数据的结构化和交融、基于常识图谱的加强剖析及交互等翻新技术办法,成绩间断 3 次荣获“北京市科学技术奖”。

杜晓梦
百分点数据迷信研究院院长,北京大学营销模型业余博士,2018 年北京市“科技新星”。特长于跨学科数据迷信建模、消费者行为预测、互联网广告剖析、社会媒体营销、归因模型、散失预警模型、社会网络分析等。

百分点科技察看到,市场中对数据迷信平台的需要正在产生演变,定位于繁多工具的数据迷信平台曾经不能满足客户需要,客户更强调诸如端到端的解决方案、全栈技术和工具的笼罩,以及具备行业利用迭代性能等价值。同时,杜晓梦也强调,不同的行业因数字化过程不同,对数据迷信平台的需要侧重点不同,企业在抉择数据迷信平台技术厂商时应依据本身需要和将来布局进行综合考量。

01 市场对数据迷信平台需要降级:从繁多工具向全栈工具、从工具向价值的演变

爱剖析:市场对数据迷信的定义不一,在这样的背景下,百分点科技定位数据迷信根底平台提供商,如何定义数据迷信?

刘译璟:不同的厂商或机构对数据迷信的定义有宽有窄,如 Gartner 对数据迷信的定义会更强调机器学习、强调数据建模。百分点科技对数据迷信的定义更宽泛,这有两方面起因:

一方面,科研界对数据迷信的定义以提倡狭义数据价值为主。从 2016 年起,我国各大高校陆续呈现了大数据技术和数据迷信这样一个业余,这个学科穿插了数据、统计、计算机、人工智能等等,是一个综合性的学科。数据迷信的指标是实现对事实世界的认知与操控,通过数据了解、认知事实世界,并将数据转变成对事实世界的一种决策或者口头的能力。

依据支流高校教材对数据迷信的定义,数据迷信整体钻研的是数据价值链的实现,包含数据的采集、汇聚、存储、治理、解决、计算、剖析以及利用等全过程数据价值的开发与增值。数据价值链的实现能实现从数据到信息、从信息到常识、从常识到决策的转换,最终实现数据价值开释。

另一方面,数据分析和 AI 技术也正在深度交融,典型的案例是 Databricks 和 Snowflake。来自 FIRSTMARK 的马特·图尔克在《2021 年机器学习、人工智能和数据(MAD)全景图》中说到:Databricks 一开始以数据湖和非结构化数据处理为主,当初开始减少数据仓库以及 BI 能力;而 Snowflake 最后以数据仓库为主,当初致力扩大数据湖和 AI 能力。两家公司的指标都是倒退成“万物数据中心”,即存储所有的数据,无论是结构化数据还是非结构化数据,并运行所有数据分析,无论是 BI 的历史性剖析还是 AI 预测性剖析。咱们发现,大数据、机器学习、AI、BI、数据湖和数据仓库,这些技术必然会深度交融,造成你中有我、我中有你的场面。

整体来说,百分点科技对数据迷信的定义与科研界保持一致,比单纯机器学习平台、数据治理的领域更宽泛。
爱剖析:近年来,客户侧对数据迷信平台的需要正产生怎么的变动?

杜晓梦:数据科学技术倒退突飞猛进,同时行业对数据迷信工具平台的需要也在继续变动,百分点科技基于多年的服务教训察看到三个显著变动:

第一个变动是客户更强调端到端的价值提供,尤其须要联合业务场景产生价值,而不再是强调工具。如客户关注的是基于数据迷信平台,通过数据的采集、剖析、加工、建模后,最终到业务场景中能产生什么价值?不同行业的不同企业怎么利用数据迷信平台去赋能生产、销售、营销、客服等不同的业务部门产生价值?客户对数据迷信平台的需要正走向深水区。

百分点科技察看到的第二个变动是,客户对数据迷信平台的要求是全栈技术和多样化工具的笼罩,而不是繁多工具的零散出现。企业在整个数字化过程中,在不同阶段会采纳不同的工具,并逐步积攒了丰盛的工具集,而企业面临的问题是如何将零散的工具集成、协同发挥作用,即心愿数据迷信平台有一套残缺的 Toolkit,面对不同的场景问题,都能找到相应的工具去解决,平台工具需具备高集成性和高协同性。

第三个变动是,数据迷信平台应能联合行业、企业的具体业务知识构建利用,且利用能继续迭代和自学习,疾速适应业务变动。数据迷信平台最开始产生的时候更偏差于通用性工具,随着利用的推广,不同的企业在应用数据迷信平台的过程中,将具备行业个性或是企业个性的具体业务场景常识积淀到平台中,使得不同行业或是不同企业的数据迷信平台越来越个性化。比方应急治理和批发快消的数据迷信平台,在通过长期的业务场景常识积淀后,差异性会越来越大。

常识的积淀是要害。百分点数据迷信根底平台具备残缺的常识生产性能,包含常识的生成、常识的治理、常识的积淀、常识的利用等。百分点科技基于对行业常识的积攒,可能疾速帮忙企业搭建起个性化的(企业须要的)指标库、标签库或者数据利用,以便更好的反馈业务需要。

这也是百分点科技在所服务的外围行业中具备竞争壁垒的重要起因。一方面百分点科技具备先进的技术;另外一方面,百分点科技通过在细分行业多年的服务教训,对业务逻辑具备粗浅认知,积攒了深厚的行业常识。

爱剖析:目前在数据迷信平台的利用中有哪些值得关注的技术新趋势?

杜晓梦:百分点科技察看到三个显著的趋势:

第一个趋势是多模态数据交融,尤其是将 NLP、图像识别等技术和结构化数据分析技术相结合,来实现多模态数据交融。传统的数据迷信平台以解决二维表构造的结构化数据为主,更多的是基于统计学的形容和模型进行剖析。而且过来对于非结构化数据的剖析是独立进行的,极少与结构化数据交融。

将来,企业把握的数据将会有很大一部分是非结构化数据、半结构化数据,如文档、图片、视频、语音等,针对不同状态数据的交融剖析将会越来越广泛。这就要求将来的数据迷信平台需具备解决和剖析多模态数据以及基于交融数据构建智能利用的能力。

第二个趋势是剖析流程自动化(APA),即通过数据和模型赋能全员,让业务更加量化、自动化。APA 中波及到场景模型的嵌入和算子化。随着数据迷信平台的性能越来越流程化、自动化,数据和模型将赋能给企业全员,不仅仅限于数据科学家,将来,经营人员、销售人员、市场人员等都将自在地应用平台上不同的性能去做数据分析和开掘。与此同时,平台不须要业务人员通过写代码建模,而是将模型算子化后嵌入平台,只有业务人员进行简略的输出,平台就能输入后果。

百分点数据迷信根底平台有大量模型,如有以线性回归方程、随机森林为代表的 Meta 元模型,也有场景化的模型诸如异样剖析、指标加权等。尤其针对场景化模型,百分点科技在长期服务不同行业或企业的过程中,对业务场景需要的理解继续加深,基于此能力将场景化模型内嵌在数据迷信根底平台上,赋能数据工程师、商业分析师、数据科学家乃至企业全员。APA 也符合公民数据科学家的概念,APA 将通过松软的数据、模型和剖析撑持业务各环节决策,使业务更加量化、决策更加迷信。

第三个趋势是更高的互动性,联合 AR、VR 与 NLP 技术,通过自然语言的交互,人和平台之间的沟通互动将继续加强,并且更天然、更晦涩。百分点数据迷信根底平台曾经具备了较高互动性,如通过自然语言发问的形式调取数据或图表。将来,企业的数据迷信平台将以虚构员工的模式呈现,可能更天然地与员工进行互动。

02 百分点科技定位数据迷信根底平台,提供狭义数据价值

爱剖析:请介绍百分点数据迷信根底平台产品的布局逻辑?

刘译璟:百分点科技基于对市场的了解,将大数据市场划分为三个层级:底层是计算存储基础设施,包含各种数据库、中间件以及资源调度、运维、平安等工具集成;中间层即数据迷信通用工具层,具备数据价值实现共性能力,撑持从数据集成、数据治理、数据建模、数据分析到数据服务的残缺数据价值链条,实现数据增值;下层是各种场景化的数据利用。

图 1: 大数据市场三个层级

图 2: 百分点数据迷信根底平台性能架构

百分点数据迷信根底平台位于中间层,蕴含 BD-OS 数据交融治理、ModelingWorks 数据建模和常识生产、KnowledgeHub 常识利用三局部。三者共享对立的数据存储和计算的基础设施。

数据交融治理解决数据到信息的转换问题。数据集成到对立的存储设施中,通过数据治理晋升数据品质,为数据建模做好筹备。其中也会做最传统的数仓建模。

数据建模和常识生产解决的是从信息到常识转换的问题。数据实现治理后,成为建模的输出,通过数据建模转变成业务知识。依据百分点科技的实践经验来看,业内目前次要有三种类型的常识表现形式:第一种是指标,指标在企业中的利用十分宽泛;第二种是标签,如用户画像、商品画像等;第三种是常识图谱,能够囊括前两种,表达能力更强,也更简单。三种模式的常识都须要依靠机器学习模型来构建。

常识利用解决的是从常识到决策转换的问题。百分点数据迷信根底平台的常识利用目前以剖析类的利用为主,提供了三种模式。第一种是搜寻,为结构化数据,以及非结构化数据如图片、标签、图谱等,提供对立的搜寻入口。此外,也包含局部问答类型、举荐类型的利用。第二种是 BI 剖析,尤其具备 BI 加强剖析能力。第三种次要依靠常识图谱,蕴含实体剖析、关联剖析、时空剖析等性能,对常识的要求最高。

爱剖析:百分点数据迷信根底平台的指标客群是哪些?企业在应用数据迷信根底平台时,是否有共性需要?

杜晓梦:百分点科技的指标客群是数据工程师、数据科学家和数据分析师等数据相干岗位人群。不同的岗位在应用数据迷信根底平台时偏重的性能不同。数据工程师偏重数据的采集、多元异构数据的存储、数仓的建模、数据治理这些性能。数据科学家更关注模型的构建,包含数据的预处理、模型构建、模型优化等偏数据挖掘的性能。数据分析师更偏差于和常识利用相结合,应用搜寻、举荐、数据可视化等性能。

百分点科技在服务不同行业客户的过程中,发现不同行业的客户应用数据迷信根底平台时广泛有四个共性的指标:

第一个指标是实现数据交融治理,打造高质量数据资产。这个指标由数据工程师实现,通过汇总企业外部所有数据,实现数据的买通、品质的盘点以及资产的构建。

第二个指标是构建智能化的工具能力,提供高效洞察与决策撑持。这个次要是数据科学家在做,通过机器学习、常识的构建等系列工具,为营销、市场、生产、设计、物流等不同业务部门提供决策撑持。

此外还有两个指标,别离是全方位晋升数据利用能力、深入数据与业务的交融并造成高效的经营能力。这两个指标是由数据分析师或商业分析师与业务人员合作实现。由业务人员提供征询,数据分析师联合具体的业务特色,实现利用的自动化迭代。

爱剖析:百分点科技服务的外围行业有哪些?不同行业对数据迷信平台的需要有哪些共同点和差别点?

杜晓梦:百分点科技目前外围服务行业包涵三大板块:数字产业、公共安全和智慧政务。数字产业包含批发、快消、房地产、汽车、融媒体等;公共安全包含智慧公安、应急治理等;智慧政务包含数字城市、生态环境、营商环境、智慧统计等。

实际上,这三个板块对数据迷信根底平台的性能需要各有偏重。而造成客户需要差别的次要起因有两个:一方面,不同行业的数字化水平停顿不一,技术水平参差不齐,比方数字产业的数字化程度较高,对于具体的业务场景的价值关注度更高,即能通过工具、通过数据分析产生怎么的场景价值、帮忙企业产生哪些决策、终端决策带来怎么的量化价值等;第二个起因是客户对于工具和服务有不同的要求,局部数字化程度较高的企业对于工具的要求也较高,心愿企业的员工可能轻松灵便的操控工具,而数字化程度个别的组织机构,因为人员的技术能力或数据管理程度绝对无限,仅工具不能满足需要,更偏向工具加服务的模式,要求技术公司的服务人员能基于工具,联合客户的场景提供决策辅助反对等服务。

总结来看,数字产业中各行业数字化程度、技术了解绝对当先,更重视工具的操作性、更关注业务场景价值。
政府行业器重数据资产积淀。省、市、区、县等各级政府单位进行的数据凋谢、数据云平台以及数据底座建设等,都是一直地积淀和优化数据资产、晋升数据资产治理能力的过程。政府的数据极具价值,具备将数据凋谢给社会,促成数字红利的开释、深入数字经济倒退的需要,更须要将已有的数据资产盘点分明。而政府的数据复杂性较高,须要破费大量精力构建数字化底座,因而政府十分重视数据资产的治理。百分点数据迷信根底平台上的数据采集、数据交融、数据治理等性能,是政府单位十分看重的局部。

公共安全畛域器重多模态异构数据的利用。如在公安部门中,常须要进行海量的、多模态数据的交融剖析。公安部门的数据除结构化数据外,还有大量的诸如人脸、声纹、视频等非结构化数据,同时数据规模较大,因而对多模态数据的剖析要求十分高。除公安部门外,百分点科技也在帮应急治理部门构建基于常识图谱的智慧应急利用。

爱剖析:百分点科技在数据迷信市场中的竞争劣势体现在哪些方面?

杜晓梦:次要有三个方面。首先百分点科技具备欠缺的数据迷信工具集。百分点科技将数据迷信价值链条上笼罩的工具都集成到对立的平台中,包含数据采集、数据存储、数据治理、数据分析及开掘、常识构建、常识利用、数据可视化全流程。这也是百分点科技比拟独特的定位。

其次,百分点科技偏向于提供端到端的解决方案,而不是繁多的工具。企业客户经常不具备残缺的数据团队,如缺失数据工程师或数据科学家,又或者技术人员不足工具应用教训。因而,客户在抉择数据迷信平台时,抉择的不仅仅是工具,工具解决不了问题。而百分点科技能提供端到端的解决方案,尤其我的项目团队包含业务专家、数据工程师、数据科学家,为客户提供征询、服务以及经营反对,协同客户的人员一起,将数据和工具积淀到场景中,让客户晓得工具如何应用,最终带来场景化价值。

最初,百分点科技积攒了 13 年的行业教训,尤其在重点行业积淀了大量的行业常识。一方面体现在百分点科技的业务人员具备行业专业知识和能力,另一方面,百分点科技也将积攒的行业常识积淀到数据迷信根底平台上,比方在 KnowledgeHub 中,有常识图谱的构建、指标体系的治理、标签的治理等。咱们认为丰盛的行业教训和常识也是市场竞争中的重要壁垒。

爱剖析:客户在面临泛滥技术厂商时,应该如何选型?

杜晓梦:行业中有泛滥技术厂商,包含云厂商、偏重大数据平台的厂商,以及像百分点科技这样并重数据分析和利用的厂商等,客户在抉择的时候须要联合本身需要进行考量。若客户曾经上云,且业务问题比拟标准化,从 IT 标准化和产品的应用习惯登程,能够思考云大厂;若客户偏重于底层存储和计算能力构建,能够思考平台型厂商;若客户的数据集成、数据开发要求较高,业务场景简单且须要价值量化,同时要求大量的服务和征询,能够抉择偏重数据分析和利用能力的厂商。

正文完
 0