关于oushudb-hawq:OushuDB-小课堂丨4-个常见的数据集成挑战

80次阅读

共计 2269 个字符,预计需要花费 6 分钟才能阅读完成。

更多内容请关注 OushuDB 小课堂

将数据胜利集成到繁多平台的能力可能是一个挑战。良好集成的数据使相干人员能够轻松拜访和应用它。整合不良的数据会产生问题。数据集成能够 形容为过程 从各种起源收集数据并将其转换为与数据存储系统兼容的格局——通常是数据库或 数据仓库. 在制订业务决策时应用集成数据已成为许多组织的广泛做法。可怜的是,数据集成过程可能很麻烦,因而很难在须要时应用数据。

胜利的数据整合使钻研人员可能开发有意义的见解和有用的 商业智能.

集成数据创立了一层信息连贯,为钻研和剖析奠定了根底。数据集成最大限度地施展了企业数据的价值,但集成过程须要正确的工具和策略。它使企业可能减少回报、优化资源并进步客户满意度。数据集成促成了高质量的数据和有用的商业智能。

随着数据量的一直增长,以及数据的多样性 数据格式,数据集成工具(如数据管道)成为必需品。

通过跨部门共享这些高质量数据,组织能够简化流程并进步客户满意度。集成数据的其余益处包含:

改善沟通与合作
减少数据价值
基于精确数据做出更快、更好的决策
销售额和利润减少
要使数据有用,它必须可用于剖析,这意味着它必须采纳可读格局。

多种起源
数据能够从外部起源以及各种内部起源收集。从外部起源获取的数据称为“次要数据”,而“二手数据”通常是从内部起源收集的,但并非总是如此。所选数据的起源能够依据钻研的须要而变动,每个数据存储系统都是举世无双的。

二手数据不限于来自不同组织的数据。它也能够来自组织外部。此外,还有 凋谢数据源.

随着数据量的一直增长,数据源的数量越来越多,格局也越来越多,数据集成曾经成为进行有用钻研的必要条件。它已成为开发商业智能不可或缺的一部分。上面列出了一些数据源示例。

次要数据

传感器:来自传感器的记录数据,例如照相机或温度计
考察:业务和服务质量问题的答案
User Input:罕用于记录客户行为(点击次数、停留时间)
天文数据:某个工夫点应用设施的实体(人或机器)的地位
交易:商业交易(通常在线)
事件数据:数据的记录由事件触发(电子邮件达到、传感器检测到静止)
二手数据

世界银行凋谢数据
Data.gov(美国政府的钻研)
纽约大学图书馆钻研指南(迷信)
外部二手数据

Quickbooks(用于费用治理)
Salesforce(用于客户信息 / 销售数据)
季度销售数据
电子邮件
元数据
网站 cookie
购买的第三方数据也可能是一个问题。两个相当平安的第三方数据源是数据超市 和 数据经纪人. 此类数据由与消费者没有间接关系的企业购买。

顶级数据集成挑战
数据集成是一个继续的过程,它将随着组织的倒退而倒退。无效地集成数据对于改善客户体验或更好地理解须要改良的业务畛域至关重要。企业通常会遇到一些突出的数据集成问题:

  1. 数据不在应有的地位:当数据未存储在地方地位时,就会呈现这种常见问题。相同,数据分布在组织的各个部门。这种状况减少了在钻研过程中失落要害信息的危险。

一个简略的解决方案是将所有数据存储在一个地位(或者两个地位,主数据库和数据仓库)。除了受法律爱护的个人信息外,各部门必须共享他们的信息,并且 数据孤岛 将被禁止。

  1. 数据收集提早:通常,必须实时处理数据以提供精确且有意义的见解。然而,如果必须有数据技术人员参加,手动实现数据集成过程,则无奈进行实时处理。这反过来会导致客户解决和剖析的提早。

这个问题的解决方案是自动化数据集成工具。它们专为实时处理数据而开发,可提高效率和客户满意度。

  1. 非结构化数据格式问题:数据集成的一个独特挑战是应用 非结构化数据(照片、视频、音频、社交媒体)。企业正在生成和收集越来越多的非结构化数据。非结构化数据通常蕴含能够影响业务决策的有用信息。可怜的是,计算机难以读取和剖析非结构化数据。

有一些新的软件工具能够帮忙翻译非结构化数据(例如,MonkeyLearn,它应用机器学习来寻找模式,Cogito,它应用自然语言解决)。

  1. 劣质数据:品质差的数据 对钻研有负面影响,并可能导致蹩脚的决策。在某些状况下,有大量数据,但大量反映了不再相干的“旧”信息,或者与以后信息间接抵触。在其余状况下,反复数据和局部反复数据可能无奈精确示意客户行为。手动输出大量数据也可能导致谬误。

数据的品质决定了组织商业智能的价值。如果一个组织领有大量低质量数据,则必须假如没有 数据治理打算 到位,或者数据治理程序设计不当。数据品质不佳的解决方案是施行精心设计的数据治理打算。(开发数据治理打算的第一步是清理数据。这能够在数据品质工具的帮忙下在外部实现,或者应用更低廉的内部帮忙解决方案。)

数据集成的将来
数据集成办法正在从 ETL(提取 - 转换 - 加载)到自动化 外语教学法(提取 - 加载 - 转换)和基于云的数据集成。机器学习 (ML) 和人工智能 (AI) 处于数据集成开发的晚期阶段。

ELT 零碎将原始数据间接加载到数据仓库(或数据湖),将转换过程转移到管道的末端。这容许在转换和可能更改数据之前检查数据。在为剖析和商业智能解决大量数据时,此过程十分无效。

基于云的数据集成系统可帮忙企业合并来自各种起源的数据,通常将其发送到基于云的数据仓库。该集成系统进步了经营效率并反对实时数据处理。随着越来越多的企业应用软件即服务,专家预测超过 90% 的数据驱动型企业最终将转向 基于云的数据集成. 从云端,能够应用各种设施拜访集成数据。

应用 机器学习 和 人工智能 集成数据是最近的倒退,并且仍在一直倒退。AI 和 ML 反对的数据集成须要较少的人工干预,并且绝对容易地解决半结构化或非结构化数据格式。AI 能够应用机器学习算法主动执行数据转换映射过程。

更多内容请关注 OushuDB 小课堂

正文完
 0