关于大数据:实时技术的荣光微软发布实时大数据分析产品

10次阅读

共计 2991 个字符,预计需要花费 8 分钟才能阅读完成。

跨云智能设施和并行技术的新编程模型是数字化转型的一个要害方面。从这些新的利用范式中产生的要害数据类型之一是遥测数据。遥测数据无处不在: 物联网传感器、应用程序日志、网络日志、基础设施日志、平安日志、指标、点击流、工夫序列等等。从这些数据中释放出来的弱小洞察力推动了消费者和企业每天依赖的联网设施的提高。

利用遥测数据须要一个灵便的适应性平台,它必须能够解决大量数据,并为用户提供实时的洞察,以改善他们的操作和翻新。传统上,这些数据是在竖井零碎中存储和治理的,不足实时可见性,具备规模的限度,保护老本很高。此外,将这些数据与企业业务进行普及化和关联是很简单的。

Azure Synapse Data Explorer (数据浏览器) 是什么?

为了让客户可能充分利用日志和遥测数据,微软公布 Azure Synapse Data Explorer(数据浏览器) 的公开预览。为了补充现有的 SQL 池和 Apache Spark 引擎,微软从产品层面对新的数据浏览器运行时引擎进行了优化,应用弱小的索引技术,主动索引自在文本和半结构化数据,让它能够近乎实时的速度查问大量的结构化、半结构化和自在文本遥测和工夫序列数据,以下是一些使之成为可能的要害性能:

  • 弱小的分布式查问引擎,索引所有数据,包含自在文本和半结构化数据。数据被主动压缩、索引、主动优化,缓存在 SSD 上,并长久化在存储上。计算和存储是拆散的,这给了用户齐全的弹性来主动伸缩,而不须要停机。
  • 直观的 Kusto 查询语言 (KQL),应用 Synapse 数据浏览器的最佳文本索引来摸索原始遥测和工夫序列数据,用于高效的自在文本搜寻、正则表达式和对跟踪 \ 文本数据的解析。
  • 全面的 JSON 解析性能,用于查问半结构化数据,包含数组和嵌套构造。
  • 原生、高级工夫序列反对创立、操作和剖析多个工夫序列,引擎内 Python 和 R 执行反对模型评分。

Azure Synapse 数据浏览器的架构是什么样的?

数据资源管理器集群通过计算资源和存储资源拆散来实现横向扩大的体系结构。这样,用户就能够独立扩大每种资源,例如,针对雷同的数据运行多个只读计算。数据资源管理器集群蕴含一组计算引擎,该引擎负责主动索引编制、压缩、缓存和分布式查问服务。另外,数据资源管理器集群还有一组数据管理服务的计算引擎,该服务负责后盾零碎作业,以及托管和排队的数据引入。所有数据以压缩的分列格局保留在托管的 Blob 存储帐户上。

数据资源管理器集群反对丰盛的生态系统,能够应用连接器、SDK、REST API 和其余托管性能引入数据。用户能够通过多种形式应用长期查问、报告、仪表板、警报、REST API 和 SDK 的数据。

Azure Synapse 数据浏览器有哪些翻新和特色之处?

有限流数据引入 – 数据资源管理器提供内置的集成用于实现无代码 / 少代码、高吞吐量数据引入以及从实时源缓存数据。能够从 Event hub、Kafka、Azure Data Lake 之类的源、Fluentd/Fluent Bit 之类的开源代理以及各种跨云和本地数据源引入数据。

无界数据建模 – 如果应用数据资源管理器,无需生成简单的数据模型,并且在应用数据之前无需编写简单的脚本来转换数据。

无穷数据规模 – 数据资源管理器是一个分布式系统,其计算和存储可独立缩放,能够轻松实现 PB 量级之上的数据分析。

无需索引保护 – 无需执行保护工作即可优化数据以放弃查问性能,并且无需保护索引。应用数据资源管理器时,所有原始数据立刻可供使用,因而你能够针对流数据和永久性数据运行高性能、高并发的查问。能够应用这些查问生成准实时仪表板和警报,并将经营剖析数据连贯到数据分析平台的其余组件。

低提早、高性能、高并发 – 数据资源管理器为半结构化数据 (JSON) 和非结构化数据(自在文本)编制索引,因而能够非常高效地对此类数据运行查问。默认状况下,在数据引入期间将为每个字段编制索引,并能够通过相应的选项应用低级别编码策略,以微调或禁用特定字段的索引编制。索引范畴为单个数据分片。

规范数据分析 – 数据资源管理器通过直观的 Kusto 查询语言 (KQL) 标准化了自助式的大数据分析。KQL 兼备 SQL 的表白性和弱小性能,以及 Excel 的简便性。KQL 通过高度优化,能够利用数据资源管理器的一流文本索引技术摸索原始遥测数据和时序数据,实现高效的自在文本和正则表达式搜寻,并提供全面的剖析性能用于查问跟踪 \ 文本数据和 JSON 半结构化数据(包含数组和嵌套构造)。KQL 提供高级时序反对用于创立、操作和剖析多个时序,并为模型评分提供引擎外部的 Python 执行反对。

多元生态集成 – Azure Synapse Analytics 为数据资源管理器、Apache Spark 和 SQL 引擎之间的数据提供互操作性,使数据工程师、数据科学家和数据分析师可能轻松且平安地拜访数据湖中的雷同数据并就此开展合作。

Azure Synapse 数据浏览器用以撑持的数字化业务场景有哪些?

精准实时行为优化

Azure Synapse 数据浏览器在客户的 Azure 混合云解决方案之间灵便工作。例如,一家铁路网络公司能够信赖 Azure Synapse 数据浏览器来取代其本地日志治理解决方案。对于交通运输业来说,平安是首要思考因素,因为人们的生存依赖于实时遥测数据。随着大规模的基础设施在全国范畴内扩大,铁路治理公司须要一个可能疾速获取大量工夫序列和日志数据的平台,而后在 Power BI 中创立弱小的洞察力和数据可视化。Azure Synapse 数据浏览器让这家铁路公司无效地辨认其宏大的运输网络中的行为模式或违规行为,从而使铁路零碎更加平安。

实时供应链洞察

Azure Synapse 数据浏览器能够对定制事件和日志数据构建实时的大数据分析,从而为企业节约工夫和资源,专一于业务的外围价值。例如,如果一家互联网外卖公司想要改善他们的流程和业务,以提供统一和一流的客户体验,他们可能会被迟缓、简单和低廉的日志治理技术计划所妨碍。然而,应用 Azure Synapse 数据浏览器引擎,互联网外卖公司能够立刻从更快的数据摄取、更高的并发性和更大的弹性中获益。这将使他们可能专一于本人的外围使命: 为人们提供美味的外卖和始终如一的客户服务。

简单安全事件解决

面对数字化平安威逼,每一秒都很重要。客户端上线提早、网络故障和查问超时可能是毁灭性的,但这些问题可能困扰网络安全和日志治理服务提供商。他们现有的技术解决方案可能会妨碍他们实现易拜访性和透明度的外围价值主张的能力。在这种状况下,网络安全供应商能够应用 Azure Synapse 数据浏览器,这将为他们提供一个数据平台,为他们的客户提供对于威逼检测、情报警报和平安趋势的有价值的见解。因而,网络安全供应商能够与他们的用户建设更牢固的关系和更多的信赖。


综上所述,Azure Synapse 数据浏览器能够跨各种数据源和数据库创立有意义的连贯。现在,各种数字化业务都被大量的工夫序列、日志和遥测数据吞没,这些数据来自物联网设施、应用程序、网站和其余起源。这种实时的继续数据流对于 IT 基础设施可能是压倒性和迟缓的。应用 Azure Synapse 数据浏览器的分布式查问引擎,客户能够取得弱小的洞察力,让他们专一于本人的外围业务,无论是创立一个更平安的世界,还是送出最好的外卖。

(由 21 世纪互联经营的 Azure Synapse Analytics 现已上市,点击浏览原文理解更多。)

正文完
 0