关于oushudb-hawq:OushuDB-小课堂丨如何在数据科学领域建立职业生涯

更多内容请关注 OushuDB 小课堂 思考从事数据迷信职业?好消息:美国劳工统计局预计,数据科学家的就业率将 增长 36% 2021 年至 2031 年期间,预计届时将发明 40,500 个以上的待业岗位。随着寰球产生的数据量快速增长,对数据迷信业余人员的需要也在增长,他们能够帮忙组织剖析所有这些数据、改善外部经营并增加收入。 建设一个 作为数据科学家的胜利职业, 有几件事须要思考。从理解行业内可用的不同角色并意识到您须要哪些技术技能,作为晚期数据从业者,有很多货色须要解压。 数据科学家的角色和职责是什么?数据科学家在帮忙组织将数据转化为推动业务决策的洞察力方面至关重要。2021年,咱们独特发明 2.5 quintillion 字节的数据 日常的。商业首领正在求助于数据迷信专家,以帮忙他们了解他们正在生成的海量数据集。数据科学家的职责包含: 辨认数据源清理和筹备数据以供剖析建设数据模型向利益相关者传播见解 A 数据科学家所需的外围技能 是剖析和解释大型数据集的能力。他们必须辨认数据趋势、模式和异样,并将这些见解转化为可操作的倡议。此外,数据科学家必须理解统计办法并具备构建预测模型的教训。指标是长于发现趋势,以此为根底创立模型,并将该信息转化为决策者易于了解的格局。 然而,这并不容易。数据迷信专业人士面临许多挑战,其中一项挑战是解决芜杂或不残缺的数据。学习如何辨认或利用剖析工具 查找缺失值、异样值和其余问题,并制订无效的策略来解决这些问题。 另一个挑战是向利益相关者传播简单的数据和剖析。大多数决策者并非来自技术背景,这就是为什么他们通常很难了解数据的含意。技术团队的责任必须是传播数据的业务影响。最终,这些方面会随着与数据相干我的项目的更多教训而失去改善,因而数据迷信业余人员应思考申请额定的认证打算以增强技能组合。 数据迷信有哪些不同的职业路线?数据迷信畛域有几种不同的职业路线。以下是有抱负的数据迷信专业人士能够摸索的五个最常见的角色: 数据科学家 数据科学家 具备将编码和解决问题等技术技能与更多技能相结合的能力 创造性的一面,其中包含数据可视化和讲故事。他们应用这些数据构建模型,而后通过转换该模型提供策略倡议或我的项目。 教育: 数据迷信相干畛域的学士学位(计算机科学、数据迷信、工程) 所需技能: 机器和深度学习、编程、数学、数据分析以及 SQL 和 Hadoop 等工具 美国的平均工资(2023 年): 每年 126,350 美元(玻璃门) 商业智能分析师 商业智能 (BI) 分析师是负责帮忙组织了解其大型数据集的工作的数据业余人员。这是通过设计和创立有助于辨认业务绩效趋势的仪表板、报告和剖析来实现的。 要成为高效的 BI 分析师,您须要具备扎实的数学和统计学根底,以及通过简单的可视化传播简单见解的能力。 教育: 计算机科学、统计学、数学或金融学学士学位 所需技能: 数据仓库、ETL(提取、转换、加载)、SQL、NoSQL、编程(Python、R)、统计和数据可视化 美国的平均工资(2023 年): 每年 87,386 美元(玻璃门) 机器学习工程师 机器学习工程师负责构建容许计算机发现数据集中模式的算法和零碎。他们的技能必须全面,包含数学和计算机科学基础知识、Python 或 R 等编码语言的专业知识、Pandas 和 NumPy 等库框架的专业知识,以及对所解决的业务问题或产品的了解。 ...

May 5, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨推动保险业的数字化转型采用-AI-驱动的解决方案

更多内容请关注 OushuDB 小课堂 近年来,随着技术提高一直改变传统的商业模式,保险业产生了重大变动。从承保到理赔治理,人工智能 (AI) 和机器学习为提高效率、准确性和客户满意度的翻新解决方案铺平了路线。其中一项冲破是人工智能解决方案的呈现,例如 数据提取工具,这彻底改变了非结构化保险数据的解决形式。 在这篇文章中,咱们将深入探讨在保险业中进行数字化转型的重要性,并探讨人工智能解决方案如何推动翻新、简化经营并发明卓越的客户体验。 数字化转型:保险业的将来 随着客户冀望和竞争的一直增长,保险机构必须适应数字时代以放弃相关性并放弃竞争劣势。该行业的 数字化转型 波及人工智能、机器学习和数据分析等先进技术的集成,以优化流程、降低成本和加强决策制定。 在保险业施行 AI 驱动的解决方案提供了几个要害劣势,能够显着影响保险经营的各个方面。 让咱们认真看看这些益处: 主动数据提取和剖析借助人工智能驱动的工具,保险公司能够主动从非结构化文档中提取有价值的信息,从而简化多个流程: 索赔解决: 通过自动化 数据提取 通过索赔表、事变报告和其余相干文件,保险公司能够放慢索赔流程,缩小手动数据输出谬误并最大限度地升高欺诈危险。承保决策: 基于人工智能的数据提取使承销商可能快速访问相干信息,从而做出更精确的危险评估和定价决策。合规性和报告: 主动数据提取可确保精确及时的报告,最大限度地升高违规处罚的危险。改良的危险评估高级剖析和 机器学习算法 能够剖析大量数据以确定模式、趋势和相关性,使保险公司可能就危险和定价做出更理智的决策: 预测建模: 人工智能算法能够通过剖析历史数据预测将来趋势和潜在危险,帮忙保险公司制订更精确的定价策略并优化危险组合。欺诈检测: 机器学习模型能够辨认索赔数据中的异样模式或异样,帮忙保险公司检测潜在的欺诈行为并采取预防措施。 个性化的客户体验通过利用人工智能和数据分析,保险公司能够更深刻地理解客户的需要、偏好和行为,从而提供更加个性化的服务: 量身定制的保单和服务: 保险公司能够应用 AI 生成的洞察力来创立定制保单,以满足各个客户的独特需要,从而进步客户满意度和忠诚度。加强沟通和参加: 人工智能驱动的聊天机器人和虚构助理能够为客户提供个性化的实时反对,简化沟通并造就更牢固的关系。有针对性的营销和销售: 通过理解客户偏好,保险公司能够发展有针对性的营销流动并举荐相干产品,从而减少销售额和客户保留率。 拥抱 AI 驱动的解决方案:翻新之路组织必须对采纳先进的人工智能解决方案持凋谢态度,这些解决方案能够简化经营并改良决策制定。以下是在保险行业施行人工智能技术时须要思考的一些关键步骤: 确定须要改良的畛域: 评估以后的流程和经营,以确定 AI 驱动的解决方案能够在哪些方面产生最显着的影响。例如,自动化数据提取能够大大减少手动数据输出谬误并节俭理赔解决工夫。投资正确的技术: 抉择合乎您组织的特定需要和指标的 AI 驱动工具和平台。思考提供定制和可扩展性的解决方案,以确保长期胜利和投资回报。倒退数据驱动的文化: 通过进步数据素养、促成合作和受权员工做出数据反对的决策,在整个组织中激励数据驱动的思维形式。掂量和监控停顿: 通过跟踪要害绩效指标 (KPI) 和监控战略目标的停顿状况,定期评估人工智能解决方案的有效性。这将有助于确定须要进一步改良的畛域并确保继续胜利。 论断在当今疾速倒退的保险畛域,拥抱数字化转型对于组织放弃竞争力、优化经营和满足一直增长的客户冀望至关重要。通过投资人工智能驱动的解决方案,保险公司能够开释数据的真正后劲、简化流程并提供卓越的客户体验。 更多内容请关注 OushuDB 小课堂

May 5, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂-丨产品开发的人工智能伦理与创新

更多内容请关注 OushuDB 小课堂 人工智能伦理是负责任的产品开发、翻新、公司倒退和客户满意度的一个因素。然而,在疾速翻新的环境中评估道德规范的审查周期会在团队之间造成摩擦。公司常常谬误地在客户背后展现他们最新的 AI 产品以取得晚期反馈。 然而,如果反馈十分好并且用户当初想要更多怎么办? 在当前的迭代中,您的团队发现长期存在的算法和用例正在为客户提供错误信息或无害后果。在这一点上,您的产品负责人也晓得从婴儿手中拿走象征性的糖果会激怒婴儿。即便他们发出产品,客户也会要求晓得为什么在公布产品之前贵公司没有测试无害结果。这种状况会危及您和您客户的名誉。 从历史上看,您的企业道德、规范和实际随后会推动您对组织的所有局部(包含产品和市场)采取的办法。人工智能道德必须与您的企业道德保持一致。以下指南能够帮忙您评估在哪些方面调整您的产品开发和设计思维,以做出 道德人工智能 您的客户将信赖和青睐的杰出产品的推动者。 有道德的人工智能和负责任的人工智能之间的区别只管常常调换应用,但有道德的人工智能和负责任的人工智能有显著的区别。因为这篇文章的重点是 AI 伦理和产品开发,因而解释这两个术语之间的区别很重要。 道德人工智能包含领导人工智能发明和应用的准则和价值观。它强调人工智能零碎的开发和施行形式合乎道德思考因素,例如问责制、透明度、影响力和以人为本。合乎道德规范的 AI 侧重于确保 AI 的构建和应用合乎公正、偏心和尊重人权的准则。 负责任的 AI 包含您为治理和布局道德应用而施行的措施和实际,以及平安、保障、准确性和合规性等方面。这些做法包含保护 数据品质,创立通明和可解释的人工智能零碎,进行频繁的审计和危险评估,并建设人工智能的治理框架。 作为一种关系,重要的是采纳负责任的 AI 办法以确保道德 AI 准则失去无效施行。 产品设计和开发中的道德人工智能准则产品团队能够通过恪守 AI 道德准则来最大限度地施展 AI 的后劲并进步其产品的有效性。合乎道德规范的 AI 还促成了产品开发的翻新;以下是您应该在设计和质量检查中查看 AI 评论的一些示例: 应用具备代表性和无偏见的数据开发人工智能模型能够进步预测后果和决策的准确性和公平性,从而产生更无效的产品来满足更宽泛用户的需要。将合乎道德规范的 AI 实际纳入 AI 模型的开发中,能够进步透明度和可解释性,进步用户信任度,并推动人们更多地应用被认为偏心且易于了解的产品。人工智能能够使工作和流程自动化,从而提高效率并缩小用户的工作量。然而,思考哪些工作是良性优化的以及起因是有影响的。遵循 AI 道德准则,产品团队能够创立通过优化以缩小日常工作的 AI 模型,以便员工能够承当更高价值的工作,从而为他们本人和公司维持将来的增长。人工智能道德准则为产品团队提供了摸索新机会和评估人工智能用例的机会。通过打造通明、可解释和偏心的 AI 模型,产品团队能够在 AI 影响客户和社会之前展现其价值。在开发过程中恪守 AI 道德准则能够创立合乎外围社会价值观并实现业务指标的 AI 模型。在道德框架内为所有利益相关者进步产品准确性、有效性和用户敌对性的致力使产品团队可能充分利用人工智能的后劲。 此外,如果听起来开发过程中的更多利益相关者(例如 UX、数据工程、风险管理,甚至销售)在开发 AI 时可能会受到道德思考的影响,那么您的直觉是正确的。跨团队的可见性对于保护 AI 和企业道德将变得至关重要。让咱们摸索挑战。 向产品增加道德人工智能评论的挑战将道德 AI 准则纳入产品开发对于负责任和值得信赖的 AI 应用程序至关重要。然而,在流程的多个阶段可能会呈现以下挑战和异议: 可能无奈取得精确代表人口且没有偏见的数据。当 AI 模型连续或放大现有偏见时,有偏见的数据可能会导致歧视性和不公正的后果。透明度是合乎道德的 AI 实际的要害,但实现团队之间的一致性可能很艰难。如果不针对可解释性进行设计,AI 模型将不足透明度,这可能会在呈现问题并且纠正模型行为的工夫至关重要时妨碍对决策过程的了解。同样,不足透明度加上对道德政策的一致也会减慢倒退速度。当利益相关者认为道德准则是在面向数据的主观模型开发过程中不须要的不必要的布局层时,就会呈现预警信号。人工智能模型可能会在辨认和解决新呈现的道德问题方面带来挑战,尤其是当产品团队没有承受过许多模型所面临的常见道德影响的无效培训时。公司外部更宽泛地应用 AI 和技术不足权威的道德规范,这给产品团队确定哪些做法被认为是道德和负责任的做法带来了挑战。相同,这也可能表明您的组织不足思维或教训的多样性来思考道德政策和保障措施。联合道德人工智能实际对于负责任和值得信赖的人工智能开发至关重要。对于许多挑战, 人工智能治理 软件提高使公司可能继续治理、监控和审计模型,提供适时的证据和文档,向各种利益相关者证实人工智能的安全性和合规性。 ...

May 5, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨利用数据流处理改进实时数据分析

更多内容请关注 OushuDB 小课堂 数据流解决正在迅速成为企业应用程序现代化和改良数据驱动应用程序实时数据分析的关键技术。随着企业越来越依赖实时数据分析,数据流解决使他们可能实时剖析和解决大量数据,提供及时的见解并做出理智的决策。 传统上,企业应用程序依赖批处理,这波及批量解决一段时间内收集的数据。然而,这种办法不适宜实时数据分析,因为它可能须要很长时间来解决。利用数据流能够使企业更快地采取行动,但企业领导者依然面临着数据流的大容量、速度和多样性等挑战。克服这些挑战须要一种波及正确技术、人员和流程的策略办法。 数据流是古代数据处理和剖析的重要组成部分,其特点是从各种起源生成的间断数据流,例如物联网设施、社交媒体和网络应用程序。数据流不同于传统的数据处理办法,因为它们实时运行,须要专门的技术和专业知识来剖析和解决生成的数据。数据流解决的益处以下是应用数据流解决的两个次要益处:应用数据流实现企业应用程序现代化: 在数据驱动在寰球范畴内,实时数据分析已成为企业的要害需要。它能够帮忙企业疾速响应一直变动的市场条件、客户行为和其余要害业务信息,从而取得竞争劣势。通过数据流改良实时数据分析: 通过Apache Kafka、Apache Flink、Apache Storm等数据流解决技术,企业能够实时处理和剖析数据流。通过利用数据流,企业能够加强其实时数据分析能力。基于 Kafka 的架构用于数据流和实时报告的基于 Kafka 的架构(如下图所示)波及多个组件。该架构的外围是 Kafka 集群,它充当促成数据流的分布式消息传递零碎。生产者实时生成数据并将其发送到 Kafka,而后 Kafka 将其散发到不同的分区。而后,消费者能够订阅相干分区并在数据达到时应用数据。为了启用实时报告,Kafka Connect 可用于从内部源(如数据库或 Web 应用程序)提取数据,并将其流式传输到 Kafka。另一方面,Kafka Streams 提供了一个流解决库,能够在 Kafka 中解决实时数据。Apache Spark 可用于实时流解决,总之,数据流的应用对于实现企业应用程序现代化和改良数据驱动应用程序的实时数据分析至关重要。然而,数据流解决也带来了一些挑战,须要一种策略办法来克服。通过利用数据流并采取适当的措施来解决相干挑战,例如数据品质治理、数据安全以及治理大量和高速数据,企业能够在其市场中取得竞争劣势。战略性地应用数据流并解决他们的挑战使企业可能进步他们的实时数据分析能力并做出及时和理智的决策,最终导致更好的整体业务绩效。 更多内容请关注 OushuBD 小课堂

May 5, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨数据仓库简史

我的博客行将同步至腾讯云开发者社区,邀请大家一起入驻:https://cloud.tencent.com/developer/support-plan?invite_code=... 数据仓库存储来自外部零碎和各种内部起源的数据。数据仓库旨在通过数据收集、整合、剖析和钻研来反对决策制定过程。它们可用于剖析特定主题畛域,例如“销售”,并且是古代剖析的重要组成部分 商业智能. 数据仓库的体系结构是在 1980 年代开发的,旨在帮忙将数据从操作系统转换为决策支持系统。 数据仓库能够是企业大型机服务器的一部分,但通常位于云端。 在数据仓库中,来自许多不同起源的数据被带到一个地位,而后转换为数据仓库能够解决和存储的格局。例如,企业存储无关其客户信息、产品、员工及其薪水、销售额和发票的数据。如果高层管理人员要求采取最新的老本削减措施,要取得答案可能须要剖析后面提到的所有数据。上面,咱们重点介绍从 1950 年代至今的数据仓库和数据存储的历史。 晚期数据存储打孔卡是第一个用于存储计算机生成数据的解决方案。到 1950 年代, 穿孔卡片 是美国政府和企业的重要组成部分。“Do not fold, spindle, or mulitate” 正告最后来自穿孔卡片。直到 20 世纪 80 年代中期,打孔卡仍被常常应用。它们依然用于记录投票和标准化测试的后果。 从 1960 年代开始,“磁存储”逐步取代了穿孔卡片。磁盘存储是数据存储的下一个进化步骤。磁盘存储(硬盘驱动器和软盘)于 1964 年开始风行并容许间接拜访数据,显着改良了轻便的磁带。 IBM 次要负责磁盘存储的晚期倒退。他们创造了软盘驱动器和硬盘驱动器。他们还因当初反对其产品的几项改良而受到赞美。IBM 于 1956 年开始开发和制作磁盘存储设备。2003 年, 他们卖了 他们的“硬盘”业务给了日立。 数据库管理系统紧随磁盘存储之后的是一种名为 数据库管理系统 (数据库管理系统)。1966 年,IBM 提出了本人的 DBMS,过后称为信息管理系统。DBMS 软件旨在治理“磁盘上的存储”并包含以下性能: 确定数据的正确地位当多个数据单元映射到同一地位时解决抵触容许删除数据当存储的数据不适宜特定的、无限的物理地位时寻找空间疾速查找数据(这是最大的益处)网上申请在 20 世纪 60 年代末和 70 年代初,在磁盘存储和 DBMS 软件风行之后不久,商业在线应用程序开始发挥作用。一旦意识到能够间接拜访数据,信息就开始在计算机之间共享。因而,有大量的商业利用能够利用于在线解决。一些例子包含: 索赔解决银行柜员解决主动柜员机 (ATM)航空公司预订解决批发销售点解决制作管制解决只管有这些改良,但查找特定数据可能很艰难,而且不肯定值得信赖。找到的数据可能基于“旧”信息。过后,公司生成的数据如此之多,以至于人们无奈置信他们所应用数据的准确性。 个人电脑和 4GL 技术为了应答这种凌乱和不足信赖,个人电脑成为正当的、实用的解决方案。 集体计算机技术让任何人都能够在不便的时候带着他们的计算机工作和进行解决。这导致了集体计算机软件的呈现,并意识到集体计算机的所有者能够将他们的“集体”数据存储在他们的计算机上。随着工作文化的这种变动,人们认为可能不再须要集中的 IT 部门。 同时,开发并推广了一种称为4GL的技术。 4GL技术 (在 1970 年代到 1990 年代开发)基于编程和零碎开发应该简单明了并且任何人都能够做到的理念。这种新技术也促使集中式 IT 部门崩溃。 ...

May 5, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨商业智能简史

1865 年,Richard Millar Devens 在“商业和商业轶事百科全书”中提出了“商业智能”(BI) 一词。” 他用它来形容银行家亨利弗内斯爵士如何通过在竞争前收集信息并依据信息采取行动而从中获利。最近,在 1958 年,一位名叫汉斯·彼得·卢恩 (Hans Peter Luhn) 的 IBM 计算机科学家撰写了一篇文章,形容了通过应用技术收集商业智能 (BI) 的后劲。 正如明天所了解的那样,商业智能应用技术来收集和剖析数据,将其转化为有用的信息,并在“较量前”采取行动。从实质上讲,现代版的 BI 侧重于将技术作为一种在正确的工夫依据正确的信息疾速无效地做出决策的形式。 在 1968 年,只有具备极其专业技能的集体能力将数据转化为可用信息。过后,来自多个起源的数据通常存储在孤岛中,钻研通常以零散、不连贯的报告模式出现,能够解释。Edgar Codd 意识到这是一个问题,并在 1970 年发表了一篇论文,扭转了人们对数据库的认识。他提出的开发“关系数据库模型”的倡议取得了极大的欢送,并在世界范畴内被驳回。 决策支持系统(DSS) 是第一个被开发的数据库管理系统。许多历史学家认为古代版本的商业智能是从 DSS 数据库演变而来的。随着商务人士发现商业智能的价值,BI 供应商的数量在 1980 年代有所增加。在此期间开发了各种工具,以更简略的形式拜访和组织数据。OLAP,执行信息系统,和数据仓库是为与 DSS 一起工作而开发的一些工具。 联机处理程序在线剖析解决(OLAP) 是一个零碎,容许用户剖析来自各种起源的数据,同时提供多种范例或观点。为 OLAP 配置的数据库应用多维数据模型,反对简单的剖析和即席查问。OLAP 的规范利用包含: 销售业务报告营销治理报告业务流程治理 (BPM)估算和预测财务报告和相似畛域新利用,例如农业OLAP 十分风行,因为它提供了多种收集和组织信息的办法。作为一个基于 SQL 的程序,它在 NoSQL 开始风行时就失去了人气。(目前,一些公司,如Kyvos 见解和规模化,将 OLAP 分层到 NoSQL 根底上。)OLAP 反对三种基本操作: 合并向下钻取切片和切丁合并波及组合能够以多种形式存储和解决的数据。例如,汽车销售经理能够汇总所有分支机构的汽车销售额,以此作为预测销售趋势的一种形式。另一方面,向下钻取技术支持浏览和钻研细节。人们能够按色彩、样式或油耗查看汽车销量。切片和切块让人们取出(切片)OLAP 立方体上的特定数据,并从不同的角度(有时称为维度,如“多维”)查看(切块)这些切片。 行政信息系统 ( EIS)在 20 世纪 70 年代前期,首席执行官们开始应用互联网来钻研商业信息。这导致了软件的开发,称为执行信息系统(EIS),以反对高层管理人员的决策。EIS 旨在提供“简化”决策过程所需的适当和最新信息。该零碎在出现信息时强调图形显示和易于应用的界面。EIS 的指标是将高管转变为“亲自动手”的用户,他们能够解决本人的电子邮件、钻研、约会和浏览报告,而不是通过中间人/女性接管这些信息。EIS 因为其在帮忙方面的局限性而逐步失去了知名度。 数据仓库随着企业开始应用外部数据仓库,数据仓库在 1980 年代开始风行数据分析解决方案常常。(因为过后计算机系统的限度,这通常是在下午 5 点之后和周末进行的。)在数据仓库呈现之前,须要大量的冗余来为决策过程中的不同人员提供有用的信息。数据入库显着缩小拜访数据所需的工夫。传统上存储在多个地位(通常以部门孤岛的模式)的数据当初能够存储在一个地位。 ...

April 20, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨高级分析用例

更多内容请关注 OushuBD 小课堂 到 2023 年,转向高级剖析的组织将可能更好地利用各自行业中的新机遇。随着自动化数据分析的应用,公司越来越多地转向剖析零碎和高级剖析用例,以实现策略转型和数字策略。 高级剖析零碎正在逐渐降级许多公司,发明商业价值,并钻研公司如何更好地应用他们的数据产品。随着世界朝着更加数据驱动的经济倒退,将越来越多的挑战带到数据迷信前沿的需要将依然是一个日益重要的优先事项。 到 2023 年,将施行高级剖析用例,以更好地实现流程自动化、实现更精确的预测、进步工作流程效率并加强员工能力。机器学习 (ML) 和自然语言解决 (NLP) 将用于以相似于人类工作形式的形式解决数据,并提供数据驱动的见解。 高级剖析可帮忙数据团队开发新的想法和策略,从而一直扭转他们更好地为客户服务的形式。2023 年业务剖析趋势的一些要害包含: 业务剖析云原生市场的衰亡 随着保险业进行数字化转型,预计将近 90% 的保险公司将利用人工智能和机器学习来更好地与客户互动数据拜访形式更加民主化数据存储和清理过程的自动化通过自助服务剖析继续加强整体员工的能力将人工智能(预测剖析)集成到保险应用程序中业务用户对更多数据素养的需要应用大数据深刻理解企业客户、产品、经营和市场在数据分析中更多地应用人工智能来剖析客户行为、业务流程和企业数据数据治理将超过治理非结构化数据,转向治理微小的数据流量数据法规将塑造新型数据存储生产人工智能零碎也将变得更加先进,使企业可能优化其 IT 零碎并更好地管制决策制定古代自助服务剖析平台通过将高级剖析工具带到他们的桌面来为一般业务用户提供反对。明天的业务用户不须要技术团队成员的帮忙来发现趋势和模式,对将来做出精确的预测,或者在组织中推动数据驱动的文化。在人工智能类别中,“可解释的人工智能”仿佛也是最近的热门话题。加强剖析、继续智能和可解释的人工智能正在彻底颠覆商业剖析畛域, 依据 丽塔萨拉姆, Gartner 钻研副总裁: “数据和剖析领导者必须查看这些趋势的潜在业务影响,并相应地调整业务模型和经营,否则就有可能失去竞争劣势。” 在加强和高级剖析场景中,大多数要害工作(如数据品质治理、数据集成、主数据管理和元数据管理)在很大水平上是自动化的。唐纳德范伯格Gartner 副总裁兼卓越分析师认为,“数字化颠覆”带来的挑战与时机一样多。 物联网数据高级剖析:用例越来越多的古代公司意识到大数据在剖析数字信息和应用高级模型模拟不同场景方面的后劲,以便在市场环境中做出更精确的决策。高级剖析零碎能够帮忙组织依据可用数据类型做出更适合的决策,而无需任何人为干涉。 高级剖析用例包含: 投资于整个企业的数据文化和数据素养,以取得数据分析的最大回报翻新改良的数据拜访办法以加强组织内普通用户的能力为剖析零碎开发用户敌对的界面,使用户无需简单的技术窍门即可轻松拜访他们的见解开发人工智能工具,为数据工程师和数据科学家装备自动化工具,进步工作效率 利用剖析托管服务简化业务审查工作并提供相干剖析Infor AI Datamarts 等服务工具可用于治理数据,并使团队更容易在整个组织内共享数据物联网数据分析的一些风行利用包含: 产品应用剖析消费者和企业用户的通用剖析 传感器和摄像头协同工作以剖析同时产生或关联的事件监控和平安步骤的视频剖析社交剖析至关重要的方面 物联网数据分析 是,只管业务用户可能认为无线、传感器和挪动等古代硬件翻新正在推动业务价值,但实际上是传感器数据的高质量和大数据等高级剖析技术为增值剖析做出了奉献。 按行业划分的高级剖析用例最近,企业领导者和管理者始终十分关注建设一个高级剖析 愿景和策略,其中波及对此类剖析练习的适用性的认真思考。高级剖析愿景和策略通常与整体业务策略严密相干,从而实现实现经营效率的次要指标。 古代人工智能平台提供了许多自动化或半自动化工具,金融、保险或医疗保健业务业余人员能够轻松应用这些工具将数据转化为信息,从而做出更理智的决策并进步盈利能力。作为 数据治理 在这三个行业畛域也十分重要,反对机器学习 (ML) 的 AI 平台为更精确、更高效的决策提供了更大的机会。这些先进的剖析技术正在帮忙企业从竞争对手中怀才不遇。 要理解预测剖析将如何帮忙做出将来决策,请查看 预测剖析用例,这表明高级剖析的真正力量取决于训练有素的专家和高级工具。 批发 用户能够申请 预测剖析 联合对大量市场和消费者数据的标准剖析,以取得可操作的情报预测剖析工具能够帮忙用户预测近期的销售后果过来的销售业绩数据在预测剖析中应用时,能够帮忙零售商预测因为市场趋势或消费者行为变动等特定因素导致的增长大数据分析帮忙零售商钻研产品分销渠道数据以降低成本保险和金融服务 高级预测剖析用于 散失治理大数据和预测剖析能够帮忙预测需要大数据分析在预防欺诈中起着至关重要的作用危险剖析 大数据有助于确定客户的信用价值数据挖掘、NLP 和文本剖析一起应用,以提供更好的产品和客户洞察力卫生保健 Health Catalyst 等高级剖析平台有助于预测糖尿病酮症酸中毒 (DKA) 的危险,这是一种糖尿病的急性病例,能够进行晚期干涉。 营销 理解消费者行为是营销胜利的要害。在数字时代,营销数据是从各种输出渠道和客户接触点收集的。除了结构化聊天记录或电子邮件,许多非结构化数据源(例如传感器、点击流和社交媒体)也会生成大量消费者数据。 论断到 2023 年,施行高级剖析用例来收集和清理数据的组织比以往任何时候都多。随着 AI 和 ML 在剖析中的施行,劳动力的角色也在一直倒退,因而数据科学家和业务分析师能够更多地关注更高级别的工作,例如从数据中获取洞察力,而不是手动清理数据。 ...

April 20, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨孤立数据迫在眉睫的威胁废弃文件如何毁掉您的业务

员工到职的人数创下历史新高——无论是被迫的还是非被迫的。 每年产生的员工流失量因行业和国家/地区而异。然而,裁员仿佛已成为商界的普遍现象,科技行业最近受到的打击尤为重大。裁员.fyi,一个自 2020 年 3 月以来始终在监测科技裁员状况的网站,收集的数据表明,自今年年初以来,已有 482 家科技公司裁员了约 128,202 名员工。 然而,员工也会被迫到职。依据美国劳工统计局的 职位空缺和劳动力流动考察 (JOLTS),2022 年,总到职人数减少了 320 万,达到 7230 万。在这些到职人员中,辞职占 70%,有 5060 万工人被迫到职——这是考察历史上最高的年度辞职程度。 到 2023 年,人们能够揣测这种员工流动轨迹可能会继续上来,其驱动因素包含经济情况、行业趋势和工作条件的继续变动。 到职员工留下了大量暗数据。 依据 一份报告 依据 IDC 和 Seagate 的预测,到 2025 年,寰球创立的数据总量预计将达到 175 泽字节。尽管很难预计具体有多少数据是由员工生成的,但很显著,企业外部集体创立的数据量是以前所未有的速度增长。 当然,每个员工创立的数据量和类型可能因行业、工作角色和执行的具体任务而有很大差别。然而,据多位专家称,预计其中 80-90% 的数据是 非结构化数据. 也就是说,它的范畴从电子邮件、文档、电子表格、演示文稿和数据库到其余不那么无辜的文件,如电影、音乐、图像和 Torrents。通常用于共享电影、音乐和软件等大文件的 Torrent 也可能带来危险,例如流传病毒或恶意软件,以及未经许可散发受版权保护的资料。 做数学并不需要太多——这是前雇员留下的大量数据。 孤立数据是有危险的业务。 孤立数据是指在组织内没有明确所有者或用处的数据。当创立或存储数据并且负责它的集体来到组织而没有将数据的所有权或常识转移给另一个人或部门时,就会产生这种状况。这可能会导致一些重大危险,包含: 平安危险: 孤立数据可能成为期待爆炸的平安威逼的定时炸弹!如果此数据蕴含敏感或机密信息,则它可能成为网络犯罪分子的金矿,他们能够利用这些数据谋取利益。一旦这些信息落入好人之手,可能会导致毁灭性的结果,例如身份盗用、金融欺诈或企业间谍活动。 合规危险: 如果您的企业没有妥善治理孤立数据,这些数据可能会随着工夫的推移而累积,并导致不恪守 GDPR、SOX、HIPAA 和 FISMA 等法规。不恪守行业法规可能是企业的噩梦。潜在的法律和经济处罚可能是毁灭性的,导致巨额罚款、诉讼,甚至企业倒闭。 经营危险: 孤立数据会对您的整个经营造成严重破坏。随着工夫的推移,孤立数据一直积攒,它会占用贵重的存储空间,导致系统性能降落和备份窗口缩短,从而导致操作中断。这些中断的结果可能是可怕的,导致延误、生产力损失和客户满意度降落。但这还不是全副:与存储和保护这些数据相干的老本会迅速减少,给您的组织带来微小的财务累赘。 名誉危险: 设想一下,您的企业名称呈现在每个次要新闻媒体的头条新闻中,暴露出因为孤立数据管理忽略而导致的敏感或秘密数据失落的可怕状况。这可能对您的名誉和客户信赖造成致命打击。此类事件造成的损失是无法估量的,并且可能须要数年工夫能力从客户失去信赖和忠诚度中恢复过来。更不用说与潜在的法律诉讼和和解相干的费用。 为了解决孤立数据的问题,组织可能须要施行 数据治理 确保所有数据都失去适当记录、存储和保护的政策和程序。这可能波及定期进行数据审计,为数据调配明确的所有权和责任,并为数据创立和存储制订指南。 底线:漠视孤立数据的危险不是一种抉择。如果您不采取措施无效治理您的数据,您的企业的平安、名誉和财务稳定性可能会受到威逼。 更多内容请关注 OushuDB 小课堂

April 20, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨4-个常见的数据集成挑战

更多内容请关注 OushuDB 小课堂 将数据胜利集成到繁多平台的能力可能是一个挑战。良好集成的数据使相干人员能够轻松拜访和应用它。整合不良的数据会产生问题。数据集成能够 形容为过程 从各种起源收集数据并将其转换为与数据存储系统兼容的格局——通常是数据库或 数据仓库. 在制订业务决策时应用集成数据已成为许多组织的广泛做法。可怜的是,数据集成过程可能很麻烦,因而很难在须要时应用数据。 胜利的数据整合使钻研人员可能开发有意义的见解和有用的 商业智能. 集成数据创立了一层信息连贯,为钻研和剖析奠定了根底。数据集成最大限度地施展了企业数据的价值,但集成过程须要正确的工具和策略。它使企业可能减少回报、优化资源并进步客户满意度。数据集成促成了高质量的数据和有用的商业智能。 随着数据量的一直增长,以及数据的多样性 数据格式,数据集成工具(如数据管道)成为必需品。 通过跨部门共享这些高质量数据,组织能够简化流程并进步客户满意度。集成数据的其余益处包含: 改善沟通与合作减少数据价值 基于精确数据做出更快、更好的决策销售额和利润减少要使数据有用,它必须可用于剖析,这意味着它必须采纳可读格局。 多种起源数据能够从外部起源以及各种内部起源收集。从外部起源获取的数据称为“次要数据”,而“二手数据”通常是从内部起源收集的,但并非总是如此。所选数据的起源能够依据钻研的须要而变动,每个数据存储系统都是举世无双的。 二手数据不限于来自不同组织的数据。它也能够来自组织外部。此外,还有 凋谢数据源. 随着数据量的一直增长,数据源的数量越来越多,格局也越来越多,数据集成曾经成为进行有用钻研的必要条件。它已成为开发商业智能不可或缺的一部分。上面列出了一些数据源示例。 次要数据 传感器: 来自传感器的记录数据,例如照相机或温度计考察: 业务和服务质量问题的答案User Input: 罕用于记录客户行为(点击次数、停留时间)天文数据: 某个工夫点应用设施的实体(人或机器)的地位交易: 商业交易(通常在线)事件数据: 数据的记录由事件触发(电子邮件达到、传感器检测到静止)二手数据 世界银行凋谢数据Data.gov(美国政府的钻研)纽约大学图书馆钻研指南(迷信)外部二手数据 Quickbooks(用于费用治理)Salesforce(用于客户信息/销售数据)季度销售数据电子邮件 元数据网站 cookie购买的第三方数据也可能是一个问题。两个相当平安的第三方数据源是数据超市 和 数据经纪人. 此类数据由与消费者没有间接关系的企业购买。 顶级数据集成挑战数据集成是一个继续的过程,它将随着组织的倒退而倒退。无效地集成数据对于改善客户体验或更好地理解须要改良的业务畛域至关重要。企业通常会遇到一些突出的数据集成问题: 数据不在应有的地位: 当数据未存储在地方地位时,就会呈现这种常见问题。相同,数据分布在组织的各个部门。这种状况减少了在钻研过程中失落要害信息的危险。一个简略的解决方案是将所有数据存储在一个地位(或者两个地位,主数据库和数据仓库)。除了受法律爱护的个人信息外,各部门必须共享他们的信息,并且 数据孤岛 将被禁止。 数据收集提早: 通常,必须实时处理数据以提供精确且有意义的见解。然而,如果必须有数据技术人员参加,手动实现数据集成过程,则无奈进行实时处理。这反过来会导致客户解决和剖析的提早。这个问题的解决方案是自动化数据集成工具。它们专为实时处理数据而开发,可提高效率和客户满意度。 非结构化数据格式问题: 数据集成的一个独特挑战是应用 非结构化数据 (照片、视频、音频、社交媒体)。企业正在生成和收集越来越多的非结构化数据。非结构化数据通常蕴含能够影响业务决策的有用信息。可怜的是,计算机难以读取和剖析非结构化数据。有一些新的软件工具能够帮忙翻译非结构化数据(例如,MonkeyLearn,它应用机器学习来寻找模式,Cogito,它应用自然语言解决)。 劣质数据: 品质差的数据 对钻研有负面影响,并可能导致蹩脚的决策。在某些状况下,有大量数据,但大量反映了不再相干的“旧”信息,或者与以后信息间接抵触。在其余状况下,反复数据和局部反复数据可能无奈精确示意客户行为。手动输出大量数据也可能导致谬误。数据的品质决定了组织商业智能的价值。如果一个组织领有大量低质量数据,则必须假如没有 数据治理打算 到位,或者数据治理程序设计不当。数据品质不佳的解决方案是施行精心设计的数据治理打算。(开发数据治理打算的第一步是清理数据。这能够在数据品质工具的帮忙下在外部实现,或者应用更低廉的内部帮忙解决方案。) 数据集成的将来数据集成办法正在从 ETL (提取-转换-加载)到自动化 外语教学法 (提取-加载-转换)和基于云的数据集成。机器学习 (ML) 和人工智能 (AI) 处于数据集成开发的晚期阶段。 ELT 零碎将原始数据间接加载到数据仓库(或数据湖),将转换过程转移到管道的末端。这容许在转换和可能更改数据之前检查数据。在为剖析和商业智能解决大量数据时,此过程十分无效。 基于云的数据集成系统可帮忙企业合并来自各种起源的数据,通常将其发送到基于云的数据仓库。该集成系统进步了经营效率并反对实时数据处理。随着越来越多的企业应用软件即服务,专家预测超过 90% 的数据驱动型企业最终将转向 基于云的数据集成. 从云端,能够应用各种设施拜访集成数据。 应用 机器学习 和 人工智能 集成数据是最近的倒退,并且仍在一直倒退。AI 和 ML 反对的数据集成须要较少的人工干预,并且绝对容易地解决半结构化或非结构化数据格式。AI 能够应用机器学习算法主动执行数据转换映射过程。 ...

April 20, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨低代码和无代码开发是解决生产力困境的方法吗

企业对高质量数据管理和生产力工具的需要一直增长,导致人们对新兴技术(例如低代码和无代码平台)的趣味激增,以减速他们的 数字化转型 指标。受遗留基础设施妨碍的企业必须进行大量投资,并决定是购买他们的技术还是在外部构建它。对于这两种抉择,疾速组装和麻利施行都是必不可少的。 在美国,要做到这一点的压力越来越大。 美国劳动生产率 远低于过来几年 2.2% 的长期平均水平。 什么是生产力窘境,低代码和无代码如何提供帮忙?引入行业的简单新技术很少会立刻产生生产力效益。这是因为在采纳阶段思考学习老本、开发新的基础设施以反对该技术以及其余因素的效率存在缺点。特地是两个因素——培训和教育老本以及组织层面的重组——须要很长时间能力实现最佳后果。 然而,低代码和无代码技术通过以各种形式进步生产力来扭转这一趋势。最重要的是,低代码和无代码的直观用户界面大大降低了学习曲线。这意味着员工无需承受正式培训即可负责“公民开发者”的角色,从而放慢开发新应用程序、数字化流程和采纳这些平台的工夫。 例如,一家大型制作公司的生产经理能够将其员工日常生产信息的数据收集、可视化和保护数字化,从而打消任何手动流程。同样,人力资源官员能够开发本人的应用程序来简化候选人的招聘流程,而无需任何编码技能。 低代码和无代码帮忙行业进步生产力的其余形式: 依照设计,低代码和无代码平台构建在预编码的可重用组件上。这打消了反复编码工作的须要,并通过专一于定制或集成来减速利用程序开发。据麦肯锡称,低代码和无代码技术能够 将开发工夫缩短高达 90% 和双倍的部署速度。这意味着在工夫、金钱、精力和机会成本方面节俭了大量资金。金融科技等行业正在利用无代码平台构建新服务,连贯 Web 前端应用程序以放慢上市工夫。此外,金融服务行业越来越多地部署无代码来治理一直变动的流程业务规定,例如入职、理解您的客户 (KYC) 和客户渎职考察框架,这些流程可能因地区而异。工作流自动化是低代码和无代码应用程序提供许多进步生产力的机会的另一个畛域。借助这些技术,应用程序编程接口 (API) 和 webhooks 触发器能够自动化以统一地触发操作,而无需人工干预。例如,项目经理能够通过设计无代码表单来激活一组操作(例如文档拜访和平台帐户创立)来放慢他们的入职流程。这个过程能够扩大到退出数千个账户,从而节俭团队的工夫和资源。应用无代码数据库还能够进步生产力。 无代码善于打消人工数据核查、对齐会议和因人为谬误而进行的更正。相同,无代码创立了繁多的实在起源,其中数据被统一地捕捉并在团队之间共享。例如,一家大型批发银行能够部署无代码工具,为跨多个国内团体和监管区域的财务部门保留繁多记录起源。这可确保外部信息在整个组织内保持一致,无论其位于何处。因为无代码平台容许没有开发技能的员工构建数据和构建应用程序,因而它们能够帮忙在更宽泛的团队中调配 IT 工作负载。这使公司可能在不雇用更多开发人员的状况下减速其数字化转型。简而言之,低代码和无代码平台能够通过缩小他们必须编写的代码量来进步团队的生产力,使他们可能主动执行重复性工作并专一于间接建设公司利润的增值工作。 更多内容请关注 OushuDB 小课堂

April 18, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨非凡数据科学家的五个必备特征

当初是成为数据科学家的最佳时机。 只管最近大型科技公司进行了大规模裁员,但数据经理、分析师、数据管理员和参谋的将来一片光明。事实上,预计须要数据迷信技能的工作数量 增长 27.9% 依据美国劳工统计局的数据,到 2026 年。 技术和大数据的继续提高意味着对数据科学家的职业机会依然有很高的需要。加上人工智能 (AI)、机器学习和区块链等疾速倒退的畛域,数据科学家的作用将扩充到包含风险管理、 数据治理、伦理、数据可视化等。 数据迷信职业的技能组合数据迷信职业所需的典型技能包含剖析和重视细节以及领有线性思维。放弃好奇心和好奇心,同时遵循迷信办法也很重要。 随着越来越多的组织依附数据来制订战略性业务决策、留住忠诚客户并取得新客户,数据科学家面临着加强常识和教训的挑战。一些数据科学家可能会抉择 专一于特定畛域,例如业务和市场剖析、人工智能和机器学习技术,或基础设施和数据清理。 不凡数据科学家的特色因为寰球的公司和组织须要比以往任何时候都更宏大、更多样化的数据,最胜利的数据科学家将是那些领有超出常态特色的人。这些数据专家将超过典型的左脑行为(即逻辑、剖析和有序思维)。卓越的数据科学家也会承受右脑行为,这种行为更具创造性、艺术性和想象力。 以下是不凡数据科学家的五个特色: 1.蓝天思想家 随着人工智能翻新的减速、灵便的媒体平台和新兴的高科技,蓝天思维对于解决当今的问题和将来不可预感的挑战是必不可少的。数据专家必须为富有成效的头脑风暴做出奉献,并采纳创造性的思维形式来帮忙他们的组织应答寰球经济的稳定、政治的不确定性等。 利用优先于教育所谓的“书本智慧”为新的数据专家创立了弱小的知识库,但通常这些课程是死板的,不适用于事实场景中提出的非结构化问题。此外,该畛域的倒退如此之快,以至于在学校学到的工具和技术曾经过期,它们已在工作场合付诸实践。即便是几年前的电脑当初也被认为是过期的。当初在街头聪慧可能比在书本上聪慧更好。尽管大学学位永远很重要,但数据科学家还必须筹备好忘却、重新学习和进步技能,以应答意想不到的阻碍。倡议数据专家定期更新他们的认证,加入最新软件的课程,并承受系统升级培训。 3.化繁为简 数据科学家必须筹备好与不相熟数据和所用技术的跨部门共事单干。他们须要解释术语和首字母缩略词并简化语言,以便队友了解所提供的数字和信息的价值。通过化繁为简,数据科学家使团队可能更加合作并实现组织的指标。 视觉讲故事者应用数据可视化有助于高管和其余团队成员分明地确定所提供信息的价值并反对 数据驱动 决定。将数据集组织成一个故事能够使决策者保持一致并简化口头步骤。精明的数据科学家将与营销或设计专家单干,创立数据可视化并制作引人入胜的故事。 以协商的形式解决问题在竞争强烈的环境中,数据科学家能够简略地提供大量数据而后认为工作做得很好就走开的日子曾经一去不复返了。的确,组织、清理和剖析数据,而后创立具备壮观可视化成果的残缺报告是一项艰巨的工作。但当初,数据专家还必须与整个组织的队友单干,采纳协商的形式解决问题。数据科学家必须思考更大的图景和整体组织指标。它们必须作为克服阻碍、帮忙取得市场份额、减少销售额等的资产。 这五个特色强调了数据科学家一直变动的角色。只管明天的数据科学家可能会被要求超过他们的舒服区,但通过拥抱这些品质,他们将成为不凡的数据科学家之一,对他们的组织来说是无价的。 更多内容请关注 OushuDB 小课堂

April 18, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨7-种基本的机器学习工程技能

机器学习工程是一个业余畛域,它将计算机科学、数据迷信和软件工程的原理与机器学习的技术和办法相结合。机器学习工程师负责设计、开发和施行机器学习模型和零碎,以解决简单问题或使 数据驱动 预测和决定。 机器学习工程是至关重要的 各个行业和畛域,包含医疗保健、金融、电子商务、主动驾驶汽车、自然语言解决、计算机视觉等。指标是利用机器学习技术从大量数据中发现模式、进行预测并实现智能决策。 机器学习工程师的角色和职责 机器学习工程师在机器学习零碎的开发和部署中施展着关键作用。他们的角色和职责通常包含但不限于以下工作 问题制订: 理解业务指标和要求并将其转化为能够通过数据驱动办法解决的机器学习工作数据收集和预处理: 从各种起源收集原始数据,对其进行荡涤,解决缺失值和异样值,并将其转换为适宜机器学习模型的格局特色工程: 辨认最相干的变量或特色,并可能创立新的变量或特色,以进步机器学习模型的性能模型抉择: 钻研、抉择和施行最合适的模型 机器学习算法和给定问题的技术模型训练: 应用筹备好的数据配置和训练机器学习模型,调整超参数并优化其性能模型评估: 应用各种指标和验证技术评估经过训练的模型的性能,比拟不同的模型以抉择最适宜工作的模型模型部署: 将经过训练的模型集成到生产零碎、应用程序或服务中,容许基于新数据进行实时预测或决策模型保护和监控: 确保已部署模型的性能和准确性随着工夫的推移保持一致,发现问题,并在须要时从新训练或更新模型合作: 与数据科学家、软件工程师和领域专家密切合作,开发和改良机器学习解决方案文档: 为开发的模型、它们的性能以及技术和非技术利益相关者的任何相干细节创立清晰简洁的文档沟通: 无效地将机器学习模型的后果和见解传播给利益相关者,解释模型的价值及其对业务的潜在影响与时俱进: 一直学习机器学习畛域的新倒退、新技术和工具,并利用这些常识改良现有模型或开发新模型确保合乎道德的 AI 实际: 理解并解决与机器学习模型和数据相干的潜在偏见、道德问题和隐衷问题依据组织和特定我的项目的不同,机器学习工程师可能具备不同的角色和职责,但这些工作提供了他们通常执行的外围性能的总体概述。 根本的机器学习工程技能 要想成为一名杰出的机器学习工程师,应该具备几项基本技能。这些技能能够大抵分为以下几个畛域: 计算机科学根底和编程 对计算机科学基础知识的深刻理解对于机器学习工程师来说至关重要,因为它形成了开发高效算法和数据结构的根底,这些算法和数据结构是许多机器学习工作不可或缺的一部分。把握编程语言(例如 Python 或 R)能够让工程师高效地施行这些算法、预处理数据和制作机器学习模型原型。 精通编程还使工程师可能利用专为机器学习、数据分析和可视化设计的各种库和框架。相熟不同的编程范式,如面向对象、函数式和过程式编程,能够进一步帮忙工程师适应不同的问题域,开发出更加模块化和可保护的代码。 概率统计概率和统计为了解和建模机器学习中的数据奠定了根底。它们用于量化不确定性、从数据中进行推断以及剖析变量之间的关系。 扎实把握概率论对于了解随机变量和随机过程的行为至关重要,它们是许多机器学习算法的根底。同样,统计常识使工程师可能预计参数、测验假如并从数据中得出结论。利用统计概念(例如描述性统计、推论统计和贝叶斯办法)的能力对于抉择适合的模型、了解其假如和解释其后果至关重要。 MLOpsMLOps 是机器学习操作的缩写,是一种联合机器学习、数据工程和软件工程的实际,能够在生产环境中部署、治理和扩大机器学习模型。它波及将 DevOps 准则利用于机器学习工作流,其中软件开发实际与机器学习实际相结合,以确保端到端机器学习生命周期的无缝合作、自动化和监控。 作为一名机器学习工程师,有 MLOps技能 对于构建和部署生产级机器学习模型至关重要。 GPU集群如果您正在解决计算密集型机器学习工作,那么您可能会受害于理解 GPU 集群以及如何利用它们来减速机器学习工作流程。 GPU 旨在解决大量并行处理,使其成为减速机器学习工作(例如训练深度神经网络)的现实抉择。通过利用 GPU 集群,机器学习工程师能够实现更高级别的并行性并减少可用于其工作负载的解决能力,从而实现更快的模型训练和更好的后果。 此外,随着深度学习的日益遍及,许多机器学习工作 须要应用多个 GPU 以达到可承受的性能。因而,许多公司都在投资 GPU 集群,为其机器学习团队提供必要的基础设施来训练和部署高质量的机器学习模型。 数据建模与评估数据建模是为给定问题抉择最合适的机器学习模型并了解其假如和局限性的过程。工程师必须相熟各种模型和技术,例如线性模型、决策树、反对向量机和神经网络,能力为手头的工作抉择最佳模型。 他们还应该善于特色工程,这波及从数据中抉择最相干的变量或特色,并可能创立新的变量或特色来优化模型的性能。评估是机器学习管道的另一个重要方面,因为它有助于确定模型的有效性及其对新数据的普遍性。 工程师必须精通各种评估技术,例如穿插验证、自举和保持验证,以评估模型性能。他们还应该相熟准确度、精确度、召回率、F1 分数和 ROC 曲线下面积等性能指标,以掂量模型的品质并比拟不同的办法。 利用机器学习算法和库机器学习工程师应该精通各种算法和技术,以无效解决各种问题。这包含了解各种算法背地的实践、它们的假如以及它们的优缺点。工程师应该可能从头开始施行这些算法或应用现有的库和框架来简化流程。 相熟风行的机器学习库和框架,例如 TensorFlow、PyTorch、Keras、scikit-learn 和 XGBoost,对于高效施行、训练和部署模型至关重要。这些库提供预构建的算法、工具和性能,可显着缩小开发自定义解决方案所需的工夫和精力。通过把握这些库,工程师能够专一于解决特定畛域的问题,而不是从新创造轮子。 软件工程与零碎设计弱小的软件工程技能对于机器学习工程师确保其代码强壮、高效和可保护至关重要。这包含遵循最佳实际,例如编写模块化和可重用代码、恪守编码标准以及应用 Git 等版本控制系统无效治理代码更改。工程师还应该长于调试和测试他们的代码,以便在开发过程的晚期辨认和修复问题。 零碎设计技能对于在生产环境中设计和部署机器学习模型至关重要。工程师必须理解可扩大、牢靠和平安的零碎设计准则,以创立可能解决大量数据并以最小提早提供实时预测的解决方案。 ...

April 18, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨优化数据质量以应对经济动荡

继续的经济波动和寰球经济衰退迫使企业领导人做出艰巨的决定。一些正在裁员并缩减经营开销以变得更加麻利,而另一些则施行了老本节约措施,例如削减技术收入,以进步财务灵活性。这些动作可能会在凌乱期间为公司提供短期的喘息机会,但一旦经济环境恶化,它们就会迫使它们重建。组织正在利用经济衰退来反对其业务畛域,以提供长期价值,并容许他们在市场稳固后减速倒退。为此,当初是企业决策者投资于他们最大的资产——数据的最佳时机。 数据对于企业的成长和胜利至关重要,但确保其品质和准确性可能具备挑战性。这须要全面的策略和周密的布局,以反对理智的业务决策、提高效率并促成经营连续性。让咱们看看组织如何利用正确的资源和人员来收集牢靠的数据。 确定缩小手动流程的机会 企业领导者必须确定改善其数据供应链和整体数据品质的机会。钻研表明,近一半新创建的数据记录具备 至多一个严重错误 只有 3% 的公司数据合乎根本质量标准。依赖手动工作和流程的公司通常会创立数据孤岛并经验更高的人为错误率。手动数据挪动、SaaS 应用程序的激增和集成中断的联合会升高可拜访性并导致不良数据,这会影响组织的各个级别。 Forrester 发现 通过打消这些消耗工夫和资源的步骤并将数据可拜访性进步 10%,一家典型的财产 1000 强公司将产生超过 6500 万美元的额定净收入。 古代企业比以往任何时候都更加依赖数据来实现业务指标。手动工作和流程加剧了员工的倦怠和继续的技术技能短缺,升高了做出更好决策所需的数据的品质和准确性。连贯孤立的软件、数字化企业和 进步数据品质 在不缩小手动业务流程的状况下。如果未能解决此问题,组织将无奈施行无效的数据治理策略。 制订欠缺的数据治理策略 最胜利的公司会优先思考并花必要的工夫来开发推动策略业务决策的程序。这实用于 数据治理 因为它使组织可能评估和改良其数据的可用性、品质、准确性和及时性。CIO 和其余 IT 领导者必须为其数据优化打算定义明确的指标,以确保这些致力与整体业务策略保持一致,并专一于实现可掂量的后果。接下来,他们应该布局所有流程,包含确定每个流程的角色、工作和指标,以确定如何简化和自动化这些流程。这还应该包含所波及的人物角色,因为如果不理解他们的教训程度,数据将放弃不统一和有效。最初,评估可用技术并依据与现有零碎的集成级别为特定用例抉择最合适的工具。 CDC 基金会在首次将其整个经营迁徙到基于云的解决方案时就经验了这一点。企业感触到了手动流程的压力,工作人员在零碎之间进行手动 CSV 上传和核查。鉴于其流程和经营的独特性和高度定制性,他们晓得他们须要将它们全副连接起来以正确治理它们。CDC 基金会信息技术总监 Malcolm James 抵赖,组织不仅要确定连贯什么、如何连贯以及何时连贯,还要确定业务须要什么,这对组织来说是一个挑战。通过布局流程、定义指标和施行变更管理策略,简化了 Malcolm 及其员工的过渡, 弱小的变更治理打算对于胜利施行加强的数据治理打算至关重要。它有助于确定组织的日常经营在执行新策略时将如何运行,并解释它们将如何向前推动。这使企业领导者能够向利益相关者传播优化数据的益处,为员工提供培训和反对,并治理任何潜在的改革阻力。没有改革治理策略的公司往往会面临员工的拥护,因为他们不晓得不同的办法将如何影响他们的外围工作职能。关注与企业范畴的改革相干的最终用户体验和角色将简化过渡并为整个组织提供良好的体验。 创立数据驱动的文化 胜利的数据治理策略的根底是组织创立数据驱动文化的志愿和能力。对于大多数公司而言,这种独特愿景是一个根本性的转变,因为它须要整个组织(而不仅仅是 IT 部门)的承诺,以建设一个打消脱节数据集的互连业务。业务领导者必须在流程的晚期关注这一点,因为胜利取决于单向办法。 营造优先思考组织数据品质和准确性的环境是改良打算的要害。承受这种思维形式并将其作为公司的外围优先事项,有助于制订明确的策略、提供更高的投资回报率并推动长期价值。在整个公司和跨职能部门产生反对将有助于取得资金、征求反馈并确保各部门致力于使数据加强打算取得成功。 可能自信地信赖数据并为业务决策提供信息的组织价值回报比采取老本节约措施要大得多。然而,仅仅致力于进步数据品质是不够的。企业领导者必须明确,数据优化取决于正确的工具、人员和策略,以营造全公司的心态。通过在经济动荡期间增强对数据的解决,当先企业将筹备好在市场稳固时减速支出扩张。 更多内容请关注 OushuDB 小课堂

March 31, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨在不确定的经济时期通过存储即服务节省资金

在席卷 2023 年的经济不确定性中,IT 领导者正在争先恐后地寻找降低成本的办法。企业存储是 IT 团队能够在不就义可用性、可靠性、 网络弹性,或应用程序性能。对您的企业存储基础设施采取更具战略性的办法将对底线产生影响。转向存储即服务 (STaaS) 是降低成本同时进步性能的弱小策略。STaaS 是一种灵便的、相似云的生产办法的例子,它提供了仅应用所需存储容量的经济利益。 一种 STaaS 模型混合了后期 CAPEX 存储和相似云的经营扩大或按需逐月“暴发”。另一种 STaaS 模型齐全基于 OPEX,具备相似云的即用即付生产模型——无论存储容量减少还是缩小。您能够抉择最适宜您的组织的形式。 您的企业只是以不同的形式应用存储,无论是通过相似云的 OPEX 模型还是混合 CAPEX/OPEX 模型。当然,有些企业可能还是想购买传统的CAPEX模式,但这两种模式都超过了企业最大的灵活性。事实上,在一个地区,企业能够应用 STaaS,在另一个地区应用传统的 CAPEX,在另一个地区应用联合了 CAPEX 和 OPEX 的混合模式。 转向 STaaS 能够节俭大量老本。存储整合显着升高了 CAPEX 和 OPEX 老本。例如,治理两个阵列天然比治理 10 个阵列更具老本效益。因为存储即服务,所有电力、冷却、数据中心空间和 IT 资源的节俭也转化为更低的总领有老本。 此外,习惯于应用中档产品的企业正在以中档价格取得高端存储性能,通过转向这些型号以实现与许多 IT 估算高度兼容的目标。 企业存储. 习惯于应用中档存储产品的企业当初能够通过应用高端企业存储解决方案进行存储即服务来取得高端存储个性和性能的所有益处。 STaaS 让您有机会通过整合存储来简化您的数据中心。治理两个存储阵列比治理 14 个存储阵列更容易,或者治理一个阵列而不是治理 10 个阵列。STaaS 可节俭占地面积、机架空间以及电源和冷却要求。须要治理的货色更少——少得多。与治理 10 个或更多阵列相比,治理一个或两个阵列所需的工夫更少。只需缩小存储管理,节俭资源需要和 OPEX 老本。 此外,这种简化使数据中心更加环保。随着电力和冷却需要的缩小,您不仅耗费更少的能源,而且当您淘汰旧的存储阵列时,须要回收或处理的平台也会缩小,从而合乎绿色倡导。更无效地利用能源、空间、照明和温度传感器——通过更低的功耗排放更少的碳——使数据中心更加环保。更简略意味着更环保,这能够转化为经济节约——如果您违心的话,还有环保和更好的经济效益的“双 E”效益。 此外,您仍应寻求 100% 的可用性、有保障的性能和白手套服务。你不须要斗争。借助 STaaS,您依然能够领有与购买传统企业存储雷同的所有高端企业性能:易用性、咱们的“设置即忘”办法、自主自动化、高级网络安全爱护,以及 AIOps 和 DevOps 无可比拟的灵活性。 寻找一个齐全填充的零碎。最好抉择一个不须要安顿在当前增加额定存储的存储平台;无需治理缓冲容量;并且没有减少复杂性。 更多内容请关注 OushuDB 小课堂 ...

March 31, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨如何成为企业架构师

企业架构师的角色被评为Glassdoor的 2022年美国最好的工作 在薪水、工作满意度和可用职位方面。然而,企业架构师是企业界最常被误会的职业之一,它逾越了业务和 IT 之间的鸿沟。企业架构师每天做什么,您须要哪些技能和教育能力从事这一职业 企业架构? 在最根本的层面上,企业架构师是组织 IT 服务和网络的保管人,保护和降级经营链各个层面的组件。这意味着要亲密关注高空 新兴趋势 理解任何可能减少价值的技术——并承受过培训和教训来分别真正的规定扭转者和行业噱头之间的区别。 正是这种智能使企业架构师怀才不遇,并使他们可能制订业务胜利所必须的业务和技术策略。他们必须决定是否应该降级、检修或齐全放弃从遗留零碎到软件的所有。他们必须与组织的各个角落同样亲密,以依据他们独特且一直变动的需要来决定哪些软件、硬件和服务最能赋予每个团队和部门势力。 不同于数据架构师,谁最终是一个数据管理员,其职责与企业架构师的职责有很大的重叠,企业架构师既是常识工作者,也是“人”工作者,因为他们依附沟通技巧来放弃整个企业架构的顺利和胜利运行. 企业架构职业的益处只管企业架构职业的要求听起来令人望而却步,但有很多理由值得付出致力: 防消退平安: 尽管一些行业和市场来来去去,但技术和 数据驱动组织在此期间,确保经验丰富的企业架构业余人员的工作平安。高薪: 许多 IT 工作的平均工资是 低得多 超出您的预期,但企业架构师的薪水通常很丰富,即便是低端支出超过 100,000 美元。灵活性: 因为企业架构师是从跨国公司到一般非营利组织的各种组织的现实抉择,因而他们不用局限于一个利基市场。即便在 IT 畛域,企业架构师技能组合的范畴和可塑性也意味着成熟的专业人士能够抉择世界上的蓝筹技术工作。企业架构师的外围职责首先,企业架构师必须治理组织的技术基础架构——也就是说,他们必须无效地构建组织范畴内的经营模型,以满足企业的需要和指标。 一旦这些模型就位,架构师必须在问题呈现之前保持警惕,通过开发 合规办法 落实到各部门。无论这些是否波及变更管制、数据存储需要或其余 IT 要求,企业架构师都应监督向任何新协定的平稳过渡,并且必须小心翼翼地使它们与公司的任何更大变动保持一致,无论是内部还是外部驱动。 为了实现这些职责的循环,企业架构师须要对所有 IT 网络和零碎进行继续评估,以铲除所有弱点和危险点,并依据须要通过改良架构模型来更新整个流程。 作为企业架构师的典型一天正如职位名称所暗示的那样,企业架构师的职责是依据组织的关注点和愿景一直协调任意数量的实时事件和各种数据渠道。在日常工作中,这须要亲密关注行将到来的打算和员工遇到的阻碍,而后计算如何依据企业的现有经营来掂量这些新事件。后果如何? 企业架构师必须无效地充当业务的中枢神经零碎,确保其各个器官更加谐和地运作——即便这些本地渠道彼此无奈沟通。正如您所意料的那样,这简直总是归结为连续不断的会议,这些会议从路线图定位和长期策略等大局问题到更多具体实施和灭火。 例如,企业架构师的工作可能是迁徙已被迁徙的一部分操作。 以前在外部执行到基于云的 第三方提供商。他或她须要依据业务的长期和短期驱动来配置此我的项目,评估公司以后技术能力在经营转变方面的施展状态,评估这些能力是否最好用新 IT 进行革新解决方案,最初与任意数量的员工和团队就如何将这些评估转化为口头我的项目进行协调。其中一些将在个别会议中发挥作用,但大部分工作流程将波及简化不同团队之间的沟通渠道。 所需的教育和认证尽管工作中须要的宽泛技能和跳出框框的思维形式容许肯定水平的灵活性,但潜在企业架构师的招聘人员通常会寻找计算机科学或相干学科的本科学位。领有硕士学位的企业架构师将领有更松软的前景(以及更高的薪水)。求职者应至多在 IT 畛域工作五年——最好是十年或更长时间。 计算机科学蕴含宽泛的能力,因而合成胜利的企业架构师的要害技能很有用: 优良的沟通能力,可能领导跨部门的团队解决治理层面呈现的问题的能力,而不仅仅是 IT 外部的问题理解零碎架构, 云计算, 和技术策略倒退具备数据洽购、业务开发、审计和合规性、零碎架构和 SQL 方面的教训随着企业架构师越来越受追捧,有抱负的专业人士将从简历中受害 有认证 定制适宜相干职位的技能。讲习班和认证课程既能够负担得起又能够是短期的,因而能够依据特定的工作机会加入速成课程。 以下是企业架构师待业市场中一些最现实的认证: 公开组 TOGAF 9 红帽认证架构师 (RHCA)Dell Technologies Proven Professional 打算认证信息系统平安专家 (CISSP)AWS 认证解决方案架构师更多内容请关注 OushuDB 小课堂 ...

March 31, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨七项基本数据管理技能

随着企业持续推广一种文化 数据民主化,治理数据迁徙和确保安全数据拜访的无效策略正在衰亡。 数据中心 据预测,往年大型企业和小型组织中多达 50% 的日常业务经营都须要高级数据管理技能。 数据中心对于存储和治理企业每天生成的一直增长的数据量变得越来越重要。因而,弱小的数据管理技能对于 数据管理业余人员 胜利。这些业余人员必须可能治理大型数据集,反对预测剖析并从数据中辨认有价值的见解。当组织可能取得洞察力时,数据将成为无价的资产 推动决策和策略 在他们的业务中。 出于这个起因,具备要害数据管理技能的业余人员受到心愿从他们的贵重见解中受害的组织的高度追捧。当初是组织投资于可能反对其数据管理需要的经验丰富且常识渊博的人员的时候了。要精通数据管理,须要对基本概念进行适当的培训和理解。 公司应确保他们领有训练有素的人员来解决他们的数据管理工作。这些员工对与数据管理相干的不同业务操作有根本的理解也很重要,例如施行地方数据库、保护记录清单以及平安存储客户信息。 数据管理培训:必备技能数据管理正日益成为 时尚 当初,企业通过更好地理解和利用客户数据来努力实现利润最大化。 对于那些心愿在数据管理畛域起步的人来说,第一步是取得其中一个认证 大数据技术 而后通过学习更高级的数据迷信或机器学习课程,致力成为专家。 随着大数据分析的日益遍及,对顶尖数据科学家的需要也越来越高——那些在机器学习、自然语言解决和深度学习等畛域具备高级剖析能力的人将备受追捧。 数据管理是跟踪胜利工作场合经营所需的所有信息的重要形式。通过适当的培训,员工能够精确地解释从各种起源收集的大量数据并做出相应的决策。这能够帮忙雇主更无效地实现其业务指标。 到 2023 年,数据管理技能包含依据收集的数据制订和执行管理策略的能力,以及 沟通和合作技巧 与利益相关者单干。 然而,仅仅领有这些高级技能还不够;雇主越来越多地寻找那些理解根本数据管理技能重要性的人。其中包含理解公司的要求、数据收集和存储过程,以及应用适当的工具来剖析数据。这种了解对于任何胜利的数据科学家都至关重要,因为它使他们可能就如何最好地利用收集到的信息做出理智的决定。 数据管理的胜利秘诀到 2023 年,数据管理技能的需求量很大,因为须要这些技能来填补越来越多的治理职位,这些职位须要具备弱小数据迷信背景的候选人。 管理层职位 将须要深刻理解数据品质和数据治理,以及元数据管理服务的常识。杰出的书面和口头沟通能力也是胜利的必要条件。行业分析师预测,随着越来越多的企业施行简单的数据驱动策略,对这些角色的需要将持续减少。 要进步数据管理技能,能够加入与该主题相干的课程或加入研讨会。此外,浏览无关该主题的文章或进行各种数据管理练习也是一种很好的办法。候选人能够通过在简历中蕴含一个具体介绍数据库和其余模式的数据存储模式的相干教训的历史局部来突出数据管理技能。 在面试过程中,数据管理候选人应该可能解释他们治理数据的办法,并提供他们过来何时应用数据驱动的决策并产生可量化后果的具体故事。 员工要想胜利治理团队,就必须具备解决问题的能力和适应能力。强调沟通技巧和探讨已获得的可量化后果也很重要。 理解行业内的以后趋势也有利于职业倒退机会。到 2023 年,数据管理技能对于放弃竞争力和推动价值至关重要。该畛域的业余人员必须可能利用无关的新技能 数据品质、数据治理和主数据。 借助训练有素的数据管理员,组织能够通过缩小日常治理工作来降低成本,同时依然可能从其数据湖中收集见解。 胜利的七项基本技能2023 年,招聘经理在简历中寻找的四个关键词是文档治理、剖析、数据可视化和数据库治理。以下是雇主须要的七项根本数据管理技能: 对可用数据的深刻理解以及进行数据库治理和数据查问的适当技能卓越的数学技能来剖析数据,以便为决策提供有意义的见解可能保护和进步数据品质,确保遵循数据治理准则,并提供元数据管理服务超过描述性、预测性、规范性和诊断性剖析的数据分析技能,以及解决问题的能力,以找到可能使组织受害的解决方案理解算法和编程语言,如 Python、R 和 SQL数据工具常识 高效和无效地治理大量数据。到 2023 年,将博得待业市场的数据迷信工具包含 Hadoop、Apache Spark 和 Python。此外,理解应用不同软件程序存储信息和解释后果的工具对于 2023 年的胜利至关重要治理团队和与其余利益相关者合作的卓越沟通和领导能力第八项数据管理技能能够是畛域常识。例如,财务数据经理应该可能应用高级数据管理工具剖析财务数据并答复问题。财务数据经理的简历应包含数据分析教训。畛域常识能够使候选人不同凡响。 除了领有必要的 技术能力, 候选人取得 SAS 或 Hadoop 等技术方面的认证十分重要。他们还必须可能与团队和业务部门单干,以反对公司的总体目标。信息系统常识对于任何数据管理候选人来说也是相对必要的。凭借这些技能,求职者能够无效地向共事和雇主传播他们的指标。 除了硬技能外,数据经理还须要软技能,包含沟通和合作,以便与其余团队和业务部门建立联系。 更多内容请关注 OushuDB 小课堂

March 31, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨快速发展的数据安全和隐私环境中的企业要点

随着越来越多的企业利用尖端工具和技术退出数字化转型的行列,数据安全和隐衷方面的挑战也随之减少。 尽管 客户隐衷 对咱们大多数人来说,平安和平安仿佛能够调换,两者是截然不同但又互相关联的概念。理解两者之间的确切区别无疑是事不宜迟,因为数据安全和隐衷法,包含 通用数据保护条例 和 CCPA,正变得越来越严格。 然而,如果企业不思考恪守这些法律,这意味着什么?漠视这些法律/合规性可能会使组织容易受到诉讼和巨额罚款。 因为每个企业都收集了大量的客户数据,因而平安地治理和存储敏感的客户数据成为他们的责任。让咱们揭开古代数字世界中平安和隐衷的各个方面,并理解企业须要做好哪些筹备。 理解数据安全和隐衷之间的区别当咱们议论数据隐衷时,都是对于通过让集体管制其数据的收集、应用或共享形式来确保集体数据的偏心应用。 然而,相同,数据安全性确保数据安全免受未经受权的拜访。这意味着敏感数据以一种只有受权人员能力拜访的形式失去爱护。 然而,组织在收集用户信息时必须确保数据安全和隐衷。否则,他们将不得不面对与违规相干的几个问题。 数据安全和隐衷合规 因为客户当初理解品牌应用其个人信息的形式,因而他们总是更违心依赖可提供足够安全性和隐衷的可信赖企业。 简而言之,如果您的企业不恪守寰球数据保护和隐衷法规,客户将无奈信赖您。制订这些法规是为了确保安全地收集、存储和治理每一位客户信息。此外,对于企业来说,在收集个人信息以进一步改善其整体业务之前,再次确保他们已取得客户端的批准至关重要。未能满足数据保护和隐衷要求的企业可能会被处以巨额罚款和诉讼,从而导致微小的经济损失。 另一方面,治理客户敏感集体数据的挑战可能进一步使企业面临危险,因为网络犯罪分子总是在寻找能够在暗网上发售以获取经济利益的受损客户详细信息。 一旦组织成为网络攻击的牺牲品,它可能会损失数百万美元,并最终侵害其在寰球市场的名誉。因而,企业必须恪守各种 规定 以确保最高程度的客户信赖并防止罚款。 数据本地化的疾速采纳除了数据隐衷和平安合规性之外,数据本地化的疾速采纳也减少了企业扩大其寰球影响力的挑战。 数据本地化是指将数据保留在其起源的天文边界内的做法。例如,如果企业从寓居在美国的客户那里收集用户数据,则数据的物理存储不应逾越美国边界,而必须存储在本地。 在寰球范畴内,75% 的国家曾经施行了一些数据本地化法规。重要的影响包含 数据治理、IT 脚印和数据架构。 尽管本地化规定通常能够防止网络立功,包含客户身份盗用或隐衷问题,但胜利与否也与企业存储和治理敏感数据的形式有很大关系。 不恪守数据本地化规范的企业可能会失去特定国家或州的潜在客户——并可能最终在将来几年内扩大业务的区域无限。 数据隐衷和平安的竞争劣势 除了认真思考数据隐衷和平安的监管机构之外,消费者当初更加知情,并心愿他们的敏感数据失去认真解决。 毫无疑问,数字信赖是一个重大的问题,可能建设客户信赖的品牌不应遗记基于数据处理的消费者信赖的关键作用。 因而,解决与数据隐衷和平安相干问题的组织在各个领域具备显着的竞争劣势,包含: 优化的客户体验: 组织能够提供个性化的客户旅程,并依据客户的偏好和行为提供倡议。这会产生更多的潜在客户并进步转化率,因为客户依赖于正确利用其数据的品牌。 更好的客户保留率: 因为数据隐衷和平安无疑会减少您的客户群,它们还能够确保您保留忠诚的客户并避免转换。客户喜爱长期应用提供弱小安全性并且在客户数据隐衷和平安方面不断创新和适应的品牌。寰球市场名誉: 尽管蹩脚的数据隐衷和平安做法可能会侵害您的品牌名誉,但激发其真正后劲可能有助于打造寰球知名品牌。恪守多项数据安全和隐衷合规性的企业在寰球范畴内越来越受到关注。 论断 数据隐衷和平安格局正在迅速倒退,企业须要理解其重要性,并尽最大致力采纳必要的法规。 不认真对待客户数据隐衷和平安的企业将在将来几年落后于竞争对手,并最终面临严重后果。 更多内容请关注 OushuDB 小课堂

March 29, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨七种基本数据管理技能

随着企业持续促成一种文化数据民主化,治理数据迁徙和确保安全数据拜访的无效策略正在积攒能源。IDC预测,往年大型企业和小型组织高达50%的日常业务经营都须要先进的数据管理技能。 数据中心对于存储和治理企业每天产生的越来越多的数据变得越来越重要。因而,弱小的数据管理技能对于数据管理专业人士胜利。这些专业人士必须可能治理大型数据集,以及反对预测剖析并从数据中辨认有价值的见解。当组织可能取得见解时,数据成为一种贵重的资产推动决策和策略在他们的生意中。 因而,具备要害数据管理技能的业余人员受到心愿从其贵重见解中受害的组织的高度追捧。当初是时候让组织投资于经验丰富、常识渊博的人员,他们可能反对他们的数据管理需要。须要适当的培训和基本概念常识能力精通数据管理。 公司应确保他们领有训练有素的人员来解决他们的数据管理工作。同样重要的是,这些员工对与数据管理相干的不同业务经营有根本的理解,例如施行地方数据库、保护记录清单和平安地存储客户信息。 数据管理培训:必要的技能数据管理正变得越来越通用当初,企业致力通过更好地理解和利用客户数据来实现利润最大化。 对于那些心愿在数据管理畛域起步的人来说,第一步是取得其中一个认证大数据技术而后通过学习数据迷信或机器学习的更高级课程,致力成为专家。 随着大数据分析的日益遍及,对顶级数据科学家的需要也越来越高——那些在机器学习、自然语言解决和深度学习等畛域领有高级剖析能力的人将受到高度追捧。 数据管理是跟踪胜利工作场合经营所需的所有信息的重要办法。通过适当的培训,员工能够精确解释从各种起源收集的大量数据,并做出相应的决策。这能够帮忙雇主更无效地实现他们的商业指标。 2023年,数据管理技能包含依据收集的数据制订和执行管理策略的能力,以及沟通和合作技能与利益相关者单干。 然而,仅仅领有这些高级技能是不够的;雇主越来越多地寻找那些理解根本数据管理技能重要性的人。这些包含理解公司的要求、数据收集和存储流程,以及应用适当的工具来剖析数据。这种了解对任何胜利的数据科学家都至关重要,因为它使他们可能就如何最好地利用收集的信息做出理智的决定。 数据管理胜利的秘诀2023年,数据管理技能的需求量很大,因为须要这些技能来填补越来越多的管理工作,这些工作须要具备深厚数据迷信背景的候选人。治理级别职位须要对数据品质和数据治理有深刻的理解,以及对元数据管理服务有深刻的理解。优良的书面和口头沟通能力也是胜利所必须的。行业分析师预测,随着更多企业施行简单的数据驱动策略,对这些角色的需要将持续减少。 为了进步数据管理技能,人们能够加入与该主题相干的课程或研讨会。此外,浏览无关该主题的文章或练习各种数据管理练习是一个很好的办法。候选人能够通过在简历上增加一个历史局部来突出数据管理技能,该局部具体介绍了数据库和其余模式数据存储的相干教训。 在面试过程中,数据管理候选人应该可能解释他们治理数据的办法,并提供他们过来何时应用数据驱动的决策,从而产生可量化后果的具体故事。 员工要想胜利治理团队,就必须可能体现出解决问题的技能和适应能力。强调沟通技巧并探讨已获得的可量化成绩也很重要。 理解行业内的最新趋势也有利于职业倒退机会。2023年,为了放弃竞争力和推动价值,数据管理技能至关重要。该畛域的专业人士必须可能利用无关数据品质、数据治理和主数据。 有了训练有素的数据经理,组织能够通过缩小日常治理工作来降低成本,同时依然可能从数据湖中收集见解。 胜利的七项基本技能2023年,招聘经理在简历中寻找的四个要害短语是文档治理、剖析、数据可视化和数据库治理。以下是雇主须要的七种根本数据管理技能: 深刻理解可用数据以及进行数据库治理和数据查问的适当技能剖析数据的卓越数学技能,以便为决策目标提供有意义的见解可能保护和进步数据品质,确保数据治理准则失去恪守,并提供元数据管理服务数据分析技能超过了描述性、预测性、规定性和诊断性剖析,以及解决问题的能力,以找到可能使组织受害的解决方案理解Python、R和SQL等算法和编程语言数据工具常识高效无效地治理大量数据。2023年,旨在博得待业市场的数据迷信工具包含Hadoop、Apache Spark和Python。此外,理解存储信息和用不同软件程序解释后果的工具对于2023年的胜利至关重要卓越的沟通和领导技能,以治理团队并与其余利益相关者单干第八项数据管理技能能够是畛域常识。例如,财务数据经理应该有能力剖析财务数据,并应用高级数据管理工具答复问题。财务数据经理的简历应包含数据分析教训。畛域常识能够将候选人与其余候选人辨别开来。 除了领有必要的技术技能,对于候选人来说,领有SAS或Hadoop等技术的认证很重要。他们还必须可能与团队和业务部门单干,以反对公司的总体目标。对于任何数据管理候选人来说,信息系统常识也是相对必须的。有了这些技能,候选人能够无效地向同龄人和雇主传播他们的指标和目标。 除了硬技能外,数据经理还须要包含沟通和合作在内的软技能,以便与其余团队和业务部门建立联系。 更多内容请关注 OushuDB 小课堂

March 29, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨数据管道测试自动化的最佳实践

数据集成过程与任何其他软件一样受害于自动化测试。然而,找到一个具备一套适合的自动测试的数据管道我的项目是常见的。即便一个我的项目有很多测试,它们通常也是非结构化的,不传播其目标,并且难以运行。一个特点数据管道开发是频繁公布高质量数据,以取得用户反馈和承受。在每次数据管道迭代完结时,预计下一阶段的数据都是高质量的。自动测试对于数据管道的集成测试至关重要。在高度迭代和适应性强的开发环境中,手动测试是不切实际的。手动数据测试的次要问题首先,它破费的工夫太长,是管道频繁交付的要害克制因素。次要依赖手动测试的团队最终会将测试推延到专门的测试期,容许谬误积攒。其次,手动数据管道测试不足以进行回归测试。数据管道测试的自动化须要初步布局和继续的怠惰,但一旦技术团队采纳自动化,我的项目的胜利就更有保障。数据管道的变体提取、转换和加载(ETL)提取、加载和转换(ELT)数据湖,数据仓库管道实时管道机器学习管道用于测试自动化思考的数据管道组件数据管道由几个组件组成,每个组件负责特定工作。数据管道的元素包含:数据起源:数据的起源数据摄取:从数据源收集数据的过程数据转换:将收集的数据转换为可用于进一步剖析的格局的过程数据验证/验证:确保数据精确和统一的过程数据存储:将转换和验证的数据存储在数据仓库或数据湖中的过程数据分析:剖析存储数据以识别模式、趋势和见解的过程自动化数据管道测试的最佳实际什么以及何时自动化(甚至如果您须要自动化)是测试(或开发)团队的要害决策。为自动化抉择适合的产品个性在很大水平上决定了自动化的胜利。在自动测试数据管道时,最佳实际包含:定义明确而具体的测试指标:在开始测试之前,必须定义您心愿通过测试实现的指标。这样做将帮忙您创立无效、高效的测试,提供有价值的见解。测试数据管道的所有工作流程:数据管道通常由几个组件组成:数据摄取、解决、转换和存储。重要的是要测试每个组件,以确保数据通过管道的适当和安稳流动。应用可信的测试数据:在测试数据管道时,应用模仿事实世界场景的事实数据很重要。这将有助于辨认解决不同数据类型时可能呈现的任何问题。应用无效的工具实现自动化:这能够通过测试框架和工具来实现。定期监控管道:即便在测试实现后,也必须定期监控管道,以确保其按预期工作。这将有助于在问题成为关键问题之前辨认它们。让利益相关者参加:让数据分析师、数据工程师和业务用户等利益相关者参加测试过程。这将有助于确保测试对所有利益相关者都具备相关性和价值。保护文档:保护形容测试、测试用例和测试后果的文档很重要。这将有助于确保测试能够随着工夫的推移进行复制和保护。小心;应防止主动更改不稳固特色。明天,任何已知的业务工具或一组办法/流程都不能被视为数据管道的残缺端到端测试。思考您的测试自动化指标数据管道测试自动化被形容为应用工具来管制1)测试执行,2)将理论后果与预测后果进行比拟,以及3)设置测试先决条件和其余测试管制和测试报告性能。一般来说,测试自动化波及应用正式测试过程的现有手动过程自动化。尽管手动数据管道测试能够揭示许多数据缺点,但它们既费劲又耗时。此外,手动测试在检测某些缺点方面可能有效。数据管道自动化波及开发测试程序,否则必须手动执行。一旦测试自动化,它们能够疾速反复。对于使用寿命长的数据管道来说,这通常是最具老本效益的办法。在管道的生命周期中,即便是小的修复或加强也可能导致之前工作的性能中断。在数据管道开发中集成自动化测试带来了一系列独特的挑战。以后的自动化软件开发测试工具不容易适应数据库和数据管道我的项目。各种各样的数据管道架构使这些挑战进一步复杂化,因为它们波及多个数据库,须要对数据提取、转换、加载进行非凡编码,数据清理、数据聚合和数据丰盛。测试自动化工具可能很低廉,通常与手动测试一起应用。然而,从久远来看,它们可能会变得具备老本效益,特地是在回归测试中重复应用时。测试自动化的频繁候选者BI报告测试商业、政府合规数据聚合解决数据清理和归档数据品质测试数据对账(例如,从源到指标)数据转换尺寸表数据加载端到端测试ETL,ELT验证和验证测试事实表数据加载文件/数据加载验证增量负载测试负载和可扩展性测试短少文件、记录、字段性能测试援用完整性回归测试平安测试源数据测试和剖析分期,ODS数据验证单元、集成和回归测试因为解决的复杂性以及应验证的源和指标的数量,这些测试的自动化可能是必要的。对于大多数我的项目,数据管道测试过程旨在验证和施行数据品质。明天可用的各种数据类型带来了测试挑战明天有各种各样的数据类型,从文本、数字和日期等传统结构化数据类型到音频、图像和视频等非结构化数据类型。此外,各种类型的半结构化数据,如XML和JSON,被宽泛用于Web开发和数据交换。随着物联网(IoT)的呈现,各种数据类型激增,包含传感器数据、地位数据和机器对机器通信数据。随着这些数据类型的提取和转换,如果没有适当的工具,测试可能会变得更加简单。这导致了新的数据管理技术和剖析技术,如流解决、边缘计算和实时剖析。图1显示了当今宽泛应用的数据类型示例。在测试所需的转换是否正确执行时,大量代表了挑战。因而,数据业余人员必须精通宽泛的数据类型,并可能适应测试新兴趋势和技术。评估管道组件以进行可能的自动测试麻利和其余古代开发的一个要害因素是自动化测试。咱们能够将这种意识利用于数据管道。数据管道测试的一个重要方面是,执行的测试数量将持续减少,以查看减少的性能和保护。图2显示了能够在数据管道中利用测试自动化的许多畛域。图2:从数据管道的开始到完结测试“热点”在施行测试自动化时,数据能够从源层通过数据管道解决跟踪到数据管道中的负载,最初到前端应用程序或报告。假如在前端应用程序或报告中发现损坏的数据。在这种状况下,主动套件的执行能够帮忙更快地确定单个问题是否位于数据源、数据管道流程、新加载的数据管道数据库/数据集市或商业智能/剖析报告中。强调疾速辨认简单数据管道架构中的数据和性能问题,为进步开发效率、缩短构建周期和满足公布规范指标提供了一个要害工具。决定自动化的测试类别窍门是确定什么应该自动化以及如何解决每项工作。自动化测试时应思考一系列问题,例如:自动化测试的老本是多少?谁负责测试自动化(例如,开发、QA、数据工程师)?应该应用哪些测试工具(例如开源、供应商)?所选工具会满足所有冀望吗?测试后果将如何报告?谁来解释测试后果?测试脚本将如何保护?咱们将如何组织脚本以不便和精确拜访?图3显示了理论我的项目教训中手动与主动测试用例的持续时间(测试执行、缺点辨认和报告)示例。图3:比拟手动和自动测试执行持续时间。主动数据管道测试旨在涵盖加载数据管道的最要害性能——源数据和指标数据的同步和对账。自动化测试的益处和局限性 测试自动化挑战报告测试:通过自动化测试商业智能或剖析报告数据复杂性:数据管道测试通常波及简单的数据结构和转换,这些构造和转换可能具备挑战性的自动化,并且须要专业知识。管道复杂性:数据管道可能很简单,可能波及多个解决阶段,这可能对测试和调试具备挑战性。此外,对管道一部分的更改可能会在上游产生意想不到的结果。测试自动化的益处更快地执行测试用例:自动化可能会放慢测试场景的施行。创立一个可重用的测试套件:一旦测试脚本与自动化工具一起运行,它们就能够备份,以便于回顾和重用。简化测试报告:许多自动化工具的一个乏味性能是它们可能生成报告和测试文件。这些性能精确示意数据状态,明确辨认缺点,并用于合规性审计。缩小人员配备和返工老本:在纠正缺点后,花在手动测试或从新测试上的工夫能够花在IT部门内的其余动作上。潜在的局限性不能齐全取代手动测试:尽管自动化可用于各种应用程序和测试用例,但它不能齐全取代手动测试。简单的测试用例依然存在,自动化不会捕捉所有内容,对于用户验收测试,最终用户通常必须手动执行测试。因而,在此过程中正确联合主动和手动测试至关重要。工具老本:商业测试工具可能很低廉,这取决于它们的大小和性能。从外表上看,企业可能会将此视为不必要的老本。然而,仅重复使用就能迅速使其成为一项资产。培训老本:测试人员不仅应该承受编程培训,还应该安顿自动测试。自动化工具应用起来可能很简单,可能须要用户培训。自动化须要布局、筹备和专用资源:自动化测试的胜利次要取决于准确的测试要求和测试开始前测试用例的精心开发。可怜的是,测试用例开发依然次要是一个手动过程。因为每个组织和数据管道应用程序都是举世无双的,许多主动测试工具不会创立测试用例。数据管道测试自动化入门并非所有数据管道测试都适宜自动化。评估上述情况,以确定哪些类型的自动化将有利于您的测试过程,以及须要多少。评估您的测试要求,并确定能够通过自动测试实现的效率收益。投入大量工夫进行回归测试的数据管道团队将受害最大。为自动测试开发一个商业案例。IT必须首先提出理由,向企业传播价值。评估选项。在评估IT部门的以后状态和要求后,确定哪些工具与组织的测试流程和环境保持一致。选项可能包含供应商、开源、外部或混合工具。论断随着测试自动化迅速成为手动测试的重要替代品,越来越多的企业正在寻找工具和策略来胜利施行自动化。这导致了基于Appium、Selenium、Katalon Studio和其余许多工具的测试自动化工具的显著增长。然而,数据管道和数据工程师、BI和质量保证团队必须具备正确的编程技能能力充分利用这些自动化工具。许多IT专家预测,测试人员和开发人员之间的常识差距必须并且将会一直放大。与传统的手动办法相比,主动数据管道测试工具能够显著缩小测试代码的工夫。随着数据管道开发能力的一直进步,对更全面和古代的自动化数据测试的需要也在减少。更多内容请关注 OushuDB 小课堂

March 29, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨在快速发展的数据安全和隐私环境中为企业提供要点

随着越来越多的企业通过利用尖端工具和技术进入数字化转型的行列,数据安全和隐衷挑战也减少了。 即便客户隐衷对咱们大多数人来说,安全性仿佛是能够调换的,两者都是显著不同但互相关联的概念。晓得两者之间的确切区别无疑是当事急需,因为数据安全和隐衷法,包含GDPR和CCPA,正变得越来越严格。 然而,如果企业不思考恪守这些法律,这意味着什么?漠视这些法律/恪守规定可能会使组织容易受到诉讼和巨额罚款。 因为每个企业都收集成堆的客户数据,因而他们有责任平安地治理和存储敏感的客户数据。让咱们揭开古代数字世界中平安和隐衷的各个方面,并理解企业须要筹备什么。 理解数据安全和隐衷之间的区别当咱们议论数据隐衷时,都是为了通过提供集体管制如何收集、应用或共享集体数据来确保集体数据的偏心应用。 然而,相同,数据安全能够确保数据安全免受未经受权的拜访。这意味着敏感数据以只有受权人员能力拜访的形式进行爱护。 然而,组织在收集用户信息时必须确保数据安全和隐衷。否则,他们必须面对几个与不合规无关的问题。 数据安全和隐衷合规性因为客户当初晓得品牌应用个人信息的形式,他们总是更违心依赖提供足够平安和隐衷的值得信赖的企业。 简而言之,如果您的企业不恪守寰球数据保护和隐衷法规,客户就无奈信赖您。这些法规的制订是为了确保安全收集、存储和治理每条客户信息。此外,企业必须再次确保他们已取得客户批准,而后能力收集个人信息以进一步应用,以改善其整体业务。如果不合乎数据保护和隐衷要求,企业可能有权受到巨额罚款和诉讼,从而导致重大财务损失。 另一方面,治理客户敏感集体数据的挑战可能会进一步使企业面临危险,因为网络犯罪分子总是在寻找被盗的客户详细信息,这些详细信息能够在暗网上发售以取得财务利益。 一旦一个组织成为网络攻击的牺牲品,它可能会损失数百万美元,并最终玷污其在寰球市场的名誉。因而,企业必须恪守各种规定确保客户最高级别的信赖并防止罚款。 数据本地化的疾速采纳除了数据隐衷和平安合规性外,数据本地化的疾速采纳减少了企业扩充寰球覆盖范围的挑战。 数据本地化是指将数据放弃在其起源的天文边界内的做法。例如,如果企业从寓居在美国的客户那里收集用户数据,则数据的物理存储不应逾越美国边界,必须存储在本地。 在世界各地,75%的国家曾经施行了一些数据本地化法规。重大影响包含数据治理、IT脚印和数据架构。 尽管本地化规定通常能够防止网络立功,包含客户身份偷盗或隐衷问题,但胜利也与企业如何存储和治理敏感数据有很大关系。 未能恪守数据本地化规范的企业可能会失去特定国家或州的潜在客户,并最终在将来几年扩充业务的畛域无限。 数据隐衷和平安的竞争劣势除了认真思考数据隐衷和平安的监管机构外,消费者当初更理解状况,并冀望认真解决他们的敏感数据。 毫无疑问,数字信赖是一个重大的问题,可能建设客户信赖的品牌不应该遗记基于数据处理的消费者信赖的关键作用。 因而,解决数据隐衷和平安相干问题的组织在各个领域具备显著的竞争劣势,包含: 优化的客户体验:组织能够提供个性化的客户旅程,并依据客户的偏好和行为提供倡议。这导致更多的潜在客户生成和更高的转化率,因为客户依赖于正确利用其数据的品牌。更好的客户保留率:因为数据隐衷和平安无疑会减少您的客户群,它们还能够确保您保留忠诚客户并避免切换。客户喜爱长期领有一个提供弱小安全性的品牌,并在客户数据隐衷和平安方面一直走上翻新和适应的路线。寰球市场名誉:尽管蹩脚的数据隐衷和平安实际可能会玷污您的品牌名誉,但征引其真正的后劲能够帮忙建设一个寰球备受推崇的品牌。保持几种数据安全和隐衷合规性的企业在寰球范畴内越来越受到关注。论断数据隐衷和平安格局正在迅速倒退,企业须要理解其重要性,并尽最大致力通过必要的法规。 不认真对待客户数据隐衷和平安的企业在将来几年将落后于竞争对手,并最终面临严重后果。 更多内容请关注 OushuDB 小课堂

March 29, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨迁移成功到云端的-7-个步骤

销售人员承诺,迁徙到云将带来更绿的牧场,让咱们的口袋里剩下更多的钱。这仿佛是可能的,所以咱们进行切换并期待。然而,几个月的期待带来了更多雷同的后果。它仿佛没有使咱们的估算受害。这并不是因为迁徙到云端不省钱,而是因为在这个过程中须要更多的步骤。毕竟,购买种子不会主动种植庄稼;创立花园波及更多。 迁徙到云端也不例外。咱们不能只是将本地服务器切换到云端而后走开。这是确保胜利且无益的云原生转型过程并开始看到这些成绩的第一步。然而,一旦实现这些步骤,草地就会随之而来。 高德纳 宣称将服务迁徙到云为企业均匀节俭了 15% 的 IT 老本,让咱们以更少的估算取得更多的支出。只管这使得迁徙到云十分值得,但节省成本并不是迁徙到云的惟一起因,甚至不是次要起因 云原生. 在进入的许多益处之前 云迁徙,让咱们来看看胜利实现云原生转型所需的步骤: 1、设定指标: 首先打算您的指标。您须要您的组织在今天、下个月或明年之前达到哪里?10 年后你须要它在哪里?在开始迁徙之前,您如何确保这些指标统一并最适宜公司的指标和业务需要? 2、制订策略和时间表: 制订一项策略,让您为实现公司指标做好筹备,并建设一个事实的时间表来实现它。请记住,该策略须要与您的业务的总体使命保持一致,并且须要包含一段致力于为您的客户获得客户胜利的期间。 3、钻研技术: 在确定您的指标、策略和时间表之后,是时候持续抉择您的技术了。不要悭吝钻研;事后怠惰将确保您的业务获得最佳后果。您的技术、平台和供应商最终将取决于您在第一步和第二步中设定的指标和策略。不要遗记,这项新技术将在将来几年现实地与您的公司一起应用,因而有必要抉择可能提供灵活性、敏捷性和长期价值的解决方案。 4、抉择适合的人: 抉择适合的人来取得这份工作至关重要,并且理解您无奈单独实现这项工作将在您开始迁徙时节俭您的工夫和精力。您曾经有了一个杰出的我的项目,制订了全面的指标和间接的策略,并将最适宜您的业务的工具增加到您的购物车中。当初,是时候筛选最好的团队来实现这项工作了。尽管领有一家充斥酷爱云计算的蠢才的公司会很好,但虔诚和称职的共事也会做得很好。如果疾速实现工作是重中之重,那么将托管云提供商或云专家退出您的名册将放慢您的云原生转型过程。 5、优化流程: 为了最大化投资回报率,您的团队应该做的第一件事是弄清楚他们须要优化和自动化哪些流程和应用程序。您可能想晓得为什么不应该只迁徙每个应用程序?迁徙应该只用于提高效率,并不是每个流程和应用程序在迁徙到云时都会更有效率。如果您不确定哪些平台能够或没有从迁徙中受害,那么当初是分割云专家并找出答案的好时机。 6、迁徙工夫: 您曾经设定了指标,制订了策略,抉择了最佳技术,组建了现实的团队,并确定了应该迁徙哪些流程和应用程序。当初,你筹备好冒险了。花工夫实现第一步到第五步将确保无缝和疾速的过渡,并避免您的企业成为不必要的谬误的牺牲品。 7、治理:你还没有实现!技术世界瞬息万变,您须要一直尝试新事物、测试现有平台并优化您的零碎,以确保您一直实现本人的指标。请记住,向云原生的过渡是一个继续的变动,而不仅仅是一次性的修复。如果你的云原生体验没有达到你的冀望,不要放弃;引入云专家让事件重回正规。 这样,您就能够停下来观赏鲜花了。当然,与任何花园一样,须要照料以确保它在每个节令持续成长,所以肯定要做好第七步。惟一剩下的就是宣传云转型。重要的是,全世界(尤其是您组织中的所有利益相关者)都晓得,云迁徙只是实现数据、剖析和安全性现代化和优化的更大旅程的第一步。正如咱们当初所知,在没有施行指标、策略、正确的技术和团队、最佳流程、时间表和治理打算的状况下将服务器切换到云,会让您对迁徙感到悲观,因而请务必坚持到底以充分利用您的云之旅。 更多内容请关注 OushuDB 小课堂

March 28, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨描述性分析如何利用数据做出更好的决策

组织意识到数据能够成为弱小的业务资产,并正在投资数据分析以提供这种有价值的工具。据考据, 明天超过 95% 的组织将数据打算纳入其业务策略。然而,大多数企业在无效和高效地应用数据方面当机立断。描述性剖析是最常见的数据分析类型,精明的企业应用它来帮忙找出数据外围的“内容”。 描述性剖析是根底数据分析工具,能够简化和揭示数据集中积重难返的根本含意,它是 扭转商业世界. 描述性剖析可用于从辨认消费者趋势到确定无效年度预算的所有方面。 在本文中,咱们将钻研什么是描述性剖析及其工作原理,包含描述性剖析的三种次要类型。而后,咱们将揭示应用描述性剖析在所有部门做出更好决策的策略。 什么是描述性剖析?最简略的数据分析模式,描述性剖析是 最罕用于发现 对于数据的简略答复。通过描述性剖析能够无效地答复“产生了什么”或“这是对于什么的”等问题,使其成为揭示趋势、模式和谬误的弱小工具。描述性剖析共享手头数据的简略形容。 原始数据须要通过解决能力无效应用;首先,它必须通过描述性剖析过程。此过程可与以后或过来的数据一起应用,并且通常设置为显示企业朝着设定指标的停顿。描述性剖析能够为企业主提供有价值的数据和见解,使他们可能做出更好的决策,以建设将来的成功之路,即便 火烧眉毛的威逼 经济衰退。 描述性剖析能够跟踪业务指标以及要害绩效指标(或 KPI),例如在特定期间内购买的产品数量或自特定日期以来新客户和回头客的数量。它能够跟踪每月支出的减少和缩小,提供有用的见解作为口头的终点。 描述性剖析过程如何运作?在剖析数据之前,必须先收集数据。描述性剖析过程 从整合数据开始 从所有不同的起源到一个繁多的地位。 一旦组装实现,数据就会被清理以确保它是可信的。 此清理过程可能波及从数据集中辨认和打消反复或不残缺的数据,从而在依据存储在这些数据集中的信息做出将来决策时打消潜在问题。而后应用各种工具和软件组织和剖析数据。一些更风行的描述性剖析工具包含 SAP Analytics Cloud、SAS、Tableau、Apache Spark 和 Sisense。 尽管简短、过于简单的电子表格已经是数据分析的规范,但明天的数据分析工具为了解数据提供了更直观、更具视觉吸引力的辅助工具。不同的数据分析软件提供了交互式显示、图形和图表的选项,能够让用户轻松地与数据内容进行交互和可视化。 应用描述性剖析而其余类型的数据分析能够 提供更深刻或更以口头为导向的见解 (如预测剖析、标准剖析和诊断剖析),描述性剖析能够提供具备宽泛影响的清晰、无力的信息。 通过将数据分析带回其根本元素并答复无关数据蕴含哪些信息的简略问题,分析师能够自信地做出更理智、更简化的决策。这种类型的数据分析能够提供的形容能够领导基于性能、指标和趋势的整体业务决策。 描述性剖析天然有助于有洞察力的财务决策过程,并有助于塑造营销流动。让咱们来看看利用描述性剖析做出更好决策的四种办法。 辨认趋势描述性剖析在所有行业中最罕用来辨认和剖析趋势。例如,流媒体公司 Netflix 重大依赖数据分析 来塑造其成长和演变的方向。Netflix 的团队收集无关 Netflix 观众习惯和偏好的数据。 而后,他们应用描述性剖析软件来理解哪些电影和电视剧在任何特定时刻最受欢迎。利用这些数据,他们更进一步地弄清楚了这种媒体为何以及如何与受众建立联系,以及这些信息如何利用于将来的媒体倒退和抉择。 跟踪营销流动的胜利描述性剖析常常用于帮忙组织 塑造方向 他们的营销流动。通过发现无关新线索、新客户偏好、转化率和营销收入的信息,能够应用描述性剖析来追踪每个营销流动随时间推移的胜利和弱点。 这些数据集能够组织成图表,疾速比拟多个流动或不同工夫集的同一流动。此信息对组织内的良好决策具备更宽泛的影响。跟踪单个流动的进度能够塑造将来的营销流动,这将间接影响组织的整体生存能力。 此外,描述性剖析能够使传统营销流动和数字营销流动更严密地联合在一起,因为数据分析能够轻松辨认包含虚构和实体参加在内的趋势。联合社交媒体印象、网站页面跳出率、业余 Facebook 广告的点击次数和其余指标的剖析能够提供一个弱小的工具,通过一系列理智、理智的决策来领导营销流动的停顿方向。 监控财务任何组织都能够利用描述性剖析来 跟踪其财务状况. 企业能够建设按价值组织的惯例数据集,描述性剖析能够应用这些数据集来识别模式和趋势。例如,企业能够依据每周销售的产品数量收集定期的每周数据集。 而后,描述性剖析软件能够提供易于拜访且易于了解的图表,阐明该数据对企业整体财务状况的倡议。同样的过程能够利用于月度、季度和年度支出,揭示对同比增长和稳定性的洞察。 而后,利益相关者和管理人员能够应用这些描述性数据做出理智的抉择,包含将资金分配到哪里、购买哪些资产、在何处以及何时对产品开发进行更多投资,以及如何制订指标。通过这种形式,描述性数据提供了无关财务的“什么”问题的答案,以便高管和利益相关者能够就谁、在哪里、为什么、如何以及何时做出决策。 生成整体业务绩效洞察力除了跟踪财务状况和帮忙制订营销流动等曾经很有价值的工作外,描述性数据还能够帮忙股东和高管发现无关其整个业务绩效的见解。描述性数据能够揭示无关增长率和流失率的新模式和信息。它甚至能够解决意想不到的问题,例如员工敬业度和生产力。 描述性剖析能够揭示企业将来可能面临的危险,这能够激励高管在潜在危险成为理论问题之前做出理智的调整。 随着网络安全成为一个日益紧迫的问题,描述性剖析能够成为预防网络立功的无力工具。云中的数据泄露 只会越来越糟,并且管理人员能够应用描述性剖析过程来辨认可能的网络攻击或破绽点。 对于描述性剖析的最终想法借助描述性剖析提供的数据,利益相关者和企业主能够 做出理智的抉择对于如何放弃他们的组织成长和倒退。描述性剖析将剖析过程简化为最简略、最根本的问题,“产生了什么?” 通过这样做,描述性剖析能够为分析师提供松软的根底,加深他们对模式、趋势和将来倒退的了解。充分利用这些信息是为任何组织做出更好、更理智、更面向未来的决策的无效办法。 更多内容请关注OushuDB 小课堂

March 28, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨CDO应该如何度过他们的时间

与大多数具备特定冀望的 C-Suite 角色不同,首席数据官 (CDO) 角色依然绝对较新,这意味着它通常须要由 CDO 本人定义。这可能是坏事也可能是好事:一方面,您能够塑造本人的角色并使其举世无双,但另一方面,您可能会身兼数职,兼顾太多任务。 那么 CDO 应该如何度过他们的工夫呢?领有一个能够作为 CDO 应用和调整的框架,以帮忙阻止某些工作超时,这一点至关重要。请留神:40-30-20-10 规定。 40% 领导力当人们想到“数据领导力”时,他们通常会想到数据分析和建模等定量技能。尽管领有弱小的技术能力诚然重要,但还有一项同样重要的要害技能:与别人互动和创立社区的能力。 参加数据社区。在线和面对面地与其余数据专家分割,分享您的想法和见解,并就我的项目进行合作。 为了建设参与度和社区,致力创立一支杰出的团队并倒退团队文化。 30% 定义愿景和策略 作为一个 数据负责人,重要的是要有策略和远见,能力无效地领导你的团队。 策略是对于做出将实现预期后果的抉择,而愿景是对于确定长期指标和欲望。两者都是胜利数据管理的要害组成部分,通过理解组织的愿景,您能够创立胜利的路线图。 20% 数据执行CDO 常常陷入将大部分工夫用于数据执行的陷阱,而实际上这是一项应该委派进来的工作。尽管这在较小的数据团队中并不总是可行的,但作为 CDO,您依然须要理解您作为策略领导者的角色范畴内的内容——不要过于专一于日常执行。 10% 的集体和职业倒退无效的数据领导者一直地成长和倒退他们的集体和专业技能。 确保你总是在学习新事物。寻找培训和教育机会,浏览无关数据相干主题的文章和书籍,并加入会议和研讨会。并且,旨在成为您所在畛域和组织内的领导者。通过撰写博客文章或文章、在会议上发言、领导团聚或用户组,或者撰写书籍或白皮书来展现您的专业知识。 CDO 依然是一个 比拟新的角色 在商业世界中,往往会让人手足无措。40-30-20-10 指南能够帮忙您确定工作的优先级,同时让您成为卓越的 CDO! 更多内容请关注 OushuDB 小课堂

March 28, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨快速发展的数据安全和隐私环境中的企业要点

随着越来越多的企业利用尖端工具和技术退出数字化转型的行列,数据安全和隐衷方面的挑战也随之减少。 尽管 客户隐衷 对咱们大多数人来说,平安和平安仿佛能够调换,两者是截然不同但又互相关联的概念。理解两者之间的确切区别无疑是事不宜迟,因为数据安全和隐衷法,包含 通用数据保护条例 和 CCPA,正变得越来越严格。 然而,如果企业不思考恪守这些法律,这意味着什么?漠视这些法律/合规性可能会使组织容易受到诉讼和巨额罚款。 因为每个企业都收集了大量的客户数据,因而平安地治理和存储敏感的客户数据成为他们的责任。让咱们揭开古代数字世界中平安和隐衷的各个方面,并理解企业须要做好哪些筹备。 理解数据安全和隐衷之间的区别当咱们议论数据隐衷时,都是对于通过让集体管制其数据的收集、应用或共享形式来确保集体数据的偏心应用。 然而,相同,数据安全性确保数据安全免受未经受权的拜访。这意味着敏感数据以一种只有受权人员能力拜访的形式失去爱护。 然而,组织在收集用户信息时必须确保数据安全和隐衷。否则,他们将不得不面对与违规相干的几个问题。 数据安全和隐衷合规 因为客户当初理解品牌应用其个人信息的形式,因而他们总是更违心依赖可提供足够安全性和隐衷的可信赖企业。 简而言之,如果您的企业不恪守寰球数据保护和隐衷法规,客户将无奈信赖您。制订这些法规是为了确保安全地收集、存储和治理每一位客户信息。此外,对于企业来说,在收集个人信息以进一步改善其整体业务之前,再次确保他们已取得客户端的批准至关重要。未能满足数据保护和隐衷要求的企业可能会被处以巨额罚款和诉讼,从而导致微小的经济损失。 另一方面,治理客户敏感集体数据的挑战可能进一步使企业面临危险,因为网络犯罪分子总是在寻找能够在暗网上发售以获取经济利益的受损客户详细信息。 一旦组织成为网络攻击的牺牲品,它可能会损失数百万美元,并最终侵害其在寰球市场的名誉。因而,企业必须恪守各种 规定 以确保最高程度的客户信赖并防止罚款。 数据本地化的疾速采纳除了数据隐衷和平安合规性之外,数据本地化的疾速采纳也减少了企业扩大其寰球影响力的挑战。 数据本地化是指将数据保留在其起源的天文边界内的做法。例如,如果企业从寓居在美国的客户那里收集用户数据,则数据的物理存储不应逾越美国边界,而必须存储在本地。 在寰球范畴内,75% 的国家曾经施行了一些数据本地化法规。重要的影响包含 数据治理、IT 脚印和数据架构。 尽管本地化规定通常能够防止网络立功,包含客户身份盗用或隐衷问题,但胜利与否也与企业存储和治理敏感数据的形式有很大关系。 不恪守数据本地化规范的企业可能会失去特定国家或州的潜在客户——并可能最终在将来几年内扩大业务的区域无限。 数据隐衷和平安的竞争劣势 除了认真思考数据隐衷和平安的监管机构之外,消费者当初更加知情,并心愿他们的敏感数据失去认真解决。 毫无疑问,数字信赖是一个重大的问题,可能建设客户信赖的品牌不应遗记基于数据处理的消费者信赖的关键作用。 因而,解决与数据隐衷和平安相干问题的组织在各个领域具备显着的竞争劣势,包含: 优化的客户体验: 组织能够提供个性化的客户旅程,并依据客户的偏好和行为提供倡议。这会产生更多的潜在客户并进步转化率,因为客户依赖于正确利用其数据的品牌。 更好的客户保留率: 因为数据隐衷和平安无疑会减少您的客户群,它们还能够确保您保留忠诚的客户并避免转换。客户喜爱长期应用提供弱小安全性并且在客户数据隐衷和平安方面不断创新和适应的品牌。寰球市场名誉: 尽管蹩脚的数据隐衷和平安做法可能会侵害您的品牌名誉,但激发其真正后劲可能有助于打造寰球知名品牌。恪守多项数据安全和隐衷合规性的企业在寰球范畴内越来越受到关注。 论断 数据隐衷和平安格局正在迅速倒退,企业须要理解其重要性,并尽最大致力采纳必要的法规。 不认真对待客户数据隐衷和平安的企业将在将来几年落后于竞争对手,并最终面临严重后果。 更多内容请关注 OushuDB 小课堂

March 28, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨非结构化数据管理的关键交流您的数据

共享无关组织中非结构化数据所产生状况的信息比看起来要艰难得多。沟通不畅简直会对组织的各个方面产生负面影响,从 IT、存储团队和应用程序开发人员始终到业务和其余最终用户。然而,精确、全面地理解您的非结构化数据对于平安、高效、经济且胜利地开展业务至关重要。 在长达 40 年的工夫里,如何通过文件协定拜访非结构化数据,而没有明确的形式来传播无关数据的重要细节?尽管存储团队负责管理平台并且是 数据管理员 对于泛滥利益相关者而言,他们不是数据所有者。通常,最终用户和应用程序所有者应该负责管理非结构化数据,但这种状况很少产生。所以,最初,没有人最终治理数据。没有其余 IT 畛域如此自觉地对其平台做出决策,并让最终用户治理如此大的一部分。 从历史上看,非结构化数据管理应用收费工具来迟缓扫描文件系统并提供容量和文件计数详细信息以供布局。对于每个新的文件树抉择,这些工具都会从头开始原始扫描过程,迫使用户期待数小时甚至更长时间能力实现(特地是在大型文件系统上)。之后,抽查各种随机文件上的工夫戳。这些组合步骤充其量只能提供一个组织的非结构化数据的含糊视图。 有时,存储供应商的外部工具能够提供更清晰的信息,但即便如此,也只能提供无限的数据细节。在具备多个存储平台供应商的环境中,它甚至更加简单。最初,如果 IT 决定删除或存档零碎中的数据,则很少胜利的搜寻会开始尝试辨认数据的所有者。实际上,没有人晓得公司的数据“垃圾抽屉”中有什么,也没有人对此负责。非结构化数据的清晰度和清晰报告的不足使得在性能上无奈在整个组织内进行治理和沟通。没有通信,数据将持续以指数速度增长,使问题越来越重大。 值得庆幸的是,那里有解决方案。组织应该寻求延聘供应商,以提供对非结构化数据的可见性并向所有相干利益相关者提供报告。此外,容许您组织和解决数据的解决方案能够帮忙团队为非结构化数据施行生命周期管理策略。当 IT 能够疾速获取无关顶级用户和组的生产能力的详细信息时,所有者已来到的数据(孤立数据)、数据集和相干排放的老本以及数据的年龄,而后能力采取实际行动。标记数据是另一种有用的查找能力,因而团队能够组织和调配数据集的所有权。自定义报告还容许对 元数据 和调配的标签。 帮忙公司理解非结构化数据的解决方案使他们可能就他们须要的信息与 IT 治理、数据所有者以及存储、合规性和平安团队进行沟通。这样,就能够进行更有教育意义的探讨。从头开始设计的产品可在企业中大规模运行,与供应商无关,使组织可能对其非结构化数据采取行动,无论这些数据位于何处。无效和精确地交换数据是治理数据的第一步,治理数据能够为您的整个组织带来微小的改良。 更多内容请关注 OushuDB 小课堂

March 28, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB将数据库升级到下一级的正确选择

随着信息技术的飞速发展,数据库曾经成为企业中不可或缺的一部分。数据库的应用不仅能够进步企业的工作效率,还能够 将数据存储、治理和剖析更加高效。那么企业如何将数据库降级到下一级? OushuDB 是一种治理数据库的新型解决方案,能够帮忙企业平安、高效地将数据库降级到下一级。 OushuDB 次要作用是帮忙企业将旧的数据库降级到更高级的数据库,同时进步数据库的性能和安全性。 OushuDB 同时反对 所有支流的数据库系统,例如:Oracle,SQL Server,MySQL,MongoDB 等等。并且 OushuDB 十分易于应用,即便是初学者 也能够轻松上手。 OushuDB 提供的次要性能有: 数据库剖析:OushuDB 能够剖析数据的散布和构造,能够高效地找到数据库中的瓶颈和问题,并提供解决方案,从而优化数据库的性能。数据库降级:OushuDB 能够不便地将旧的数据库降级到更高级的数据库,不会影响到现有的数据库系统的运行。数据库备份与还原:OushuDB 能够帮忙企业进行数据库的备份和还原,从而保障数据库的安全性和可靠性。数据库迁徙:OushuDB 能够帮忙企业将数据库迁徙到不同的服务器和操作系统上,从而灵便地治理和应用数据。通过 OushuDB 进行数据库降级的劣势次要有以下几个方面: 降低成本:应用 OushuDB 进行数据库降级,能够缩小相干的硬件和软件老本,同时缩小保护和治理老本。提高效率:应用 OushuDB 能够疾速降级数据库,并优化数据库的性能,从而进步企业的工作效率。进步安全性:OushuDB 能够提供备份和还原的性能,从而保证数据的安全性和可靠性。减少灵活性:OushuDB 能够将数据库迁徙到不同的服务器和操作系统上,从而减少了数据的灵活性和可用性。总之, OushuDB 是企业降级数据库的正确抉择之一。应用 OushuDB 能够帮忙企业进步数据库的性能和安全性,并且缩小相干老本,从而更加高效地经营业务。

March 27, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨借助-OushuDB-实现高可扩展和高可靠性的数据库系统

当今数字时代,数据是企业最重要的资产之一。因而,构建一个牢靠、高效的数据库系统对于企业的经营至关重要。在这个背景下,OushuDB作为一个开源的分布式数据库管理系统备受关注。它提供了高可扩展性和高可靠性的特点,使得它成为了许多企业和组织的首选。 OushuDB是由中国科学院计算技术研究所开发的一款分布式数据库管理系统。与传统的数据库系统不同,它采纳了基于共享磁盘的集群架构,这种架构能够承载更多的节点,并且适宜于大规模的数据存储和解决。同时,OushuDB还反对多种数据模型,包含关系型、文档型、图形型等,为用户提供了更加灵便的数据管理计划。 OushuDB具备以下显著的特点: 高可扩展性:OushuDB反对在线程度扩大,能够随时依据须要增加新的节点,从而减少数据库的存储能力和解决能力。此外,OushuDB还反对读写拆散和负载平衡,能够无效地晋升零碎的吞吐量和响应速度。 高可靠性:OushuDB采纳了多正本机制,每个数据正本都会被存储在不同的节点上,以保证数据的可靠性和容错性。同时,OushuDB还反对主动故障复原和主动数据备份,能够疾速地进行数据恢复和劫难复原。 灵便的数据模型:OushuDB反对多种数据模型,包含关系型、文档型、图形型等。用户能够依据理论需要抉择最适宜本人的数据模型,以满足不同的业务场景。 易于应用:OushuDB提供了残缺的SQL接口,与传统的关系型数据库类似,用户能够间接应用SQL命令进行数据操作。同时,OushuDB还提供了可视化的治理界面,不便用户进行数据库的治理和监控。 总之,OushuDB是一款十分优良的分布式数据库管理系统,具备高可扩展性和高可靠性的特点,实用于大规模数据存储和解决。通过借助OushuDB,企业能够轻松构建一个牢靠、高效的数据库系统,进步业务经营的效率和竞争力。 更多内容请关注 OushuDB 小课堂

March 27, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨最大限度地提高企业数据安全性安全数据传输的终极指南

只有频繁的文件传输才有可能经营古代企业。扩充一个人在数字空间中的影响力和扭转工作习惯使这种做法更加广泛。尽管高效,但数据传输可能会给安全性和可信度带来危险。 跟上以后最佳实际的步调对于公司的继续倒退至关重要 数据的完整性 和名誉。本文探讨了最无效的数据传输策略。开始应用它们来升高违规危险、采纳平安规范并让您居安思危。 辨认和分类最敏感的数据在任何数据来到您公司的服务器之前,您应该评估它对您的经营的影响。扫描和分类数据的软件非常适合这项工作。它的发现让您能够看到哪些文件须要挪动到更平安的地位。还能够标记有危险的文件,以便员工在解决它们时能够分外小心。 总是有备份备份重要数据的重要性怎么强调都不为过。数据传输过程中可能会呈现问题,或者您可能会遇到硬件故障。有适当的备份可确保这不会烦扰业务。 您应该以多种形式在多个地位存储要害数据。物理存储介质包含 SSD、SD 卡和 U 盘。如果采取措施加密数据并放弃驱动器的物理平安,这是能够承受的。 因为易于拜访和不便,云存储很受欢迎。你能够 平安地保留您的业务数据 在加密存储中。此外,受权用户能够轻松检测和避免加密的云数据被盗。即便有人的确窃取了数据,他们也可能无奈对其进行任何操作。 建设文件拜访层次结构企业具备层级构造。应用相似的数据拜访同样无效。建设定义每个用户的许可级别和相干权限的协定很重要。 最根本的模式包含限度某些用户类齐全拜访文件。一种更奥妙的办法可能会让用户查看文件但不能删除它们。您还能够设置文件和我的项目的到期日期。实现后拜访将受到限制。 员工随时进出您的员工队伍。随着工夫的推移,许多人在组织中负责不同的角色。文件拜访零碎必须跟上此类事件的步调,及时公布、撤销和更改许可。 部署明码管理系统如果您的明码容易受到攻打,那么即便是最先进的安全措施也毫无价值。明码偷盗可能导致毁坏,其损失 攀升至数百万. 相比之下,企业级明码管理器的费用能够忽略不计。 便利性、加强的安全性和责任感使明码管理器成为人们的现实之选。员工会喜爱它,因为一个强有力的短语比几十个登录名更容易记住。它们也使管理员更容易重置和更新明码。以这种形式生成的所有明码都是惟一且弱小的。在最坏的状况下,破解一个能够让攻击者无限地拜访您操作的一个方面。 明码治理显着 进步数据和凭证安全性 在许多层面上。一个例子波及不再在贵公司工作的员工。禁用他们的主明码会使他们齐全无法访问。这样一来,就没有人须要浪费时间追踪旧凭证。 明码管理器还能够提供无关每日登录量的信息或显示哪些用户尚未激活其明码。 应用数据保护服务数据传输波及将文件从您的网络发送到另一个网络。此类传输蕴含的文件是敏感的,因而当时对它们进行加密是常态。最间接的办法是应用数据保护服务。这些主动加密和跟踪传输的内容。 有些将他们的服务仅限于数据传输。其他人更具吸引力,因为它们提供了有助于精简公司软件套件的其余性能。服务可能包含主动文件转换、电子邮件平安或审计。他们还可能会被动查看您的文件是否合乎隐衷条例 像 GDPR。 保留日志并对文件传输进行审计理解谁拜访了文件以及何时拜访能够帮忙增强安全性。例如,在奇怪的工夫传输文件可能表明有歹意。在这种状况下,审计能够发现文件传输过程中的艰难。它能够避免它们在将来成为问题。 日志蕴含发件人和收件人凭据以及发送工夫。它有多种用处。日志有助于满足 恪守 须要,增加另一个平安层,并导致更无效的审计。 采纳员工培训文件共享有助于顺利进行日常操作。它还可能带来危险。人们很想应用风行的合作和第三方应用程序来共享文件和交换。员工不知情 相干陷阱 危及公司平安的危险。 您将心愿建设一个培训计划,向员工传授文件传输实际。它应该强调集体责任对于维持高平安规范是如许重要。然而,此类培训应该引人入胜且乏味。 论断确保在线传输过程中的数据安全是企业的首要任务。希图毁坏的次数正在减少,但公司并非无能为力。推杆 无效的安全措施 到位为胜利奠定根底。简化此类程序并对员工进行无关不恪守这些程序的危险的教育能够保障这一点。 认真对待数据传输平安的企业展现了诚信。通明地向员工和客户传播您的平安致力能够建设信赖并使良好实际可继续。 更多内容请关注 OushuDB 小课堂

March 27, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨左移不是你所期望的

让咱们来谈谈房间里的大象——“左移”并没有像咱们许多人预期的那样对咱们的软件平安产生影响。尽管它的确有很多长处并且以不可或缺的形式影响了安全性,但我认为“左移”应该被视为更大管理策略中的一种策略,而不是解决应用程序平安问题的综合解决方案。正如软件开发是一个非常复杂的多层次过程一样,“左移”不应被视为一种简略的线性工作。这篇博文将回顾“左移”的胜利、担心和后劲,以及咱们如何通过略微不同的利用来“重启”这个过程。 什么是“左移”? “左移”是一个绝对较新的平安办法这要求在开发周期的最早“左侧”即创立阶段开始应用程序平安流程。形容软件开发生命周期及其元素的办法有多种,但一种广泛认可的合成办法是从制订打算开始,而后进入编码、构建、测试、公布、部署、经营,最初是监控。这个过程的最右边是“创立”阶段,最左边是理论装置和应用货色的“操作”畛域。“向左挪动”定义了将操作挪动到最左侧的不同形式,供开发人员解决。 能够“左移”的流程包含测试,这通常作为第一个“左移”工作来施行。测试能够帮忙组织从最早阶段解决问题——当他们打算、创立和编码时。在最早阶段解决问题能够显着进步在进入经营阶段时遇到的问题更少、修复起来更容易、老本更低的可能性。 “左移” 是什么意思? 从最早阶段解决问题能够减少防止谬误的机会,确保软件投入生产,并对编写代码和负责运行代码的人员的任何问题施行疾速精确的修复。“左移”的一个胜利例子是容器化和其余类型的包装,当 库伯内斯 呈现了。“左移”让咱们明确,当一个软件工件被正确打包后,它能够使部署、运行和监控它的后续步骤变得容易得多。自动化与容器化和软件工件打包相结合,使咱们可能十分无效地简化整个部署操作。另一个“左移”胜利案例是归因——“左移”使咱们可能发动和扩充对于代码所有者的对话,使工程组织可能辨认代码背地的开发人员,并使开发人员本人的流程更加简化。开发人员心愿编写好的代码,并且“左移”将这种与安全性的对话推到了最前沿,而不是对抗性的。 “左移”平安测试挑战 只管它曾经齐全适应,但平安测试曾经产生了不同水平的影响。独自测试须要肯定程度的技能或工程成熟度,这对某些组织来说可能是一个阻碍,它们可能无奈取得领有残缺测试套件的全副益处。事实上,在大多数工程组织中依然存在缓解管制性能,因为基于开发人员的测试不被认为是惟一的实在起源。组织理解他们须要 QA 性能来挑战测试工具,并充当后果的最终质量保证和管制性能。 “左移”平安修复挑战 平安工具为您提供许多警报,这些警报难以了解、确定优先级和采取行动。开发人员应该分类并尝试缓解什么?开发人员依然能够公布并在工程过程中向前推动而不响应平安测试通知他们的内容,这杯水车薪。许多测试更像是“合成”阻断器而不是真正的阻断器——开发人员能够在工作流程中挑战这些阻断器,并会找到解决办法以防止修复它们。 对于那些被归类为须要缓解的要害警报,安全部门没有能力为开发人员分类这些问题。另一方面,开发人员可能不足本人进行分类的常识。开发人员不是平安业余人员,不能指望他们了解代码背地的含意和上下文。无奈独立进行分类,再加上大量的警报,在开发人员和平安团队之间产生了摩擦,随着对这些测试工具的抵制和流程自身的增长,合作变得更加艰难。 应用“左移”实现代码平安的可行技巧我整顿了一些根本准则,这些准则能够帮忙缓解危险并创立更衰弱的代码平安文化。咱们都批准必须修复破绽,但“左移”未能意识到这是一个过程,而不是欲速不达的事件。不应冀望或要求工程师立刻解决所有问题。如果咱们从小步开始,咱们就会明确有些货色更容易向左挪动。这将成为向左转移问题缓解的真正旅程的第一步,同时倒退一种更衰弱的文化,让开发人员对他们编写的代码负责。 我的第一个根本倡议是抵赖真正的转变只有在研发部门决定它应该产生时才会产生。平安不是解决问题的人,因而为了压服开发人员这样做,咱们必须向他们提供每个问题的业务背景以显示其紧迫性,或者只是敌对地询问。咱们必须达到研发组织被迫决定将平安流动拉到右边的境地。作为平安业余人员,咱们必须专一于为其余团队带来价值的工作,并应提出有助于研发工作的议程。这意味着在他们的游乐场内游玩 ,而不是引入其余工具或新门户并要求他们应用它们。 随着组织规模的扩充,危险抵抗力是自下而上建设的,但也是自上而下的——与管理层一起建设。确保经理给他们的团队足够的资源来解决平安问题,并且开发人员对创立有问题的工件不感兴趣。 为了以可继续和可扩大的形式开始“左移”,组织应该从一开始就推动归因的采纳。这意味着理解每个工件是什么、它由什么组成以及它的业务性能是什么,这样咱们就能够反对优先级排序并改良警报所需的工作。如果有重大警报,咱们会确切地晓得它是否会失去解决。当您正确实现作业并领有资产清单(其中每个工件都调配有平安和补救策略)时,组织能够打消无休止的探讨和破费在分类上的过多工夫。只有当开发人员真正将他们的平安生命周期构建到他们的工作流中时,“左移”能力达到预期的成果。作为平安专家,咱们须要帮忙他们这样做。 更多内容请关注 OushuDB 小课堂

March 27, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂-丨元数据的类型以及如何管理它们

近年来,被动元数据(绝对于被动元数据)促成了新型元数据及其治理形式的倒退。元数据是一种标签零碎,能够被人类和计算机读取,并容许搜索引擎应用定义的元数据字段来定位数据。 被动元数据应用技术信息提供了一个根本的识别系统,但不提供重要的上下文,并且元数据被认为是动态的(半永久性标签)。侥幸的是,古代数据堆栈促成了流动元数据的倒退,它反对新的元数据形容零碎和更多的上下文,并且被认为是动静的(意味着只有数据发生变化,元数据就会更新)。 应用流动元数据的零碎依赖于 机器学习 和自动化。被动元数据管理系统应用软件来促成用于正在进行的我的项目和实时客户服务的元数据的继续更新。 它还能够在数据通过数据管道时跟踪数据并报告它所经验的任何更改。一个沉闷的 元数据管理 零碎须要反对元数据标签的间断解决和更新的自动化。 流动元数据是实时从源中获取的,容许管理层辨认、跟踪、了解和治理数据资产。 流动元数据 建设信赖并使数据民主化。 流动元数据平台古代企业须要开发 元数据策略 这可确保他们的数据不会被孤立,并且他们的元数据(被动和被动)精确、统一且牢靠。 一个沉闷的元数据平台容许元数据在整个过程中顺畅疾速地流动 数据栈. 它是一个比被动元数据更简单的过程,涵盖了一系列元数据形容零碎。 一个沉闷的元数据平台是一个面向口头的零碎,它总是在线的,并且一直地收集元数据,而不须要手动输出。它一直解决元数据以互连数据集和文件,并从中开发商业智能。它应用机器学习来解决元数据并开发可操作的情报。 一个沉闷的元数据系统随着人们应用它和取得更多的元数据教训而变得更加智能。 不同类型的元数据有几种类型 元数据, 所有这些都可能有助于减少企业数据资产的价值。依据流动元数据,已开发的各种元数据类型在形容数据内容时反对更大的灵活性。 在最根本的层面上,元数据应该传播无关内容、上下文和构造的信息。上面列出了一些更常见的元数据类型。 技术元数据: 这种类型的元数据通常与被动元数据一起应用,包含数据库表的名称和列名,以及数据类型、波及数据的 ETL 作业、援用数据的索引等。技术元数据包含: 文件格式文件名图式数据源地理位置业务元数据: 它提供定义、业务规定、数据应用限度和数据上下文。业务元数据很容易被非技术人员了解,并提供了一种通用语言。业务元数据包含: 工夫线业务需要和模型业务流程指标商业术语操作元数据: 这种模式的元数据包含无关何时以及如何转换或创立数据的信息。它提供了无关如何应用数据的更多详细信息。此元数据的类型包含以下信息: 更新日期装船日期血统数据状态流程元数据: 这是存储在数据仓库或数据湖中的操作元数据的细分。过程元数据提供了将数据加载到存储中的过程的详细信息。此类信息在呈现问题时很有用。流程元数据可能包含: 谬误日志作业执行日志审核后果出处元数据: 这种元数据类型跟踪数据的起源和随工夫的任何变动。它提供数据可追溯性,因而能够发现并删除不精确的数据,从而进步 数据品质. 出处元数据可能包含以下信息: 权威更改日志所有权记录版本控制记录构造元数据: 这提供了无关数据物理组织的信息——关系、类型、版本和其余特色。构造数据可用于创立和保护数据字典。一些模式的构造元数据是: 数据元素类型表名记录大小治理元数据: 这种类型的元数据提供用于 数据治理. 它有助于治理和建设数据的可信度。治理元数据能够包含无关保留、权力和应用的信息。它提供了对谁能够应用它们以及如何应用这些文件的管制。治理元数据能够包含: 版权信息和许可协定权限治理技术数据用户限度访问控制信息社交元数据: 这提供了无关人们如何应用数据的有用信息。应用社交元数据提供的上下文,企业能够决定缩小、维持或减少广告或生产力。社交元数据包含以下信息: 作者信息查问次数最多的表应用频率治理流动元数据治理流动元数据能够疾速高效地搜寻数据,提供做出数据驱动决策所需的洞察力。企业应该有治理其元数据的策略。如果没有智能策略,数据可能会变得极其凌乱,使钻研人员难以确定数据的准确性,并导致他们质疑其可靠性。 确保在流动元数据程序中蕴含以下内容: 敏感数据的主动分类: 敏感数据(如集体数据)应用自动化进行爱护。无关隐衷(和其余问题)的法律法规会主动适当分类,没有人为谬误的危险。 当用户能够查看所有现有数据时,数据能力真正民主化。然而这种被动的元数据管理容许企业主动对敏感数据进行分类,暗藏其中的一些数据,同时使其余数据仅对受权用户可见。(能够自定义无关敏感数据的策略。) 革除过期数据: 被动元数据管理反对的一个有用过程是系统地删除旧的、过期的数据。能够设置它以确定文档或数据批次的最初应用日期和/或拜访它的员工数量。 如果在 60 天内未拜访,则数据资源能够主动存档。如果在最近 90 天内未拜访过,则能够主动革除。 上游最终用户警报: 能够设置被动元数据管理,以在数据库被批改或检测到潜在异样时间接告诉相干人员。 如果发现差别,能够疾速追溯到创建者,而后立刻将谬误告诉该人和/或更正谬误。 辨认最罕用的数据资产: 被动元数据管理可用于为每个数据资源开发定制的风行度分数。能够依据查问日志的应用信息、数据起源和 商业智能仪表盘. 最罕用和最相干的数据资源应该更频繁地呈现在搜寻后果中。 元数据管理的将来BigID 的首席执行官兼联结创始人 Dimitri Sirota 预测,流动元数据中心的应用将成为 下一步倒退 在流动元数据中。 ...

March 27, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨了解数据安全问题的原因

公司正吞没在数据中。这是一个收缩的趋势,企业别无选择,只能采取行动,而平安团队可能会感触到向前倒退的最大结果。有有数闪亮的解决方案和思维流派试图弄清数据涌入的意义,但领导者必须首先确保正确理解其数据的“起因”。换句话说,除非整个组织的团队领有从数据摄取到数据利用的清晰路线图,否则数据安全问题必定会随之而来。 不了解数据的“起因”源于不良数据素养. 这会导致滚雪球效应,欢送破绽和破坏性毁坏。一旦团队理解了他们的数据的含意、如何拜访重要的内容以及如何最终简化要害流程,他们将有一条更清晰的门路来实现洞察力驱动的决策和胜利。 建设数据素养文化依据一个 最近的考察,只管 99% 的企业晓得数据至关重要,但只有 26% 的企业置信所有员工都理解他们应用的数据以及如何无效地应用这些数据。这就是古代平安团队面临的最大阻碍之一,也是技术畛域领导者无奈承受的忽略:数据素养重大孤立,许多迫切需要这些技能的团队被晾在一边。 这种忽略的威逼能够归结为危险的无知。如果不理解正在应用的数据及其用处,就不可能进行适当的风险管理。数据的无害组合——除其余外——导致无心的冒险,使企业容易受到威逼。无论这种威逼与隐衷、知识产权损失还是竞争侵害无关,数据素养都是爱护难题的重要组成部分。 随着围绕数据素养的策略对话的减少,数据安全必须放在首位。网络弹性取决于真正置信成熟的团队数据策略– 领导者有责任确保在文化和口头驱动的层面上施行纪律。 晋升外部技能并引进主题专家通常,数据素养不佳是外部教育的失败和对一两个人的适度依赖。作为解决方案,领导者必须做出有针对性的致力,将他们的非技术劳动力晋升为“公民”数据分析师。数据科学家在 供不应求,这意味着须要削减脂肪的团队将升高数据专业知识的优先级。这对网络危险尤其不利——CISO 不能成为数据安全的惟一堡垒,因而领导者必须确保每个团队中的一些人都有权依据须要解决相干数据问题。 此外,如果组织对数据的生成、编目、存储和拜访采取统一且井井有条的办法,团队就不须要大量资源来正确治理数据。如果办法是统一的,那么它最终能够牢靠地自动化以升高危险,同时减少拜访。如果不满足这些要求并且手动治理数据,则须要更大的团队来治理爱护数据的手工过程。 许多领导者没有从外部扫视,而是陷入了“沉没老本”的谬论,并认为因为在闪亮的解决方案上破费了大量资金,因而最终会带来踊跃的投资回报率。没有“银弹”技术或集体能够将数据故事整合在一起。相同,在这方面的胜利须要单干和信赖,即每个角落都把握了他们的数据以及数据所依赖的最终游戏。 侥幸的是,大多数公司都在朝着正确的方向后退。上述考察显示,65% 的组织曾经启动了数据素养打算,以进步全面的了解,而且随着培训的价值变得更加显著,这一数字必定会减少。 遵循数据胜利的三大支柱门路在最高级别,数据问题通常能够归结为讲故事的失败。收集数据时,团队没有成心对齐,导致凌乱和资源节约。如果平安团队不理解正在讲述的故事,就不可能无效地评估危险,因为数据生命周期不明确。 因而,领导者在解决数据时应着眼于三个具体支柱——常识、察看和自动化——来一一解决。常识治理是最要害(也是最被覆盖的)步骤。如果团队不批准数据的起源、每个局部的所有者以及数据的去向,那么就没有通向胜利的可了解路径,平安危险也会变得无法控制。 建设上下文后,启用察看。能够通过任何必要的镜头来解决数据,以找到模式并删除不必要的步骤。 察看实现后,团队能够利用数据来主动执行手动工作和警报,这些工作和警报以前会耗费大量资源。这是数据收集的最终目标,并将为平安团队提供必要的情报,以提供理智的、通过验证的弹性策略。 讲故事和组织=胜利就像在任何学科中一样,横七竖八和不统一的办法会导致有效的后果。没有统一的协调和独特的指标,可能会解决谬误的问题或得出谬误的论断。在平安及其他方面,至关重要的是每个人都放弃在同一页面上,并对正在解决的内容有独特的了解。 安全性通过链接数据集、将事件链接在一起并讲述故事来取得成功。无论是在考察中还是讲述危险故事,平安团队都必须应用数据作为内部人员的翻译——那些在企业外部做出要害决策的人员。一旦在整个组织中利用了正确的技能,数据就会成为通用语言,危险会大大降低,并且最终能够实现更高的指标。 更多信息请关注 OushuDB 小课堂

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨数据治理中数据建模的未来

在创立或改良数据治理程序时,数据建模过程施展着越来越重要的作用。数据治理变得极其简单,数据建模的应用促成了了解。复杂性减少的一个根本起因是出于钻研目标对数据分析的宽泛应用。另一个起因是恪守为互联网业务制订的法律法规。 A 数据模型 显示数据如何流经数据系统以及组织如何分类和应用数据的简化符号示意。 (留神:题目“数据建模”常常用于专一于“数据库”建模的软件,次要是因为缩写粗率。本文重点介绍在整个组织中出现数据流的模型。) 数据治理已成为组织数据流的外围。它用于设置外部规范——数据策略——以确定如何收集、保留、解决和删除组织的数据。它限度了谁能够拜访某些类型的数据,并能够强制恪守政府机构制订的规范和法规。 数据治理 确保数据可用、可用且平安。它还能够用于: 收集高质量数据: 一个好的数据模型应该促成从各种起源收集高质量数据。更快地做出更好的决策: 辨认问题和趋势变得更加简略,从而缩小凌乱并放慢决策速度。增强合规性: 尊重人们的隐衷和防止法律罚款变得十分重要。良好的数据治理有助于防止不恪守法规的危险。降低成本: 数据治理通过打消数据反复并缩小谬误和谬误来帮忙更无效地治理资源。在开发或改良数据治理打算时应用数据模型有助于定义和剖析企业的数据需要。数据流模型提供的可视化简化了组织数据流的复杂性。因为数据治理包含扭转工作场合文化,所以显示整个组织的数据流的数据模型实际上代表了整个数据治理打算。(只管 数据库治理 是一个独立的零碎,两者应该相互支持。如果有主数据管理软件,它通常是数据治理程序的一部分。)一个好的数据模型将显示应用和存储的数据类型、数据共享的关系以及数据的组织形式. 自动化在数据治理过程中施展着重要作用,应该蕴含在数据模型中。 数据建模的益处数据模型通常是组织的整个数据系统(或可能是零碎的较小局部)的可视化示意,用于传播将要进行的改良(或最后用于确定须要改良的问题区域)。设计数据模型时应思考到业务需要。规定和要求能够集成到新零碎的模型设计中或更改现有零碎。 数据模型还能够促成部门和钻研团队之间的合作,因为其他人能够理解部门在数据流方面存在的任何问题。(数据模型发动对话。) 尽管数据模型通常基于标准化模式,但模型的设计者必须足够灵便以适应模型。它应该出现一个精确的业务模型,而不是一个解冻的、没有变动的版本。该模型可用于反对在整个组织中治理数据的统一形式。 数据建模反对无效的数据治理以及其余踊跃成绩,包含: 进步数据库和软件性能简化数据映射改善部门之间的沟通缩小软件开发过程中的谬误让数据易于了解会减少数据的价值。随着越来越多的节俭和销售机会的实现,开发数据模型后利润可能会减少。数据建模反对元数据管理和数据治理程序所需的基础设施。元数据和数据治理打算 将元数据集成到建模过程有助于简化开发 数据治理程序和商业智能打算。元数据是数据治理的一个重要方面,应该蕴含在数据治理模型中。数据模型可用于可视化元数据的最无效应用并利用其劣势。无效治理数据和开发商业智能取决于无效的元数据管理。 数据治理定义了数据在组织中挪动时必须遵循的规定。 元数据,一个有助于查找数据的标签零碎,在这个过程中应用,并且在技术上是定位数据所必须的。数据治理能够应用元数据来执行用于收集和治理数据的规定。 元数据反对数据治理策略和数据拜访。它对于高效运行的数据治理打算至关重要。 期限 ”元数据管理”形容了在组织内应用元数据来促成数据的无效解决。它反对通过应用自动化来收集高质量数据。应用自动化元数据管理能够实时捕捉数据不统一,有助于进步数据的整体品质。 自动化数据处理通过自动化其数据流程,组织能够显着进步其准确性程度。例如,自动化元数据管理将从各种数据源收集元数据,并将映射所有数据源。当然,这些自动化过程应该显示在数据模型上。 应用自动化和可反复的数据治理流程能够进步生产力并降低成本。 自动化可用于恪守隐衷法和数据法规。通用数据保护条例 (通用数据保护条例), HIPAA (衰弱保险和可携带性责任法案), 和 CCPA (加州消费者隐衷法) 在与寓居在执行这些规定的州或国家的公民或组织做生意时必须恪守。自动化的应用能够确保敏感数据被主动标记和标记。 古代数据建模创立数据模型或图表时,基本上有两种技术:数据建模软件和白板。(两者的联合可能是现实的。)白板的长处是它很大,通常对员工公开,并且易于应用。(对于技术爱好者来说,一台十分大的“智能”电视也能够达到同样的目标。) 如果软件用于创立数据模型,则次要有 两个图表工具:对立建模语言(UML)和实体关系图(ERD)。ERD 是用于数据库的模型。(这不是您想要的。)您须要 UML,它包含范畴宽泛的模型类型。如果指标是开发一个数据模型来显示整个组织的数据流,请防止应用 ERD。 可利用于白板,而后进行调整、填写和具体阐明的数据模型示例由 视觉范式,以及免费软件。其余一些用于开发数据模型的风行软件包含: 关上 ModelSphere,它是开源的。这是一个UML 建模工具具备很大的灵活性。企业架构师,一个 软件工具 反对“企业”数据建模。它基于面向对象的语言和规范。Lucidchart,它容许 流程图和图表 在线创立,可能十分有用。(无需下载。) 数据建模常常通过 三相. 该过程通常从概念模型开始,倒退到逻辑模型,并以物理模型完结。(此过程传统上利用于数据库模型,但能够利用于其余模型以进行学习。) 数据建模的将来在过来几年中,数据治理和元数据管理的重要性显着减少。随着它们重要性的增长,数据建模的价值也在增长,但可怜的是,它的应用却没有增长。咱们能够预感数据模型将成为解决数据的组织中的规范性能。 数据建模过程,所有数据都流经数据治理程序,将促成自动化的应用。管理层将发现问题所在,并装置适当的自动化服务,从而最大限度地缩小人为谬误并更快地实现工作。如果不应用事实的数据模型,组织可能会在如何解决数据方面做出谬误的决策。 机器学习和人工智能也无望 施展更大作用 在自动化、元数据管理和数据建模方面。在将来十年或两年的某个时候,人工智能将用于创立组织的数据模型,而后由人类批准。

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨数字化转型成功的基础知识

现代化和简化公司流程以在当今的混合世界中高效经营已变得至关重要。随着增加收入、提供改良的体验和带来翻新的承诺,难怪数字化转型 (DT) 市场预计将增长到 3.4 万亿美元到 2026 年。随着公司持续寻求胜利的数字化转型,寰球领导者正在采纳云基础设施并将其业务流程数字化。 现实情况是,尽快实现公司的数字化转型我的项目对于组织将来的胜利至关重要;如果不这样做,可能会导致失去市场份额。然而,在数字世界中取得成功绝非易事。 70%的公司 达不到他们的指标。 数字化转型之旅家喻户晓,IT 世界在过来几年里产生了彻底的改革。在这所有的最前沿 云计算. 从咱们的工作形式到咱们整体拜访数据的形式,这项技术人多势众地让公司在大风行期间维持生计。 当初,它的相关性曾经扩充并正在影响每家公司的 IT 基础架构抉择,因为它提供了创立、共享、剖析和存储大量数据的机制——如果没有云应用程序编程接口(云 API),这一切都是不可能的,它容许海量数据集互相通信,并使古代企业可能流动。 随着技术栈变得越来越弱小,人工智能(AI)、自动化和 数据分析 正在占据核心舞台。这些,以及更多,提供了将遗留业务流程转变为晦涩的数字体验的机会。但这个新的高科技世界带来了独特的挑战,并可能成为网络犯罪分子危险的梦幻。 采纳平安第一的办法 违规行为始终在减少,可怜的是,每年都呈指数级好转——这也是近程工作的一个奉献。2022 年第三季度,大概 1500万 记录在全世界公开。此外, 高德纳预测到 2025 年,45% 的公司将蒙受网络攻击,是 2021 年的三倍。 旧的办法,例如云计算的扩大边缘和“城堡与护城河”平安办法,使得对数据和 IT 资源的平安拜访变得越来越艰难,因为它们无奈满足当今的平安需要。 保护有余、安全控制之间不足集成和根本安全漏洞等多种因素使网络的入口点容易受到攻打,导致歹意行为者可能以绝对较少的致力进入网络。 此外,咱们面临着一个严厉的事实,即零碎是为人类发明的,但咱们也是最大的危险。在这个数字和人类触摸交汇的交叉点,呈现了一个弱点: 身份。 通过利用企业外部的身份,网络罪犯更加未遂——在当今的局势下,没有一家公司可能接受平安方面的斗争。采纳平安连贯人员、数据和设施的解决方案能够缩小公司的攻击面,从而最大限度地缩小灾难性财务和名誉结果的可能性。 数字化转型的外围 = 零信赖拜访如前所述,咱们明天的数据在不同的云和本地网络、零碎和应用程序中流动;发明更多的复杂性并使基于身份的安全性变得更加重要。在这种状况下,须要一种动静的自适应办法:进入零信赖拜访办法。 与传统平安工具不同,基于身份的零信赖解决方案旨在满足管制对大量应用程序和数据的拜访所需的敏捷性和适应性。通过利用下一代平安技术,组织能够无效地爱护数据,恪守行业法规,避免恶意软件、勒索软件或社会工程攻打,并将基于网络的参数转变为基于身份的管制。通过解决要害破绽,即人为因素,组织能够建设平安支柱来爱护其数字化转型策略。 现在,零信赖拜访办法被平安专家、分析师、政府和规范机构(例如美国国家标准与技术研究院 (NIST))公认为是管制拜访的最无效平安模型之一。 战败艰难的将来有一点很明确:平安第一的办法对于胜利的数字化转型至关重要。 随着寰球网络安全格局的一直倒退,领导者必须致力均衡新工作模式和技术采纳的动态变化所带来的安全漏洞。明天的成功之路是由采纳自适应、智能和基于身份的平安解决方案驱动的,这些解决方案有助于最大限度地缩小平安流程中的薄弱环节。 组织能够更轻松地满足数据保护和隐衷法的严格要求,同时通过零信赖拜访变得古代、麻利和数字化。

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂-丨公司必须发展新的数据力量以实现盈利增长

随着经济环境变得更加黯淡,企业开始关注实现盈利性增长,而不仅仅是增长。数据驱动的决策能够减速实现这一指标,但组织必须倒退新的数据力量能力实现这一指标。 过来几个月对商业世界来说是一场旋风:增长放缓、资本市场黯淡、裁员、经济衰退的可能性、投资者危险偏好升高以及整体经济环境不确定。这些都迫使公司重新考虑他们的策略并纠正他们的路线。最大的修改之一是 均衡增长与盈利能力. 只管这在高增长科技公司中最为突出,但其影响是宽泛的。 随着新事实的呈现,思维形式必须进化,并且必须开发新的数据力量。过来十年的疯狂增长意味着数据分析在需要生成、追加销售穿插销售模型、增长营销等畛域。尽管这些依然很重要,甚至可能更重要,但必须建设新的数据分析力量来补充现有的力量——帮忙提高效率和最大化的力量投资回报。许多事件在很长一段时间内都不是重点畛域,但当初须要成为重点畛域。具体来说,企业当初应该重点关注五个畛域: 精益技术和经营模式以打消低效率: 在多个畛域,低效模型变得司空见惯。一个典型的例子是让多个软件和供应商做十分类似的事件或做不须要的事件的技术模型。在数据世界中,它体现为公司领有多个“数据平台”、数据仓库技术、BI 工具等模式。其起源是团队有资金购买和部署他们认为最不便的技术他们。这让组织领有多个无奈互操作的堆栈。资源方面存在相似的主题,例如,跨团队的数据工程师和分析师正在做重叠的工作。公司最终会失去多个版本的“类似但不同”的数据产品,这会引起混同。优化焦点补充最大化焦点。 器重和庆贺优化胜利的文化改革对于增强这种关注是必要的。改良的流程、自动化的工作流程、确定的利润散失,所有这些都须要像取得新客户一样值得庆贺。支出增长是最重要的,但明天的利润也是如此。这意味着定价模型须要更严格以确保创收是有利可图的,预测模型须要更精确以更好地布局经营费用等。总体而言,数据团队须要开发新的技能组合并专一于更新的算法,例如客户散失与需要生成相比,高管须要对数据团队提出更有针对性的要求。通过剖析捕获小信号以辨认机会。 当资本便宜时,专一于最大的机会并在其后进行投资是有意义的。当初这须要演变为不谋求一些底线浓缩机会,而是确定几个较小的机会,这些机会加起来大于局部的总和。多变量 机器学习 技术能够帮忙辨认人类可能脱漏的内容。这在媒体畛域的一个例子是,不仅要专一于销售更新内容的交易,还要确定哪些旧内容会引起买方观众的共鸣,并将其作为一个包进行销售。例如,在战术上,销售举荐引擎须要更新以蕴含旧内容而不仅仅是新内容。将数据驱动的决策和后果置于核心地位。 新经济环境的一线希望之一是高管们变得更加无意识。这为数据团队提供了一个很好的平台,能够通过应用数据产生洞察力而后推动成绩来减少价值。将数据和业务团队联合在一起并可能设计出无效的人机交互界面的公司将比那些不这样做的公司具备决定性的劣势。最弱小的工具之一是会议典礼,例如,管理人员能够在所有会议开始时进行指标审查,并要求团队为他们心愿反对的任何决策提供指标。最初,须要的要害力量是对投资的舒适感 数据根底. 多年来,在“水涨船高”的环境中,外表层面的剖析和报告曾经足够了。大多数公司没有投资于基本功能,例如简化的数据技术堆栈、数据治理以及为数据团队建设正确的组织模型。这须要扭转以打消零碎的脆弱性,并使数据成为盈利增长的弱小差异化因素。组织数据肌肉很像人的肌肉:不锤炼的肌肉就变弱了。新环境须要新环境能力获胜——就像长跑运动员须要不同的训练计划能力成为游泳运动员一样。将来几年的赢家将是那些在实现盈利增长的过程中迅速转向以更新的形式做事的公司。

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨零拷贝集成小数据实践将如何取代大数据

数据的将来很小。 随着组织致力应答一直减少的数据量,大数据静止的局限性变得越来越显著。在过来的二十年里, 大数据 以尖端软件的模式提供了益处,使数据的生成、收集和合并对组织宽泛可用。这些踊跃影响既宽泛又显著,从航空的最佳路线布局到金融部门的欺诈检测和风险管理,甚至在联邦层面追踪传染病。 但明天, 数据存储、清洁和筹备以及结构化曾经开始超出咱们从所有这些信息中收集咱们想要的货色的能力。大数据有时可能太大,以至于咱们无奈依照实时业务的步调进行理论剖析和利用。 将大数据转化为小数据兴许解决这个问题的办法是小数据。小数据是对用户更敌对、更易于拜访并提供可掂量收益的信息。小数据的指标是在正确的工夫为分析师提供他们须要的数据,以便他们做出最理智和最及时的决策。 在寻求将大数据转换为小数据时,公司能够采取几种不同的路径。最间接的办法是创建一家以数据为核心的理念的公司,建设在数据与公司任何其余资产等同重要的根本了解之上。 这实际上意味着为所需的每个类别创立一组数据,并制订政策强制员工从数据中提取他们须要的内容,并将可操作的精确信息返回给各自的部门。 这可能须要组织小组从新组织他们从地方“黄金记录”数据中获取的数据。然而,只有多数负责保护数据集完整性的专家有权更改组织的次要数据集。 与此同时,世界其余中央通过复制数据集、更改这些数据集而不保护“黄金记录”数据集的完整性,无心中使他们的状况复杂化。 只管复制和更改所有这些数据集最后能够帮忙组织在短期内实现摆在他们背后的任何指标,但明天的结果包含孤立的数据集,使机器无奈与这些数据库进行通信并从中提取相干信息。 以数据为核心的架构是围绕有目的地围绕数据的操作构建的。这也意味着平安和治理协定能够插入数据自身,因而它可能爱护本人。 然而,当今私营和公共部门的可怜事实是,绝大多数公司和组织无奈忽然转变为以数据为核心。那些的确转向这一策略的公司受害于从头开始倒退和扩充规模的能力。 零拷贝集成解决方案现实状况下,由反复数据集引起的问题将通过零拷贝集成解决——无需复制或以其余形式物理挪动数据的按需集成数据。 此过程将数据拉到一起,而不是将其粘贴到数据存储单元(如池、湖和仓库)中。这容许跨多个数据集进行联结查问,分析师能够在其中利用黄金记录(事实起源),而不用将它们复制到另一个数据孤岛中。 零拷贝集成还容许“数据洁净室”,能够在不泄露理论数据的状况下比拟和剖析来自不同起源的敏感数据。这能够应用不共享数据但依然可能剖析数据并辨认相干位以进行多方计算的密码学来实现。 例如,行业监管者可能想要理解许多公司有多少独特客户。客户领有数据并可能恪守隐衷和合规常规。然而应用明码技术,普通人能够在不共享信息的状况下失去答案。 近年来,各行各业的公司破费了数千万美元和人力小时试图以更高效、更不易出错并提供真正洞察力的形式从新定位他们的数据管理系统。但这个过程不可避免地迟缓且低廉。 零拷贝集成性能很快将成为公司用来扩充规模和放弃竞争力的次要燃料类型之一。那些采纳这种办法的人忽然吹牛本人的市场差异化劣势。那些漠视这个问题的人将被抛在后面,很可能会进行运作。 但买进必须产生在执行团队层面。首席信息官理解零拷贝集成是将来。但他们须要他们的最高管理层共事分享这一愿景。 如果组织的最高领导者没有意识到这种转变的必要性并提供资源来实现改革,那么就不可能顺利过渡到新的和改良的零碎。 将将来带入当初转换为零拷贝集成数据管理系统的财务老本可能仍会阻止许多公司迈出这一步。组织意识到零拷贝集成提供的竞争劣势,但如果老本超出预算,改革的步调就会迟缓。 相似于互联网晚期采纳者的创新者将成为使零拷贝集成成为事实的推动者。这些人具备极强的动机来共享数据和合作以实现微小的翻新飞跃。 同样,学术研究人员——包含那些从事癌症数据和其余扭转生存我的项目的钻研人员——将与大数据静止的领导者一起属于这一群体。 但与最后对互联网的当机立断随后失去更宽泛的承受相似,工夫将证实零拷贝集成和以数据为核心的架构将如何成为公司打算的要害局部,因为它们心愿放弃竞争劣势。 金融科技公司曾经在应用语义图技术来施行零拷贝集成,国内供应链公司曾经意识到通过以数据为核心来优化经营的动机。 一旦这种策略的晚期采纳者取得的益处变得显著,零拷贝集成将扭转业务的发展形式——就像短短几年前的大数据一样。 更多信息请关注 OushuDB 小课堂

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨深度学习的未来

当机器人玩家在驰名的 AlphaGo 游戏中击败人类玩家时,深度学习 (DL) 一夜成名。深度学习训练和学习办法已被宽泛认可用于“人性化”机器。当初在企业 AI 平台中发现的许多高级自动化性能都归功于机器学习 (ML) 和深度学习的疾速倒退技术. 这 比照帖 对于 AI、ML 和 DL 探讨了 DL 在 AI 的许多方面“无处不在”——无论是 NLP 还是计算机视觉应用程序。逐步地,反对 AI 和 DL 的自动化零碎、工具和解决方案正在浸透并接管所有业务部门——从营销到客户体验,从虚拟现实到自然语言解决 (NLP)——数字影响无处不在。 Facebook 钻研人员陷入隐衷窘境这里有一个 回顾2018年的争议超过公众对集体数据相对隐衷的要求。这种消费者需要与 Facebook 以后的 AI 钻研工作间接抵触。Facebook 的人工智能钻研人员须要“大量收集”集体数据来训练学习算法。 Facebook 意识到端到端加密的乌托邦式概念在钻研界从成堆的集体数据中寻求答案的确是一个神话。对于将来的致力,钻研人员当初正在认真思考在单个设施上的“死数据”上训练算法,而不是大量收集集体数据。在这种状况下,Facebook 工程师将间接在用户手机上安装内容审核算法,以绕过数据隐衷进犯。 在一个 人工智能倍数 在文章中,作者具体介绍了几种独特的 DL 办法,例如自监督学习、FLS 和基于 GAB 的数据加强,这些办法可能会在围绕许多深度学习办法的保质期的争议中幸存下来。 反对 DL 的解决方案的另一个重大限度特色是学习算法依然无奈提供其抉择的具体起因,这可能会促使用户自觉地承受 AI 工具提供的决定,而后为任何被回绝的答案假造“虚伪”解释。这对于决策反对解决方案来说并不是很令人鼓舞! 五到十年深度学习民主化多年来,AI 业内人士始终认为 整个机器学习环境 应该民主化。DL 工具将成为开发人员工具包的规范局部。纳入规范 DL 库的可重用 DL 组件将携带其先前模型的训练个性以减速学习。随着深度学习工具的自动化一直倒退,存在一种外在的危险,即该技术会倒退成如此简单的货色,以至于一般开发人员会发现自己齐全无知。 对于深度学习的新预测出的 前 10 个预测 对于 2022 年的深度学习,以下是往年值得关注的一些内容: 集成混合模型深度学习在神经科学中的利用通用反抗网络 (GAN)边缘智能的应用NLP 更上一层楼当初和将来的深度学习利用谷歌是谋求的先驱营销中的深度学习. 谷歌收买 DeepMind Technologies 震惊了商业世界。Google 的使命是使 DL 成为关怀 SEO 的搜寻营销人员的重要解决方案。 ...

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨一对强大的组合现代数据仓库和机器学习

机器学习 (ML) 等人工智能 (AI) 技术扭转了咱们解决和解决数据的形式。然而,人工智能的采纳并不简略。大多数公司仅将 AI 用于其数据的最小局部,因为扩大 AI 具备挑战性。通常,企业无奈利用 预测剖析 因为他们没有齐全成熟的数据策略。 要扩大 AI 和 ML,公司必须领有弱小的信息架构来执行公司范畴内的数据和预测剖析策略。例如,这要求企业将其数据应用程序的重点放在降低成本和经营之外。全面采纳人工智能将须要企业做出判断,并面临组装古代信息架构的挑战,该架构使公司数据筹备好进行预测剖析。 古代数据仓库是采纳 AI 的催化剂,能够减速公司的数据成熟之旅。它是对立数据和 AI 平台的重要组成部分:它收集和剖析数据,为 AI 生命周期的前期阶段筹备数据。利用您的古代数据仓库将推动您的业务超过传统 数据管理问题,并使您的企业可能通过 AI 翻新实现数字化转型。 什么是古代数据仓库?本地或遗留数据仓库不足以满足具备竞争力的业务。当今市场要求组织依附大量数据来为客户提供最佳服务、优化业务经营并进步利润。本地数据仓库并非旨在解决这种数量、速度和多样性的数据和剖析。 如果您想在以后环境中放弃竞争力,您的企业必须领有一个基于云构建的古代数据仓库。古代数据仓库可主动执行数据摄取和剖析,从而敞开连贯数据、洞察力和剖析的循环。它能够运行简单的查问以与 AI 技术共享,反对无缝 ML 和更好的预测剖析。因而,组织能够做出更理智的决策,因为古代数据仓库捕捉并了解组织数据以在全公司范畴内提供可操作的见解。 古代数据仓库如何与机器学习协同工作?古代数据仓库在不同级别运行,以收集、组织和剖析用于人工智能和机器学习的数据。这些是古代数据仓库的次要特色: 多模型数据存储 数据存储在仓库中,以优化特定业务数据的性能和集成。 数据虚拟化 未存储在数据仓库中的数据在源头进行拜访和剖析,从而升高数据分析的复杂性、谬误危险、老本和工夫。 混合工作负载 这是古代数据仓库的一个要害个性:混合工作负载反对实时入库。古代数据仓库能够同时并继续地摄取数据并运行剖析工作负载。 混合云部署 企业抉择混合云基础架构在公有云和公共云之间无缝挪动工作负载,以实现最佳合规性、安全性、性能和老本。 古代数据仓库能够收集和解决数据,使数据能够轻松地与其余预测剖析和 ML 工具共享。此外,这些古代数据仓库提供内置的 ML 集成,能够无缝构建、训练和部署 ML 模型。 在我的古代数据仓库中应用机器学习有什么益处? 古代数据仓库采纳机器学习来疾速调整和适应新模式。这使数据科学家和分析师可能取得可操作的见解和实时信息,因而他们能够做出数据驱动的决策并改良整个公司的业务模型。 让咱们看看这如何实用于“我如何取得更多客户?”这个古老的问题。咱们将探讨两种不同的办法来答复这个常见的业务问题。 第一种办法是传统办法:制订吸引特定受众群体的营销策略。您的企业能够依据客户的购买动向和您公司在提供价值方面的实力来确定指标细分市场。得出这个论断须要对数据提出演绎性问题: 什么是需要曲线?咱们的细分市场更喜爱什么产品?潜在客户什么时候购买咱们的产品?咱们应该在哪里做广告以与咱们的指标受众建立联系?旨在帮忙您的公司答复这些问题的商业智能工具和服务并不不足。这包含即席查问、仪表板和报告工具。 第二种办法利用数据仓库中的机器学习。借助 ML,您能够利用现有的古代数据仓库来发现对您的 KPI 影响最大的输出。您只需将无关现有客户的信息输出统计模型,而后算法将形容定义现实客户的特色。咱们能够围绕特定输出提出问题: 咱们如何向年收入在 100,000 美元到 200,000 美元之间且喜爱滑雪的女性做广告?咱们自助服务客户群的散失指标是什么?哪些常见特色会造成市场细分?ML 在您的数据仓库中构建模型,使您可能通过您的输出发现您的现实客户。例如,您能够向计算模型形容您的指标客户,它会找到属于该细分市场的潜在客户。或者,您能够将现有客户的数据输出计算机,让机器学习最重要的特色。 论断在咱们的数据密集型世界中,古代数据仓库对于摄取和剖析数据至关重要。AI 和预测剖析提供更多数据以无效工作,使您的古代数据仓库成为算法运行的现实环境,并使您的企业可能做出理智的决策。人工智能和机器学习等数据科学技术更进一步,让您能够利用数据做出更理智的企业级决策。 更多内容关注 OushuDB 小课堂

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨通过数据网格和数据治理进行创新

大型组织心愿创立一个灵便的环境,以依据新的数据洞察力进行翻新和疾速响应。但与此同时,这些企业想要一些好的构造 数据品质,适宜生产的数据,简化和减速数据拜访。应用数据网格,这是一种扩散的数据架构(收集、集成和剖析来自断开连接的零碎的数据),具备联结 数据治理 (专一于合乎隐衷要求的启用和拜访)合乎指标。本文将解释数据网格和数据治理如何穿插并摸索各自的劣势。 数据网格:一种去中心化的架构去中心化架构形成了数据网格的外围。核心节点(下面的蓝色框)代表将数据提供给其余公司部门的域。将核心节点视为围绕特定上下文应用硬件设施或软件服务组合的业务知识畛域。例如,人力资源 (HR) 可能有一个核心,而财务有不同的核心。 辐条连贯网络中的核心节点,通过中心点疏导数据流量进出节点,因而数据能够在多个网络中疾速流动。例如,通过分支,HR 能够同时连贯到各个部门,如财务、客户反对或任何其余部门。 链接、物理电缆或电线,或软件连贯编织在辐条之间。因而,HR 可能仅将其数据链接到财务,而没有连贯其余畛域。 数据网格形容了核心、辐条和链路模型, 路由数据 通过辐条和多个链接在核心节点之间。这些链接提供了灵活性的数据网格选项。比方HR的spoke坏了,然而finance的连贯很好,那么finance能够持续拿到hr的数据。 一个组织中的数据网格看起来与其余组织中的十分不同。建设取决于个别业务的须要。 为什么公司抉择数据网格架构?企业抉择一个 数据网格 克服“集中和繁多”数据平台的局限性,正如 扎马克·德哈尼,Thoughtworks 新兴技术总监。 像这样的技术 数据湖 仓库试图将所有数据整合到一个中央,但企业会发现数据卡在那里。 一家公司可能只有一个集中式数据存储库——通常是 IT 等团队——为公司中的其余所有人提供数据。因为瓶颈,这会减慢数据访问速度。例如,财务部门的数据拜访申请曾经花了几天工夫才取得 HR 隐衷批准,而后可能会在 IT 部门的一两个人的收件箱中再寄存几天。 相同,数据网格将数据控制权交给为该数据提供服务的每个域。域中的主题专家 (SME) 管制这些数据的组织、治理和交付形式。 通过域数据管理产生的灵便的联结技术使组织 三大外围劣势: 简略性: 整个组织的用户都能够自助拜访他们须要的数据。他们能够即时查找数据并与之交互 独立地, 无需通过部门看门人。 可扩展性: 数据网格将数据分布在不同的组织域中,以便他们能够管制该数据。如果外围业务心愿扩充或缩减其业务部门,它能够在持续提供对其余畛域的拜访的同时疾速实现。牢靠的近程连贯: 数据网格连贯和集成来自各种独立零碎的数据。如果链路或分支呈现故障,其灵便的网络能够从新路由数据申请。 独自应用数据网格的毛病没有任何数据治理的数据网格面临两个毛病: 复杂性: 尽管用户能够从任何域疾速获取数据,但从多个域获取数据会变得相当简单。用户发现每个人或团队都有一个独特的零碎或流程来容许拜访他们的数据。 例如,HR 可能要求用户应用 JavaScript 查问数据,而财务只响应在 Visual Basic 中造成的数据查问。 设想一下,如果散布在整个企业中的每个部门都有一组特定的编程语言或流程来获取数据。而后,通过将所有这些信息拼凑在一起来取得组合数据集,一个部门会很头疼。 低性能: 因为每个域都能够通过网格惟一地传输其数据,因而组合来自多个域的数据可能须要工夫。 查问此数据将 受到与特定域的最慢连贯的限度。 此外,集体或团队面临平缓的技术学习曲线,以使他们的畛域数据在他们的业务中可用。除非有人对组织的去中心化架构有深厚的专业知识,否则用户须要花工夫弄清楚如何无效地取得组合数据集。数据网格的复杂性和低性能问题凸显了组织一致性的不足。 用数据产品的心态对立公司为了解决复杂性和低性能问题,领有数据网格的组织应该采纳 数据产品心态。在这种办法中,每个域都表演外部供应商的角色,负责它在网格中提供的精密数据,以及该服务如何满足其客户、其余业务部门或内部客户的需要。 因而,每个畛域都定义了它的数据产品的作用、其余畛域须要它的起因以及它的要害性能。而后,与域关联的团队或集体在外部数据市场中推广这些数据产品,确定何时公布它们,并反对其客户(其余域成员)。 域能够依据其生成的数据提供一种或多种产品,并安顿公布产品的工夫。联合外部数据产品形成内部客户从公司购买的商品或服务的根底。 畛域调整他们的产品以更好地适应整个组织或放弃。衰弱的文化为多个畛域寻找技术和零碎共性以经济地开发其产品奠定了根底。 应用联结数据治理模型领导域 数据治理的作用是领导整个组织的数据产品创立和应用。如果没有数据治理,公司可能会因政治、复杂性减少和绩效降落而放缓。 例如,一组须要 JavaScript 编程语言进行数据拜访,而另一组则须要 Ruby。其余畛域想要简化和标准化,但必须就应用何种编程语言达成统一。联结数据治理均衡了组织的数据市场,帮忙公司通过其数据产品实现经营指标。 ...

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨智能企业软件如何改变业务流程

在 OpenAI 的钻研公布其语言模型 ChatGPT 和微软蕴含一个嵌入式(并且还在改良) 人工智能 (AI) 聊天机器人在其 Bing 搜索引擎中,不可能回避无关 AI 崛起的音讯。当然,这些新的 AI 工具只是通过数十年逾越各种计算接口和行业的倒退之后最新的面向客户的应用程序。对于企业业务,人工智能扭转了日常流动和整体企业策略的格局。这些翻新没有放缓的迹象。寰球人工智能市场规模估值为 2021 年 935 亿美元预计从 2022 年到 2030 年,复合年增长率将达到 38.1%。 除了 AI 之外,机器学习 (ML) 和深度学习是胜利运行计算机系统的重要过程,这些计算机系统能够通过应用算法和统计模型来评估和依据数据中的模式进行评估和采取行动来学习和适应,而无需明确的人工领导。 深度学习 是一种 ML,它使这种剖析和口头更进一步,以解决专门以人脑为模型的更简单的工作。在整个组织内胜利采纳 ML 加强的智能企业软件,同时放弃 数据的完整性 采取专一和动摇的办法。 什么是智能企业软件及其重要性?数字化转型不再是一个开创性的概念。明天,它是企业的天然演变和重要步骤,尤其是领有宏大数据、人员和经营网络的企业级企业。智能企业是利用人工智能和自动化等先进技术来改良决策、简化经营并加强客户体验的企业。这能够涵盖从外部需要(如垃圾邮件过滤器、销售和业务预测、面部辨认和平安技术)到面向客户的需要(包含主动服务台、个性化举荐和评估紧急客户需要)的所有内容。 依据 最近的钻研,据估计,40% 的企业智能打算将针对特定业务并专为业务而构建,到 2023 年底将数据到决策的工夫框架缩短 25%。智能打算的采纳和胜利集成使公司可能取得竞争劣势,提高效率,更好地利用数据来推动增长和翻新。 此外,智能企业有助于公司疾速响应市场变动、进步敏捷性和改善整体客户体验的能力。智能企业零碎在简直所有行业都具备价值,包含制作、批发、金融、医疗保健、人力资源、交通、能源和公用事业、政府、服务、营销和广告等。 企业零碎受害于机器和深度学习的机会随着可用的人工智能加强技术的丰盛,晓得从哪里开始可能是一个挑战。第一步是关注业务优先级,而后战略性地放大能够实现这些高级指标的零碎和技术的范畴。要确定适合的机会,请思考以下对企业业务的益处。智能企业软件能够帮忙组织: 个性化客户体验和产品。 客户习惯于定制内容,并冀望从他们购买的公司那里取得肯定水平的领导,即便他们从未与客户服务代表交谈过。依据客户需要个性化产品和服务倡议的算法能够进步客户满意度和忠诚度。此外,这种水平的个性化能够依据常见的挑战或辨认紧急问题的客户优先级触发因素被动解决客户问题。进步产品质量,缩小节约。 智能软件通过统一的剖析和研发为企业提供重要的产品数据。这有助于最大限度地缩小停机工夫并进步设施性能,最终实现流线型生产、更好的产品和称心的客户。通过预测和响应市场变动来改良定位和营销策略。 智能市场剖析利用数据来剖析客户的趣味、一直增长的需要、竞争对手的流动和供应链的状态。而后应用此剖析来预测市场变动并改良决策。主动执行反复或耗时的工作,例如数据输出、剖析和决策制定。 人工智能和机器学习通过减速重复性或低附加值的工作和流程来缩小所需的人机交互次数。机器人流程自动化 (RPA) 技术能够解决手动工作,例如与来自多个起源的数据交互,大批量和重复性工作,例如数据迁徙和审批工作流程,以及人工智能能够跨第三方解决方案拜访不同应用程序的多个零碎工作和其他软件。这能够进步生产力、改良产品并进步客户满意度。联合技术和人类过程确定优先级并假如智能企业软件的施行将简略地即插即用是不够的。相同,它须要一个策略打算,将技术决策与人工流程联合起来,使企业顺利运行,与业务指标保持一致。在采纳或优化智能企业软件打算时,请牢记这些要点: 依据总体业务指标和通过验证的用例设定明确的指标。 毫无疑问,智能企业软件十分宏大。如果不首先依据业务指标确定技术的优先级,企业可能会陷入不匹配的战术和策略,导致拼凑修复、回溯和资源节约。关注数据管理和治理,包含数据品质、数据隐衷、数据安全和数据因循。迈向智能企业的第一步包含采纳企业资源布局 (ERP) 软件包,例如 SAP S/4HANA,使组织可能收集和解决大量数据,生成实时数据洞察力,并剖析这些数据以进步透明度和效率。然而,原始数据并不像许多人设想的那么有用。它须要组织、质量检查、治理和安全策略,所有这些都是在进入 ML 流程或决策之前。造就一支纯熟的劳动力队伍。 在智能企业软件的背景下,这意味着拥抱人工智能和技术并反对翻新和试验的员工队伍。 人工智能和先进技术的采纳只有在组织最根本的引擎:员工的反对下能力胜利。让员工理解状况并参加情报决策,以确保他们的技能和思维形式与技术指标相匹配。员工培训和倒退帮忙团队应用和治理 AI 和其余先进技术。这包含对现有员工进行再培训和再培训,以及雇用具备必要技能和专业知识的新员工。利用业务流程优化。 这包含辨认现有流程中的瓶颈和低效率,并从新设计它们以提高效率和有效性。 拿航天领头羊来说, 空客, 例如。该公司应用智能企业软件来进步其供应链经营的效率。该软件帮忙公司优化生产流程、治理库存和预测设施故障。参加合作和伙伴关系。 一个胜利的企业不是一个孤立的实体。相同,卓越取决于与其余组织(如技术供应商、钻研机构和学术机构)的合作和单干,以启动提高和独特增长。这包含流传常识和特长,以及与互联行业的其余专家一起取得新技术和能力。实际道德准则和透明度。 局部地,因为其快速增长, 人工智能的道德应用是开发人员、企业和集体的首要思考。确保 AI 零碎偏心、值得信赖并清晰传播,以放弃组织在为客户、利益相关者和员工应用数据和技术方面的透明度。依据可扩展性布局将来增长。 智能企业软件的技术随着数据和需要的一直变动而一直倒退。这意味着老本和能力也在一直变动。为了适应将来的增长,企业必须筹备好进一步投资存储空间和资本以满足将来的需要。企业业务中的人工智能依然以人为本人工智能企业软件的影响为企业带来了微小的益处,但人们依然保持沉默,局部起因是劳动力的担心和来自劳动力的担心。尽管人工智能的确会导致工作岗位散失,但它也能让员工腾出工夫专一于更简单、价值更高的工作。这能够进步工作满意度和生产力。能够通过对劳动力进行再培训和再培训以从事更简单和重要的工作,并应用技术来反对决策制定、解决问题和创造力,这些都是机器无奈代替的人类工作,能够加重工作岗位散失的可能性。 ...

March 15, 2023 · 1 min · jiezi

关于oushudb-hawq:一对强大的组合现代数据仓库和机器学习

机器学习 (ML) 等人工智能 (AI) 技术扭转了咱们解决和解决数据的形式。然而,人工智能的采纳并不简略。大多数公司仅将 AI 用于其数据的最小局部,因为扩大 AI 具备挑战性。通常,企业无奈利用 预测剖析 因为他们没有齐全成熟的数据策略。 要扩大 AI 和 ML,公司必须领有弱小的信息架构来执行公司范畴内的数据和预测剖析策略。例如,这要求企业将其数据应用程序的重点放在降低成本和经营之外。全面采纳人工智能将须要企业做出判断,并面临组装古代信息架构的挑战,该架构使公司数据筹备好进行预测剖析。 古代数据仓库是采纳 AI 的催化剂,能够减速公司的数据成熟之旅。它是对立数据和 AI 平台的重要组成部分:它收集和剖析数据,为 AI 生命周期的前期阶段筹备数据。利用您的古代数据仓库将推动您的业务超过传统 数据管理问题,并使您的企业可能通过 AI 翻新实现数字化转型。 什么是古代数据仓库?本地或遗留数据仓库不足以满足具备竞争力的业务。当今市场要求组织依附大量数据来为客户提供最佳服务、优化业务经营并进步利润。本地数据仓库并非旨在解决这种数量、速度和多样性的数据和剖析。 如果您想在以后环境中放弃竞争力,您的企业必须领有一个基于云构建的古代数据仓库。古代数据仓库可主动执行数据摄取和剖析,从而敞开连贯数据、洞察力和剖析的循环。它能够运行简单的查问以与 AI 技术共享,反对无缝 ML 和更好的预测剖析。因而,组织能够做出更理智的决策,因为古代数据仓库捕捉并了解组织数据以在全公司范畴内提供可操作的见解。 古代数据仓库如何与机器学习协同工作?古代数据仓库在不同级别运行,以收集、组织和剖析用于人工智能和机器学习的数据。这些是古代数据仓库的次要特色: 多模型数据存储数据存储在仓库中,以优化特定业务数据的性能和集成。 数据虚拟化未存储在数据仓库中的数据在源头进行拜访和剖析,从而升高数据分析的复杂性、谬误危险、老本和工夫。 混合工作负载这是古代数据仓库的一个要害个性:混合工作负载反对实时入库。古代数据仓库能够同时并继续地摄取数据并运行剖析工作负载。 混合云部署企业抉择混合云基础架构在公有云和公共云之间无缝挪动工作负载,以实现最佳合规性、安全性、性能和老本。 古代数据仓库能够收集和解决数据,使数据能够轻松地与其余预测剖析和 ML 工具共享。此外,这些古代数据仓库提供内置的 ML 集成,能够无缝构建、训练和部署 ML 模型。 在我的古代数据仓库中应用机器学习有什么益处? 古代数据仓库采纳机器学习来疾速调整和适应新模式。这使数据科学家和分析师可能取得可操作的见解和实时信息,因而他们能够做出数据驱动的决策并改良整个公司的业务模型。 让咱们看看这如何实用于“我如何取得更多客户?”这个古老的问题。咱们将探讨两种不同的办法来答复这个常见的业务问题。 第一种办法是传统办法:制订吸引特定受众群体的营销策略。您的企业能够依据客户的购买动向和您公司在提供价值方面的实力来确定指标细分市场。得出这个论断须要对数据提出演绎性问题: 什么是需要曲线?咱们的细分市场更喜爱什么产品?潜在客户什么时候购买咱们的产品?咱们应该在哪里做广告以与咱们的指标受众建立联系?旨在帮忙您的公司答复这些问题的商业智能工具和服务并不不足。这包含即席查问、仪表板和报告工具。 第二种办法利用数据仓库中的机器学习。借助 ML,您能够利用现有的古代数据仓库来发现对您的 KPI 影响最大的输出。您只需将无关现有客户的信息输出统计模型,而后算法将形容定义现实客户的特色。咱们能够围绕特定输出提出问题: 咱们如何向年收入在 100,000 美元到 200,000 美元之间且喜爱滑雪的女性做广告?咱们自助服务客户群的散失指标是什么?哪些常见特色会造成市场细分?ML 在您的数据仓库中构建模型,使您可能通过您的输出发现您的现实客户。例如,您能够向计算模型形容您的指标客户,它会找到属于该细分市场的潜在客户。或者,您能够将现有客户的数据输出计算机,让机器学习最重要的特色。 论断在咱们的数据密集型世界中,古代数据仓库对于摄取和剖析数据至关重要。AI 和预测剖析提供更多数据以无效工作,使您的古代数据仓库成为算法运行的现实环境,并使您的企业可能做出理智的决策。人工智能和机器学习等数据科学技术更进一步,让您能够利用数据做出更理智的企业级决策。

March 14, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨数据可观察性-vs-监控-vs-测试

公司在数据和剖析能力上投入了大量资金,为公司内外的人们发明了越来越多的数据产品。这些产品依赖于一堆数据管道,每个管道都是将数据从一个中央传输到另一个中央的软件执行编排。随着这些管道变得越来越简单,重要的是要有工具和实际来开发和调试更改,并在问题对上游造成影响之前缓解问题。数据可察看性、监控和测试都是改良管道的办法,但它们并不相同。 如果您对这三个概念之间的关系感到困惑,请持续浏览。本文将通过答复以下每个问题来解释和比拟数据可察看性、监控和测试: 它是什么?你为什么须要它?哪些工具提供它?数据可察看性首先,您将理解数据可察看性以及为什么须要它。 什么是数据可观测性?数据可察看性是一种更残缺、更全面的数据品质办法,通常是数据成熟度的一个提高 数据管道. 数据可察看性超过了传统的监控能力,并通过应用监控各种数据指标的智能工具来致力缩小数据不牢靠的工夫,并帮忙排查和考察数据品质问题,以缩小均匀检测时间 (MTTD) 和均匀解决工夫(MTTR) 这些问题。 数据可察看性工具以 ML 驱动的异样检测模型的模式提供特定类型的智能,能够自动检测问题。 与监控已知问题的数据测试和数据监控不同,数据可察看性能够在没有任何先入为主的规定和策略的状况下察看数据模式并检测问题。 此外,数据可察看性能够跟踪模式和数据值的变动,并将其用作预测数据将来行为的情报。它通常以度量阈值的模式提供这些预测。例如,依据行计数的察看值,该工具将预测一个潜在范畴,如果数据超出该范畴,数据可察看性会创立并发送警报。 古代数据可察看性工具能够与您的数据堆栈深度集成,以深刻理解 数据品质 以及管道在每一步的可靠性,并作为数据管道的管制立体。这种能力在纯数据测试或数据监控中是不具备的。 为什么须要数据可察看性?数据产品、剖析报告和基于 ML 的算法通常依赖于来自多个源零碎和数据转换工作流的输出。如果一个发生变化或呈现故障,它可能会毁坏所有上游依赖性。 更改数据管道就像解决 Jenga 塔一样。扭转一件,整个事件就会解体。 数据可察看性有助于数据所有者理解和解决数据管道内的任何意外问题,这些数据管道为开发和生产环境中的上游数据产品和应用程序提供数据。应用数据可察看性能够避免不牢靠的数据流过管道。 例如,假如与您的应用程序的交互作为半结构化日志存储在 无SQL 数据库,例如 MongoDB;数据通过 Apache Beam 提取并存储在 Amazon S3 存储中。接下来,Snowflake 中的存储过程查问这些日志并将它们加载到 表格格局 在暂存架构中。最初,dbt 解决数据并将其增加到生产模式中的数据模型中。Apache Airflow 协调整个过程。 因为六个零碎顺次解决数据,因而数据可察看性能够独自监控每个零碎并整体监控流程。能够对流程进行编程,以应用来自数据可察看性工具的数据品质信号和警报来开票、标记不良数据以供未来补救或齐全进行管道。 数据可察看性工具能够构建本人的数据可察看性平台。然而,这意味着不仅要施行数据验证测试,还要增加趋势剖析、继续监控和数据品质后果剖析,在顶部创立可视化层,并施行用于异样检测的 ML 性能。 如果这看起来工作量很大,那的确是。这就是为什么供应商提供大部分开箱即用的性能。然而,在这些工具中,存在相当大的差别。有些只能察看剖析和基于 SQL 的源,而其余的则 集中数据可察看性 可能监控数据管道中所有零碎和起源的数据,无论其构造如何。此外,数据质量指标的计算形式可能会给您的云数据仓库和存储系统带来额定的解决老本。将不将计算下推到数据库的平台与那些将计算下推到数据库的平台辨别开来,并思考您的 TCO。 数据监控通常,数据监控与数据可察看性用在同一句话中。然而,两者之间存在差别。 什么是数据监控?数据监控是超过数据测试的一步,通常在构建新的数据管道或对管道进行更改时进行数据测试时施行。在数据测试到位以在正确的点对数据进行功能测试之后,您将须要一个监控零碎来持续进行。 数据监控是一种实际,在这种实际中,依据可承受的阈值一直检查数据的预定义数据指标,以收回问题警报。适当的数据监控应该从可察看性开始,辨认数据模式和未知问题的异样,并从那里定义和设置须要测量和监控的内容。没有可观测性的数据监控,只能显示外表问题;数据可察看性提供了对继续问题的更深刻了解。 您能够将监控称为整体监控,因为它超过了数据测试,并且随着工夫的推移比拟指标会产生您无奈从繁多数据测试中取得的模式和见解。 为什么须要数据监控?当您须要跟踪的内容很显著时,数据监控是正确的抉择。如果您监控特定的数据工件并确切晓得该数据随工夫的变动状况,您能够设置规定来监控它并设置警报以获取告诉。 哪些工具提供数据监控?通常很难本人找到这类工具,局部起因是一些数据监控工具曾经从数据可察看平台从新定位,而没有数据可察看性的残缺性能,局部起因是数据监控在技术上是数据可察看性的一个子集。 对于一个简略的解决方案,设置数据监控能够像为 Plotly 图表提供指标一样快,条件格局会在达到阈值时发生变化。或者,您能够应用 数据验证规定 在继续的根底上并逐步建设用于自动检测异样值和异样的基线,这将导致您的数据可察看性实际。 数据测试前两个概念能够帮忙您掂量数据品质,而这个概念能够帮忙您确认它。 什么是数据测试?数据测试或“数据品质测试”验证您对假如的理解,这些假如须要放弃实在能力按计划解决数据。咱们能够将测试分为两类: 数据的外观: 数据类型、空值、格局等。业务规定: 惟一的电子邮件地址、客户年龄等。谬误的数据须要特定的操作,包含标记它、以不同的形式解决它、存储它以供当前解决或触发申请人工干预的告诉。 有许多 数据品质的维度 您能够测试的内容,包含以下内容: ...

March 14, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨本地和云之间的竞争已经结束混合获胜

许多组织在面临如何治理其工作负载的问题时会问本人:本地 还是 云,这使两者相互竞争。但现实情况是,大多数企业都在“和”的世界中经营,这意味着他们在本地 和 云端都有工作负载——而这个小小的三个字母的词让世界变得不同。 依据 多云治理的状态 调查报告显示,98% 的受访者都有在公共云中运行的工作负载。当然,尽管简直所有 组织的 工作负载都在公共云中,但这并不意味着它们的所有 工作负载 都在云中。事实上,只有 13% 的人示意他们超过四分之三的工作负载在公共云中运行。大多数人(78%)将 26% 到 75% 的工作负载放在公共云中。这意味着残余的工作负载必须在非公共云环境中。换句话说,大多数组织都在治理混合云基础设施。具体而言,同一项钻研发现,均匀有 17% 的企业工作负载持续在本地运行,而 22% 在公有云中。 此外,因为有多个云服务提供商 (CSP) 可供选择,公共云并不是一个繁多的环境。依据考察,大多数组织(82%)应用多个 CSP,这意味着他们治理的基础设施既是混合云又是多云。 为什么“或”是个问题以“或”的心态治理混合云和多云基础设施意味着您将偏向于将每个要害环境构建为本人独特的生态系统。诚然,on-prem、公有云和私有云都是不同的,就像 AWS、Azure 和 GCP 私有云都是不同的一样——它们都有本人独特的特点。然而,尽管可能存在应用程序或服务齐全蕴含在一个环境中的状况,但很可能大多数都逾越这些环境。例如,您能够领有本地数据,这些数据由一个公共云中的应用程序应用,而另一个公共云中的另一个应用程序应用这些数据。 思考到所有这些环境在继续工作负载和应用程序操作方面的互相关联性,如果对这些环境的可见性(和治理)有余,则可能会呈现问题 孤立的. 例如,通过别离解决每个工作负载和环境,您将无奈晓得哪个公共或公有云提供商最适宜满足您的特定性能和危险规范,或者您是否正在优化云实例的容量或老本。如果没有这方面的常识,您可能会在不必要的状况下超支和适度应用,从而难以实现业务指标并在不可避免地产生不可预感的状况时将潜在问题降至最低。 “和”如何修复它或者,如果您有“和”的心态,您就不再治理一组独立的环境,而是治理一个互连的基础设施。这是因为您将外部部署和云视为合作伙伴,并且您理解其中应用的流程和工具以及它们之间的关系。 不论您怎么想,您不须要仅仅为了实现这种心态就更换所有现有的特定于环境的工具。然而您的确须要对性能进行分层以整合和剖析数据,以便您能够启用适当的响应操作。是的,这须要投资。然而,当您思考到手动拼接数据和报告所破费的工夫、“转椅”监控和治理的低效以及孤岛之间“接缝”处盲点的影响时,很显著投资将很快失去回报. 论断事实上,大多数组织都没有施行这种“和”思维模式。许多组织发现他们面临的最大挑战是全面理解其混合基础架构的利用率和收入:在上述同一项考察中,73% 的云领导者提到他们的团队在孤岛中工作。但受访者也挣扎于 放弃老本 失去管制 (44%) 并放弃优化 (40%)。 通过适当的混合基础设施治理和迁徙布局——采纳“和”办法——只有从这个无利的角度,组织能力真正优化他们的整个基础设施,以更低的老本取得更好的性能和更低的危险。

March 14, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨零拷贝集成小数据实践将如何取代大数据

数据的将来很小。 随着组织致力应答一直减少的数据量,大数据静止的局限性变得越来越显著。在过来的二十年里, 大数据 以尖端软件的模式提供了益处,使数据的生成、收集和合并对组织宽泛可用。这些踊跃影响既宽泛又显著,从航空的最佳路线布局到金融部门的欺诈检测和风险管理,甚至在联邦层面追踪传染病。 但明天, 数据存储、清洁和筹备以及结构化曾经开始超出咱们从所有这些信息中收集咱们想要的货色的能力。大数据有时可能太大,以至于咱们无奈依照实时业务的步调进行理论剖析和利用。 将大数据转化为小数据兴许解决这个问题的办法是小数据。小数据是对用户更敌对、更易于拜访并提供可掂量收益的信息。小数据的指标是在正确的工夫为分析师提供他们须要的数据,以便他们做出最理智和最及时的决策。 在寻求将大数据转换为小数据时,公司能够采取几种不同的路径。最间接的办法是创建一家以数据为核心的理念的公司,建设在数据与公司任何其余资产等同重要的根本了解之上。 这实际上意味着为所需的每个类别创立一组数据,并制订政策强制员工从数据中提取他们须要的内容,并将可操作的精确信息返回给各自的部门。 这可能须要组织小组从新组织他们从地方“黄金记录”数据中获取的数据。然而,只有多数负责保护数据集完整性的专家有权更改组织的次要数据集。 与此同时,世界其余中央通过复制数据集、更改这些数据集而不保护“黄金记录”数据集的完整性,无心中使他们的状况复杂化。 只管复制和更改所有这些数据集最后能够帮忙组织在短期内实现摆在他们背后的任何指标,但明天的结果包含孤立的数据集,使机器无奈与这些数据库进行通信并从中提取相干信息。 以数据为核心的架构是围绕有目的地围绕数据的操作构建的。这也意味着平安和治理协定能够插入数据自身,因而它可能爱护本人。 然而,当今私营和公共部门的可怜事实是,绝大多数公司和组织无奈忽然转变为以数据为核心。那些的确转向这一策略的公司受害于从头开始倒退和扩充规模的能力。 零拷贝集成解决方案现实状况下,由反复数据集引起的问题将通过零拷贝集成解决——无需复制或以其余形式物理挪动数据的按需集成数据。 此过程将数据拉到一起,而不是将其粘贴到数据存储单元(如池、湖和仓库)中。这容许跨多个数据集进行联结查问,分析师能够在其中利用黄金记录(事实起源),而不用将它们复制到另一个数据孤岛中。 零拷贝集成还容许“数据洁净室”,能够在不泄露理论数据的状况下比拟和剖析来自不同起源的敏感数据。这能够应用不共享数据但依然可能剖析数据并辨认相干位以进行多方计算的密码学来实现。 例如,行业监管者可能想要理解许多公司有多少独特客户。客户领有数据并可能恪守隐衷和合规常规。然而应用明码技术,普通人能够在不共享信息的状况下失去答案。 近年来,各行各业的公司破费了数千万美元和人力小时试图以更高效、更不易出错并提供实在见解的形式从新定位其数据管理系统。但这个过程不可避免地迟缓且低廉。 零拷贝集成性能很快将成为公司用来扩充规模和放弃竞争力的次要燃料类型之一。那些采纳这种办法的人忽然吹牛本人的市场差异化劣势。那些漠视这个问题的人将被抛在后面,很可能会进行运作。 但买进必须产生在执行团队层面。首席信息官理解零拷贝集成是将来。但他们须要他们的最高管理层共事分享这一愿景。 如果组织的最高领导者没有意识到这种转变的必要性并提供资源来实现改革,那么就不可能顺利过渡到新的和改良的零碎。 将将来带入当初转换为零拷贝集成数据管理系统的财务老本可能仍会阻止许多公司迈出这一步。组织意识到零拷贝集成提供的竞争劣势,但如果老本超出预算,改革的步调就会迟缓。 相似于互联网晚期采纳者的创新者将成为使零拷贝集成成为事实的推动者。这些人具备极强的动机来共享数据和合作以实现微小的翻新飞跃。 同样,学术研究人员——包含那些从事癌症数据和其余扭转生存我的项目的钻研人员——将与大数据静止的领导者一起属于这一群体。 但与最后对互联网的当机立断随后失去更宽泛的承受相似,工夫将证实零拷贝集成和以数据为核心的架构将如何成为公司打算的要害局部,因为它们心愿放弃竞争劣势。 金融科技公司曾经在应用语义图技术来施行零拷贝集成,国内供应链公司曾经意识到通过以数据为核心来优化经营的动机。 一旦这种策略的晚期采纳者取得的益处变得显著,零拷贝集成将扭转业务的发展形式——就像短短几年前的大数据一样。

March 14, 2023 · 1 min · jiezi

关于oushudb-hawq:偶数社区投稿丨OushuDB学习实践系列一开一家超市

哈喽,大家好,我是镜镜呀,自身也是一名技术开发人员。本系列内容,也将由技术点登程,从数据库的应用、实际开始,逐渐减少对整体的认知,由点及面,真正了解偶数 DB、数据湖仓一体在技术上的改革,以及对行业的影响。 为了更不便了解 OushuDB,以及相干操作,在这本系列内容中,设计了一个场景。但最开始,咱们还是要先启动整个环境。 启动环境关上 terminal,并执行 设置OushuDB的环境变量,并执行(执行后没有任何输入返回,是失常的)source /usr/local/hawq/greenplum_path.sh 启动hdfsstart-dfs.sh 启动整个oushuDB集群,和magmahawq start cluster -a --with_magma 独自启动magmamagma start cluster开一个超市你打算开一个超市,然而有很多商品,你须要一个治理商品、进货、交易等的流程。 首先,你想到,须要几张表格,别离记录: 商品表:商品的名称、价格、数量等。交易订单表:记录卖出了哪些商品.......多张表组成的零碎,咱们就称之为数据库。 创立一个数据库 进入到数据库psql -d postgres 创立数据库 (很多输出是大写的,大家能够在键盘上按“CAPS LOCK”键关上大写输出,不便书写,须要小写时再切回来)postgres=# CREATE DATABASE supermarket;CREATE DATABASE 查看有哪些数据库,咱们会看到有了一个supermarketpostgres=# \l List of databasesName | Owner | Encoding | Access privileges postgresgpadminUTF8 supermarketgpadminUTF8 template0gpadminUTF8 template1gpadminUTF8 (4rows) 查看的另一种形式:查看零碎表pg_database, 查看datname字段(!留神不是dataname)postgres=# select datname from pg_database; datnametemplate1 template0 postgres supermarket(4rows) 当你开了一家超市,你天然就是这个超市的客人,同样的,当你创立数据库后,你就主动成为了这个新数据库的客人(所有者),当前开不开这家超市,是否删除掉这个数据库,都是你来决定。 当初,咱们退出数据库,从新进入 supermarket 库。 退出posgres数据库 (在unix类零碎中,'\'个别示意执行,q全称是quit,个别示意退出)postgres=# \q[gpadmin@localhost ~]$ 进入到数据库supermarket[gpadmin@localhost ~]$ psql -d supermarketpsql (8.2.15)Type "help" for help. ...

March 13, 2023 · 2 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨如何更好的进行数据管理10-条建议给到你

这个时代数据量的快速增长和数据复杂性的大幅度提高,让企业迫切的寻找更加智能的形式治理数据,从而无效进步 IT 效率。 治理数据库不是繁多的指标,而是多个指标并行,如数据存储优化、效率、性能、平安。只有治理好数据从创立到删除的整个生命周期,企业才可能大幅度提高效率,升高运维难度,从而应答数字化转型。 10 条数据库治理倡议大数据利用场景一直倒退,在数据平台建设和数据管理实际中,咱们总结出 10 条治理倡议。 1、对业务指标有清晰的意识:列出业务指标,确定数据的指标是什么。企业指标可能包含:• 创立和改良自动化数据流程• 做出实时和无效的商业决策• 辨认行业趋势和商业模式• 发现客户的行为和应用习惯 2、制订可执行的数据处理流程:将业务指标转换成具体的技术需要,例如从哪些数据源提取数据、要解决哪些数据、指标数据格式和输入形式等。进而确定数据处理步骤,包含数据提取、数据荡涤、数据转换、数据整合、数据加载等。数据处理策略和流程为企业用户提供对立的执行规范,在日常的数据经营中,能够创立智能数据处理流程,无效缩小谬误产生,并在谬误产生后更疾速辨认谬误起源。 3、数据通道和数据集成:从多个起源获取数据时,数据库必须可能与其余零碎连贯。没有数据的通道和集成,就不可能造成与其余零碎的无效连贯。次要的数据集成办法:• ETL或ELT用于解决批量数据并将其传输到数据平台• 通过数据管道工具或者文件传输工具将数据从本地存储传输到数据平台 4、集成数据分析:数据分析是古代商业智能的必要组成。将数据分析所需的数据源和数据接入形式与企业的数据管理体系和数据平台进行集成,从海量数据中开掘商业商机,优化经营,从而做出更正当的商业决策。 5、自动化数据服务:应用自动化技术和工具来解决和治理数据的服务。这些服务能够帮忙企业更快地获取、解决、剖析和可视化数据,同时缩小人工操作和谬误。如主动的部署、采集、荡涤、剖析和可视化。将自动化与数据分析相结合,让剖析人员可能专一于数据分析,缩小数据分析的筹备工夫。 6、数据安全:数据是企业最重要的资产之一,因而爱护企业数据资产是企业数据管理的首要任务。数据安全措施能够帮忙企业爱护数据资产,缩小数据泄露和平安危险,从而爱护企业的信用和利益。另外,站在客户隐衷的角度,许多企业都解决客户的个人信息和敏感信息,如银行卡号码和身份证号码。数据安全措施帮忙企业爱护客户隐衷,从而建设客户信赖和忠诚度。 7、确保数据完整性:数据完整性间接影响数据的品质,如果数据品质不好,企业可能会做出谬误的剖析和决策。另外,数据完整性能够进步数据分析的效率,如果数据是残缺无效的,剖析人员将可能更快地开掘到相干信息,做出更精确的决策,并且更容易发现数据之间的关系和模式。 8、制订备份和复原流程:无论是天然劫难还是人为劫难,只有有数据传输、存储和替换的中央,就会产生数据生效、失落、损坏等危险。备份数据应存储在独自、独立且平安的地位,只有多数受信赖的管理人员能够拜访。 9、缩小数据冗余:数据冗余不同于无意备份数据,冗余的数据不必要地占用了大量存储空间,造成数据库的性能降落。此外,反复的数据会导致 IT 资源和人力老本的节约。10、打消数据孤岛:除了 IT 部门无心或无意的为业务部门造成的数据拜访阻碍,多个数据平台和集群也让 IT 部门本身很难整合数据,难以打消数据孤岛,也更难以为业务部门提供对立的数据拜访。改良或者交融现有的技术架构体系,能够无效打消技术局限造成的数据孤岛。 正确的办法+优良的工具正确的办法+优良的工具,能力让数据管理指标顺利落地,偶数科技的实时湖仓一体平台 Skylab 正是宽广用户落地数据管理指标的高效工具,帮忙企业无效落地上述 10 条倡议。Skylab 蕴含数据利用、数据开发、数据库、人工智能、大数据、系统管理六大类组件。真正在数据和查问层面造成一体化架构,彻底解决集群规模和并发受限、非结构化数据无奈整合、建模门路简短、数据一致性弱、性能和时效瓶颈等问题,从而帮忙用户彻底躲避数据孤岛,优化数据供应能效,无效升高 IT 运维老本和数据管理技术门槛,让企业在数字化转型过程中博得先机。 更多内容关注OushuBD 小课堂

March 13, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨2023-年数据科学趋势

数据和剖析正在帮忙扭转商业世界,随着咱们进入 2023 年,当初正是预测如何应用数据的最佳时机,为新的一年的顶级数据和剖析趋势做好筹备。当今推动市场的一些与数据相干的次要趋势包含数据迷信、数据分析和人工智能 (AI) 的提高,它们正在独特扭转寰球的业务。 为什么要关注数据迷信趋势?每年大概这个时候,行业观察家、商业首领、商业经营者和数据迷信爱好者都期待着在将来 12 个月内酝酿、呈现并主导商业环境的一组新的数据迷信趋势。 行业专家认为,数据迷信“帮忙(企业)在面对不确定性时做出确定性的反馈——尤其是当和平和流行病扰乱了既定的事物秩序时。” 随着寰球组织致力变得更加以数据为核心,企业数据流动占据核心地位,许多 数据迷信趋势 2022 年初呈现的数据迷信和技术趋势将持续主导 2023 年。预计的数据迷信和技术趋势将无望帮忙企业更好地筹备新的一年业务策略,并设定进步业务绩效的指标。 2023 年次要数据迷信趋势在本文的无限篇幅内简直不可能涵盖 2023 年的所有预测趋势。因而,一些次要趋势,被认为对 2023 年的企业产生最大影响,已在此处入围: ● 数据素养打算的微小增长:投资于数据素养家乎将在 2023 年达到峰值。数据素养的最终目标是数据民主化,它指的是让业务数据在组织的每个级别都可用,而不仅仅是剖析团队和高层管理人员。缩小对数据科学家的日常数据处理工作的依赖是现实的后果。 ● 加强剖析的衰亡:宽泛采纳 加强剖析 ● 数据处理自动化:机器学习和自然语言解决都将被用于更好地实现自动化数据迷信过程由人工解决,从而进步工作流程的效率。 ● 大数据分析自动化: ML 和 AI 工具将尝试管制大量 数据数据迷信过程 ● 实时剖析和边缘计算:作为 实时数据分析 循证决策成为企业和政府的基石,越来越多的企业将利用 边缘计算. 据 IDC 称,超过 50% 的“新的企业级 IT 将部署在网络边缘” 很大水平上得益于基于云的软件的倒退,组织当初可能实时监控和剖析大量企业数据,并相应地对其业务流程进行必要的调整。 ● 从加强剖析到加强 BI:加强剖析当初正在执行数据科学家级别的工作,范畴从帮忙筹备数据到主动解决数据并从中得出结论。加强剖析在将来几年可能会呈现各种倒退,成为增强型 BI 平台衰亡的次要参与者。 ● 数据即服务:许多云提供商当初提供 DaaS(数据即服务). DaaS技术使用户可能通过互联网生产和拜访数字资产。DaaS 使企业可能从他们的专有数据中提取丰盛的市场情报和有价值的见解。DaaS 使组织可能设计营销策略,反对企业倒退,并使他们从竞争对手中怀才不遇。 ● 增强型数据管理:人工智能工具使企业可能借助自动化算法疾速剖析数据并提取见解,这些算法会随着接触到越来越多的数据而不断改进。加强数据管理还将容许应用高级剖析将来自企业外部和内部的数据联合起来。例如,SAP 提供灵便的解决方案,用于在整个企业中建设自主数据管理和剖析。 ● 监控市场情报:实际 获取和监控市场情报帮忙寰球组织在日益简单的商业环境中“进步绩效”。NLP 将在 2023 年的市场情报监控和跟踪中施展关键作用,因为企业会应用数据和洞察力来塑造他们将来的策略。 ...

February 22, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB小课堂丨没有可信核心数据数据网格就是数据网格

为应答一直增长的数据挑战而寻求疾速响应和可继续解决方案的组织越来越依赖数据网格等架构办法来疾速高效地提供信息。数据网格和其余虚构数据办法连贯、对立信息,并使其在泛滥畛域可用 数据孤岛 和仓库,以便将其无效地交到分析师和其余用户手中,从而带来更好的决策、减少数据集的所有权和分布式合作,以及其余踊跃成绩。 然而,高质量、可信的数据是许多数据网格架构中常常被忽视的组成部分。简略地将数据挪动到云端并使其更易于拜访并不能解决问题 数据品质 问题。不精确、反复或过期的数据——无论是来自仓库还是通过数据网格虚拟化交付——加剧了现有问题并使问题变得更糟。将基于云的主数据管理 (MDM) 解决方案增加到数据网格或任何虚构数据架构有助于解决数据品质难题,并能够促成任何云转型。 虚构数据有多种形式数据虚拟化使应用程序可能拜访和集成来自多个不相干数据源的数据,就如同它们是一个对立的数据源一样。数据虚拟化能够实时拜访数据库、文件系统和基于云的数据存储等起源,并创立一个可供应用程序和其余零碎拜访的虚构数据层。这能够在不物理挪动或复制数据的状况下实现,从而节省时间和资源。 不同的数据虚拟化办法不断涌现,包含数据网格和数据结构。虚拟化数据的力量在于创立数据产品,这些产品是特定业务畛域能够应用的一组特定的有组织和可重用的信息,并且明确由最靠近该数据的团队领有。数据产品能够为数据分析师节省时间,他们能够花更多的工夫剖析数据,而花更少的工夫查找和修复数据。 数据网格和数据结构类似,但在要害方面有所不同: 数据网格 是一种分散式数据架构,为存储和治理大量数据提供灵便且可扩大的基础设施。这种办法能够进步数据的可拜访性,减少合作,并反对创立高质量、牢靠和可重用的数据产品。数据网格是一个概念,它将信息从集中的湖泊和仓库中转移进去,并将其交到畛域和主题专家的手中。在此结构中,数据被视为产品并由领域专家领有。Fabric 能够帮忙领域专家和分析师确定能够在何处应用数据 数据结构 是互连数据存储和解决资源的网络,使组织可能更无效地拜访和应用其数据。Data Fabric 提供了一个对立的平台来治理、存储和拜访数据,无论数据位于何处或如何构建。数据结构通常包含一系列技术和工具,例如分布式存储系统、数据湖和数据管道,它们协同工作使组织可能大规模收集、解决和剖析数据。数据结构相似于元数据;它是一个目录零碎,用于辨认可用的信息及其所在位置。 尽管这些架构因其解决数据拜访问题的后劲而受到追捧,但也存在潜在的局限性,包含无奈提供可信、精确的信息。除非同时解决品质问题,否则仅将数据挪动到云端或使其更及时和更易于拜访无奈扭转业务 MDM:古代数据架构的对立根底基于云的 MDM 使组织可能治理和保护组织要害外围数据的统一且精确的视图,例如无关客户、供应商、地位、资产和供应商的信息等。这是每个组织运行所依赖的重要数据。外围数据可能驻留在许多孤岛中,这给大多数组织带来了挑战。外围数据通常不精确、过期或在其余中央反复。解决这些问题既费时又费钱,因而越来越多的组织转向基于云的解决方案来把握外围数据。 通过创立要害业务数据的繁多、精确视图,MDM 能够确保虚拟化架构中的数据统一、精确和更新。这能够进步数据品质,并大大晋升数据对业务用户的价值。 换句话说,“外围数据作为产品”和 MDM 的概念有着亲密的内在联系。 基于云的 MDM 通过提供用于治理数据定义、关系和规定的集中式零碎,简化了虚拟化架构中的数据管理。这使得数据管理员和其余数据管理业余人员更容易了解和治理数据,从而大大提高了虚构架构的整体有效性。 基于云的 MDM 为组织提供了更大的可扩展性和灵活性,并帮忙他们进步数据品质和一致性。因为数据受到治理和治理,组织能够轻松执行数据规范并确保信息精确和最新。因为云能够无缝扩大或膨胀以满足一直变动的需要,因而组织能够疾速增加或删除数据源和用户,而无需投资额定的硬件或软件。这有助于防止代价昂扬的谬误并进步数据驱动决策的可靠性。 改善业务成绩依赖于及时精确的数据每家公司都越来越迫切地转向数字优先方向以提高效率、增长和风险管理,尤其是在思考客户体验时。消费者、供应商和员工冀望在简直任何状况下都能取得“按需”或全渠道体验。他们心愿可能利用数字技术实现 24/7 全天候自助服务(任何设施、任何地点、任何工夫),并辅以呼叫核心等其余渠道。犯了这个谬误——或者让您的客户因不统一或蹩脚的体验而感到丧气,会将他们送到他们的竞争对手那里。这就是为什么只管最近面临经济挑战,但仍有如此多的人持续投资于云迁徙和数字化转型。古代数据架构办法是朝着这个方向迈出的重要的第一步。然而,如果没有精确、可信、和实时外围数据作为根底。投资基于云的古代 MDM 解决方案作为数据网格或任何虚构数据架构的根底,能够提供精确、实时的外围数据对立视图,组织能够应用该视图来实现这些业务指标,同时提供切实的投资回报率。 欢送大家欢送关注 OushuDB 小课堂

February 22, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨如何评估现代数据管道的数据质量准备情况

对于具备增长意识的组织而言,有效应对市场条件、竞争压力和客户冀望的能力取决于一项要害资产:数据。但仅仅领有海量数据是不够的。真正数据驱动的要害是可能拜访精确、残缺和牢靠的数据。事实上,Gartner 最近发现,组织认为数据品质差是造成均匀 每年损失 1500 万美元 – 一个能够减弱大多数公司的数字。可怜的是,确保和保护数据品质可能十分艰难。组织的数据架构抉择加剧了这种状况。遗留架构通常不足扩大能力来反对一直增长的实时数据量并导致数据孤岛这减缓了整个组织从中受害所需的必要数据民主化。 当初比以往任何时候都更重要的是,最高品质和牢靠的数据驱动业务决策。但确保这一点的最佳办法是什么?您是否须要改良数据品质施行?您应该从哪里开始,应该关注哪些质量指标?这个由两局部组成的博客系列提供了一个分步指南,可帮忙您从数据品质筹备的角度自行决定您的组织所处的地位。 理解不良数据的外围症状重要的是要理解并非所有数据都是平等的。组织收集的数据中有多达 85% 是通过各种计算机网络操作(例如日志文件)获取的数据,但未以任何形式用于获取见解或决策。 对于许多组织来说,剩下的 12-15% 的数据对业务至关重要并且踊跃用于做出理智的决策,或者能够货币化,这才是最重要的。这些数据的品质和可靠性至关重要。以下是一些常见的业务场景数据品质差: 触发合规处罚的数据谬误导致谬误决策的不精确危险评估(例如,批准不良信用)行为不当的欺诈检测模型会导致适度危险或拒绝服务高管埋怨不正确的 BI 仪表板和报告谬误数据导致的定价谬误导致支出损失您的数据合作伙伴埋怨您向他们提供不良数据您的数据团队破费太多工夫来修复损坏的数据这些听起来很相熟吗? 如果您遇到这些问题,很可能是您在数据品质笼罩和筹备方面存在差距。当初让咱们看看如何评估您的数据品质。 评估数据品质筹备状况的注意事项首先,重要的是要形容您的组织正在踊跃应用的数据量,以帮忙取得洞察力。数据量越大, 数据品质成为问题的机会就越大。 相同,如果您解决的数据量无限或较小,则任何低质量数据对业务的间接影响就越大 。变量越少,任何集体或类型的数据品质问题对洞察力的影响就越大。无论您须要对大量数据进行根本查看,还是须要对一小组数据元素进行深刻查看,数据量都会显着影响您的数据品质办法。 其次,理解数据管道的行为很有帮忙,包含数据的起源、数据的转换和优化形式、数据更新的频率;并且,它是否处于能够剖析和用于开发牢靠业务洞察力的状态。这会告诉您数据最有可能显示缺点的地位。 最初,理解数据环境中的这些元素如何协同工作很重要。晓得要留神什么以及应该监控哪些数据质量指标 (DQI) 以确保维持数据品质,以便您的剖析、决策反对仪表板或报告前端提供精确、可操作的信息。 一旦您对环境有了更宽泛的理解,并且在操作数据管道时,您应该查看有助于进步数据品质的最低服务级别。 这些包含: 依据预期的更新节奏(例如,每小时、每天)按时更新在每个数据实体的每次更新中获取预期的新数据量确保新值填充有数据并且不会为空或缺失确信增加到实体的新值合乎预期的模式或数据类型确认新值合乎预期的数据分布并且不是有效的证实实体中的新值与数据管道中的参考点(例如摄取点)统一这不是一份详尽的数据质量检查列表,但它列出了人们能够在间断运行的数据管道上做出的最常见断言。这些是根本查看,如果查看失败,应收回警报。 如果您在数据品质笼罩方面遇到问题,请不要感觉只有您一个人——许多组织都没有正确解决他们的数据品质问题。在本系列的第二局部中,咱们将理解如何 量化 数据品质健康状况。 欢送大家欢送关注 OushuDB 小课堂

February 22, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB小课堂-丨建立数据分析策略以了解您的供应链

咱们都据说过并看到了运费上涨的事实。2021 年,美国通过公路和铁路运输货物的国内运费上涨从 2020 年起 23%. 然而,真正的问题是,即便您负担得起这种减少,产品和产能也可能无奈取得。需要显然存在,但满足该需要的运输方面的供给可能不存在。鉴于老本和需要的减少,当初是构建数据分析策略的最重要时刻,该策略能够帮忙您找到理解产品何时到货的办法,以及不晓得的实在老本。 从理解全局开始“信息就是力量”这句老话再正确不过了。对于产品可用性,这意味着实时细节在整个供应链上进行疾速调整,从而对支出和利润产生重大影响。运输成本是盈利能力难题中越来越重要的一部分。 另一面是支出。您当初是否也因为无奈按时或根本无法取得产品而损失支出?或者您是否能够因为有可用的产品而发明竞争劣势?您的客户仍在订购,但如果您无奈履行这些订单,那么该问题对您业务的真正上游影响是什么? 人们(您的客户)会找到另一种形式来满足他们的需要,而这些客户是您可能永远无奈回头的。第一步不是将此问题视为“这会过来”的挑战,而是将其视为对您的业务的严重威胁。接下来是构建数据分析策略来解决这些问题并使您的数据具备可操作性。 定义需求预测模型当您的业务取决于获取原材料或产品而后将产品运回时,当您不晓得特定货物是否/何时达到时,这将成为一个真正的挑战。这些未知数可能成为产品提早和客户散失的起因——但它们不肯定是。 创立的老本和速度预测剖析和云数据平台在过来 18 个月中大幅缩小。公司不再须要花一大笔钱来从他们的数据中实现价值。走过了漫长的路线。通过理解哪些因素很重要——从经济金融模型到周期性因素、人员在天文上的流动,再到您所在行业的独特性,您能够构建一个需要模型来理解在接下来的三个到六个月。这些信息,再加上原材料的交货工夫、生产工夫和运输工夫,能够成为您的物流策略的支柱,决定什么时候订购什么。 理解对保证金的理论影响咱们常称此为“利润保证金归属” 如果无奈理解导致收入的起因,简直不可能做出扭转。对您的运输收入的剖析往往会揭示要害见解和优化收入的必要性。您是否应用适合的供应商来运送适合的货物?航道、始发地或目的地地位、客户或产品类型是否对利润率产生了不成比例的负面或侧面影响?产品的个性(例如分量、体积分量 SLA 以及距配送核心的间隔等)是否有影响? 这些见解和其余见解可能会对供应商如何为货物定价产生微小影响。做出与交付相干的谬误决定可能会对您的整体利润产生微小影响。咱们有一些客户仅仅因为抉择了谬误的供应商就能够节俭高达 20% 的老本。通过理解运输收入以及暗藏老本的地位,您能够确定应应用哪些供应商、哪些产品以及哪些客户。 在寻求管制未知因素时,并不是要达到现实状态。相同,它是对于继续改良并朝着它后退。间接的后果是增加收入和降低成本。策略成绩是,当您制订数据分析策略并可能满足客户的需要时,您就领有了超过行业内其余所有人的微小竞争劣势。 欢送大家欢送关注 OushuDB 小课堂

February 22, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨-2023-年数据治理趋势服务模式的成熟

公司越来越心愿成熟他们的数据治理,围绕其的正式数据管理能力 价值即服务,在 2023 年。这样,组织能够疾速灵便地应答不确定的业务环境。 而数据征询公司的创始人兼首席执行官 Kelle O'Neal 第一旧金山合作伙伴,在 2022 年 1 月首次确定了对数据治理即服务的需要,简单而宏大的数据市场使得这种办法在 2023 年势在必行。 在以后的数据治理中 尝试,许多高管采纳自上而下的寡头办法来应答对公司的挫败感 数据品质,从各种我的项目中获取可用数据。基于这种传统办法的数据治理无奈适应日益数字化的环境。 组织将越来越多地转向面向服务的自下而上的数据治理打算,以实现更好的数据治理,例如“人力资源部门的工作形式”。组织将通过联合以下内容倒退为服务模型: 采纳动态数据治理办法赋予势力 数据管理员, 无效管制和应用数据资产的执行者改善 元数据管理,“在强调关联和因循的组织内形容数据的数据管理”适应日益增多的数据法规筹备好恪守拟议的 AI 法规在 2023 年采纳动态数据治理办法在将数据治理指令利用于特定业务场景时,动态数据治理办法为组织提供了灵活性。例如,如果一家公司与另一家公司合并,它能够扩大其数据治理流程以按需解决更多数据拜访申请。 公司将心愿流程和技术的正确组合和匹配以获得最佳的动态数据治理后果。依据 2021 年 Gartner 数据和剖析 (D&A) 治理考察, 61% 的领导者示意心愿针对业务流程和生产力优化数据。然而,只有 42% 的人认为他们无望实现这一指标。 在某种程度上,先进的技术将扩充数据治理经营效率的抉择。以下先进技术将成为重要因素: 云计算: 云计算,在互联网上存储和拜访数据的技术, 提供新能力 在组织监控和剖析企业范畴内的数据时施行数据治理指令。例如,工作人员和零碎将在工作时依据须要近乎实时地拜访数据集。这种后劲将减少做出适应频繁变动的数据驱动决策的独立性。数字孪生: 数字孪生 可能更好地了解数据治理政策的影响,因为组织能够 模仿不同的实现 在反复的场景中。这种虚构性能将使公司可能依据打算提前施行数据治理,并且比那些依据状况进行数据治理的公司更好地适应。尽管公司曾经采纳混合云平台并打算施行跨云技术来连贯不同的云环境,但只有 6% 2022 年的企业已利用数字孪生。筹备好看到这个数字发生变化。随着公司将数据迁徙到云端,他们将须要简单的技术,如数字孪生,以确保在数据挪动过程中及时实现数据治理流动。 赋予数据管理员势力为了取得数据治理的服务模型,组织将专一于受权数据管理员、数据治理监视器和保护人员,以有价值的形式施行其策略。数据管理员解决 日常决定- 依据数据治理政策制订,并将现场工作人员的反馈提交给数据治理委员会。 因为云计算容许员工从任何中央解决数据,因而数据管理员团队将变得越来越扩散。随着越来越多的公司雇用这些近程或混合型员工,组织将对其数据管理社区建设和技术支持进行现代化革新。 胜利的公司会提供 数据素养 通过第一手共享数据常识从任何地位培训数据管理员并加强他们的能力。一些企业会跟进 美国富达保险的 CDO 倡议并举办虚构外部数据峰会或流动,以告知其余员工数据管理如何为公司的盈利能力做出奉献。 同时,组织将投资于缩小数据管理工作量并减少所有员工自助服务的技术。通过对自动化数据治理平台的投资,数据管理员将疾速提供可交付成绩,例如在数据迁徙期间进步数据品质。 此外,公司将利用人工智能和 机器学习 (ML) 服务,使数据管理员可能利用数据治理解决方案,例如按需更改数据集的可拜访性。此外,ML 和其余自动化将节俭数据管理员的工夫 数据分析,测量数据值,并造成数据品质。 改良元数据管理随着公司将他们的数据治理打算成熟为服务模型,他们将改良他们的元数据管理,即在组织内形容数据的数据管理,强调关联和因循。正如 O'Neal 解释的那样,元数据管理进步了企业对跨数据集的了解,包含它们的内容、如何应用它们以及存在哪些限度。 ...

February 22, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB小课堂丨没有可信核心数据数据网格就是数据网格

为应答一直增长的数据挑战而寻求疾速响应和可继续解决方案的组织越来越依赖数据网格等架构办法来疾速高效地提供信息。数据网格和其余虚构数据办法连贯、对立信息,并使其在泛滥畛域可用 数据孤岛 和仓库,以便将其无效地交到分析师和其余用户手中,从而带来更好的决策、减少数据集的所有权和分布式合作,以及其余踊跃成绩。 然而,高质量、可信的数据是许多数据网格架构中常常被忽视的组成部分。简略地将数据挪动到云端并使其更易于拜访并不能解决问题 数据品质 问题。不精确、反复或过期的数据——无论是来自仓库还是通过数据网格虚拟化交付——加剧了现有问题并使问题变得更糟。将基于云的主数据管理 (MDM) 解决方案增加到数据网格或任何虚构数据架构有助于解决数据品质难题,并能够促成任何云转型。 虚构数据有多种形式数据虚拟化使应用程序可能拜访和集成来自多个不相干数据源的数据,就如同它们是一个对立的数据源一样。数据虚拟化能够实时拜访数据库、文件系统和基于云的数据存储等起源,并创立一个可供应用程序和其余零碎拜访的虚构数据层。这能够在不物理挪动或复制数据的状况下实现,从而节省时间和资源。 不同的数据虚拟化办法不断涌现,包含数据网格和数据结构。虚拟化数据的力量在于创立数据产品,这些产品是特定业务畛域能够应用的一组特定的有组织和可重用的信息,并且明确由最靠近该数据的团队领有。数据产品能够为数据分析师节省时间,他们能够花更多的工夫剖析数据,而花更少的工夫查找和修复数据。 数据网格和数据结构类似,但在要害方面有所不同:数据网格 是一种分散式数据架构,为存储和治理大量数据提供灵便且可扩大的基础设施。这种办法能够进步数据的可拜访性,减少合作,并反对创立高质量、牢靠和可重用的数据产品。数据网格是一个概念,它将信息从集中的湖泊和仓库中转移进去,并将其交到畛域和主题专家的手中。在此结构中,数据被视为产品并由领域专家领有。Fabric 能够帮忙领域专家和分析师确定能够在何处应用数据 数据结构 是互连数据存储和解决资源的网络,使组织可能更无效地拜访和应用其数据。Data Fabric 提供了一个对立的平台来治理、存储和拜访数据,无论数据位于何处或如何构建。数据结构通常包含一系列技术和工具,例如分布式存储系统、数据湖和数据管道,它们协同工作使组织可能大规模收集、解决和剖析数据。数据结构相似于元数据;它是一个目录零碎,用于辨认可用的信息及其所在位置。 尽管这些架构因其解决数据拜访问题的后劲而受到追捧,但也存在潜在的局限性,包含无奈提供可信、精确的信息。除非同时解决品质问题,否则仅将数据挪动到云端或使其更及时和更易于拜访无奈扭转业务 MDM:古代数据架构的对立根底基于云的 MDM 使组织可能治理和保护组织要害外围数据的统一且精确的视图,例如无关客户、供应商、地位、资产和供应商的信息等。这是每个组织运行所依赖的重要数据。外围数据可能驻留在许多孤岛中,这给大多数组织带来了挑战。外围数据通常不精确、过期或在其余中央反复。解决这些问题既费时又费钱,因而越来越多的组织转向基于云的解决方案来把握外围数据。 通过创立要害业务数据的繁多、精确视图,MDM 能够确保虚拟化架构中的数据统一、精确和更新。这能够进步数据品质,并大大晋升数据对业务用户的价值。 换句话说,“外围数据作为产品”和 MDM 的概念有着亲密的内在联系。 基于云的 MDM 通过提供用于治理数据定义、关系和规定的集中式零碎,简化了虚拟化架构中的数据管理。这使得数据管理员和其余数据管理业余人员更容易了解和治理数据,从而大大提高了虚构架构的整体有效性。 基于云的 MDM 为组织提供了更大的可扩展性和灵活性,并帮忙他们进步数据品质和一致性。因为数据受到治理和治理,组织能够轻松执行数据规范并确保信息精确和最新。因为云能够无缝扩大或膨胀以满足一直变动的需要,因而组织能够疾速增加或删除数据源和用户,而无需投资额定的硬件或软件。这有助于防止代价昂扬的谬误并进步数据驱动决策的可靠性。 改善业务成绩依赖于及时精确的数据每家公司都越来越迫切地转向数字优先方向以提高效率、增长和风险管理,尤其是在思考客户体验时。消费者、供应商和员工冀望在简直任何状况下都能取得“按需”或全渠道体验。他们心愿可能利用数字技术实现 24/7 全天候自助服务(任何设施、任何地点、任何工夫),并辅以呼叫核心等其余渠道。犯了这个谬误——或者让您的客户因不统一或蹩脚的体验而感到丧气,会将他们送到他们的竞争对手那里。这就是为什么只管最近面临经济挑战,但仍有如此多的人持续投资于云迁徙和数字化转型。古代数据架构办法是朝着这个方向迈出的重要的第一步。然而,如果没有精确、可信、和实时外围数据作为根底。投资基于云的古代 MDM 解决方案作为数据网格或任何虚构数据架构的根底,能够提供精确、实时的外围数据对立视图,组织能够应用该视图来实现这些业务指标,同时提供切实的投资回报率。 欢送大家欢送关注 OushuDB 小课堂

February 13, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB小课堂丨提高数据素养的-12-步计划

在咱们痴迷于数字的经济中,常识工作者普遍认为数据问题最好用更新更好的技术来解决。事实上,最大化商业价值的最弱小的解决方案就在管理层的眼皮底下——以改良的模式 数据素养技能. 为扭转围绕数据素养的文化服务,学术和参谋 彼得艾肯 在去年的展会上向观众提供了贵重的 12 步程序 企业数据世界数字化 会议。艾肯求助于复原文化的语言仿佛只是开玩笑,但它传播了一个事实,即数据问题最终是集体、公司甚至文化层面不良习惯的产物。 第一步:抵赖你有数据素养问题就像在集体层面上一样,在组织内施行有意义的改革的第一个阻碍在于否定存在问题,而这种否定植根于责任和指责问题。在业务环境中,数据经理可能难以抵赖存在企业范畴的数据问题,因为他们认为这反映了他们的领导能力不佳,但事实并非如此。然而,比推卸责任更重要的是在公司外部启动一个坦诚而事实的改革打算。 第二步:承受数据的本来面目——好的和坏的一旦数据问题失去抵赖,下一步就是开始对第一个明确的指标进行必要的评估。 数据策略。艾肯最重要的教训之一是,数据组织中的问题必须作为一项策略而不是一个我的项目来治理。回到复原类比,长期的最佳实际不是通过打消症状来一劳永逸地彻底改变,而是通过一直地批改全公司的习惯。 “当您不再须要人力资源团队或财务团队时,您将不再须要数据程序,”艾肯打趣道。“毕竟,没有人会说,‘我认为每个人都会守规矩,所以咱们不再须要律师了。’” 将数据组织构想为一个永无止境的我的项目可能须要在许多企业内进行范式转变,但这样做将缩小因为零碎中暗藏的低效率而导致的不可估量的老本。 第三步:创立数据宣言 - 并在公司层面承诺一旦发现数据组织中的系统性问题,就必须开始扭转公司的行为形式,以清晰、无行话的步骤扭转公司的思维形式。创立一个明确阐明新价值观的公司准则可能会有所帮忙:例如,以后的“遵循打算”准则可能会被“响应变动”所取代。要想在这种企业巨变中取得成功,至关重要的不仅是您的 CEO 公开承受新范式,而且整个公司董事会也要全力投入。 第四步:盘点贵公司的数据劣势在这里,流程从辨认问题转移到辨认和编目公司数据资产的业务上。启动这一过程对一些公司来说可能是一种启发,因为该过程既能够揭示企业范畴内可能不为人所知的资产,也能够从新构建可能未被视为积极因素的方面。其中一些,例如集体或部门的能力,可能看起来并不间接 数据驱动,因而艾肯倡议,在编制清单时,有经验丰富的董事会的反对能够打消潜在的盲点。 “CEO 可能来来去去,”艾肯说,“但如果你有一个与其余组织互动的董事会,他们就更有可能遇到良好的组织数据实际。” 同样,因为数据组织正在进行中,因而可能须要在适当的工夫距离从新评估此清单以继续开释价值。 第五步:分明地扫视你过来的数据债权——并庆贺它们的沦亡盘点公司资产的另一面是创立一种法医图片 不良数据实际 在过来。复原过程的这一部分须要对您的公司通过更好的做法在缩小数据债权方面获得停顿的形式做出踊跃必定,只管将美元金额用于节俭可能足以激励。 同样,因为无效的打算必须渗透到企业文化的土壤中,艾肯倡议超过踊跃的备忘录,而是通过处分公司流动来留念重要的改良里程碑。 “我去过很多组织,他们会在那里庆贺,”艾肯保障道。“因为当你这样做时,就表明你不再这样做了。“是的,咱们过来经常这样做很蹩脚,这就是蹩脚的代价。” 第六步:启动深度清理并用好的数据实际替换坏的数据实际通常,一旦找到数据债权和广泛效率低下的罪魁祸首,许多数据经理就会试图通过投资最新的 IT 翻新来解决问题。然而,这很容易导致雷同功能障碍的异样类似的反复,因为技术只有在纯熟的手中才有用——并且受够了 洁净、牢靠的数据. 艾肯说,在这个阶段,将数据素养流传到组织的各个阶层变得至关重要: “如果你想依据一些主观规范评估你的能力并报告这一停顿,就须要组织全面提高常识程度,并容许人们通过进步常识工作者的数据素养来走进来并放弃各种资源。” 第七步:利用众包进步员工素养你的公司可能充斥了专家和经验丰富的商人,但有些问题以新鲜的形式具备挑战性,最好由团队而不是集体来解决——这种心态可能违反商业文化的实质。 “大多数组织始终在说,'数据是每个人的责任,'”艾肯开玩笑说。“嗯,后果不是很好,是吗?‘每个人的责任’通常最终意味着这是他人的责任!” 要真正使数据成为一项个体致力,请通过促成定期安顿的数据会议来激励基于团队的解决方案。这将有助于建设对独特指标的协同关注,以便最激情的常识工作者可能取得公司提供的最佳服务。“这在很大水平上是一项团队静止,”艾肯说。 第八步:列出数据受益人将程序越来越多地从“我”转向“咱们”的轨迹,这一步是改良的关键因素 数据管理,您和您的团队会在其中列出最能从您的数据中获益的人。同时,您应该跟踪数据的生命周期以记录其起源和后续目的地,以坚固业务案例以进行后续改良。 第九步:通过纠正过来的谬误进行间接修改向您的团队展现减少数据组织曾经减少自筹资金以发售长期数据素养作为牢靠投资回报的形式。总是有有数的潜在价值期待通过清理、组合和其余优化来最大化,随着工夫的推移一次又一次地执行这些补救措施不仅会博得公司的信念,而且会持续磨难你的数据团队的技能所以。 第 十 步:通过传授更好的数据实际来进步集体责任感很多时候,数据驱动的公司转向新技术是一种本能反馈,而不是在现有员工的技能中寻求解决方案——从最粗浅的意义上说,是人力资源。 艾肯说:“咱们的大多数常识工作者都没有失去学术界的器重,他们通知你,每个数据问题的惟一答案是全新的关系数据库。” “如果这是咱们惟一教给他们的货色,他们为什么还冀望学习其余货色呢?” 数据经理无需购买新平台、降级和设施,而是能够通过将文化转向实际和评估来节俭大量资源,同时理解数据是一种程序化流动,能够比风行技术的寿命更长。 第十一步:继续晋升组织能力一旦这些先前的步骤开始在集体层面失去推陈出新和强化,您应该通过关注基于社区的致力来扩充这些最佳实际的范畴,这些致力将通过继续的强化来吸引每一位常识工作者。通过以这种形式将自我更新的数据策略周期制度化,您的公司将更加依赖其员工的“数据耳朵”,而不是任何独自的应用程序或程序。 第 十二步:宣传最初,一旦你亲眼目睹了 进步数据素养 在您组织的各个级别,通过帮忙其他人理解数据文盲导致无害数据债权的水平,开始在您的公司之外流传这个词。常识工作者文化中存在多重阻碍,从不足数据素养文化的领导者到劳动力自身的抵制,然而当你能够指出公司指标和底线的显着提高时,你一次扭转了一个常识工作者的文化. 欢送大家欢送关注 OushuDB 小课堂

February 13, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB小课堂丨成功数据战略的关键组成部分

胜利的数据策略通常须要应用某些要害组件。大多数企业都对某种模式的数据管理进行了投资,但企业的不同部门往往并没有很好地协调。数据策略能够形容为一个动静过程,用于反对数据的收集、数据的组织和剖析以及交付,以反对业务指标和流动。 不同我的项目团队和业务部门的协调是优化数据流和最大化其价值的必要条件。 当数据呈现问题时,数据策略提供了一个辨认问题的过程,以便人们找到解决方案。胜利的数据策略提供了一个零碎,能够为组织提供最佳解决方案。它能够被视为确定以后和将来的路线图数据管理问题。 数据策略可用于被动反对促成业务增长的指标。 制订数据策略首先要确定业务指标。随后确定数据环境中存在的问题——评估每个团队或部门并抉择可实现的指标,使数据更易于拜访和共享。Willow Data Strategy 总裁 Stephen Yu 强调 着眼于将来: “采取分阶段的办法。最后的步骤必须是打消痛点,但不应漠视长期的业务指标。这很重要,因为每个阶段都可能须要不同类型的人才和专业知识。” 正告: 制订数据策略不是一劳永逸的致力。一些选定的指标将须要一段时间能力实现,而其余指标可能会在当前开始。(安顿指标的实现是很常见的,其中可能包含作为子目标的里程碑的实现。)此外,业务指标发生变化,这意味着扭转数据策略以反对这些变动。应定期、按计划审查和调整数据策略以放弃其效率。 打算的数据策略审查提供了在问题变得重大之前解决问题的后劲。这些步骤包含查看: ● 数据整合 ● 标签数据 ● 数据存储 ● 数据安全 ● 共享和销售数据 ● 数据治理 数据整合收集和组合来自不同起源的数据通常波及将数据转换为对立、统一的格局(通常是 SQL 格局)。 无SQL, 数据湖, 和 数据湖屋, 依照设计,不须要对立、统一的格局。 标签数据在组织内应用和共享数据须要建设辨认和交换数据内容的办法。须要名称或标签来定位、解决和更新数据。个别这波及到文档和文件,这些都须要命名。如果没有给出名称,计算机通常默认为“无标题”文档或“无标题”文件。 建设统一的文件和文档命名零碎将使数据更易于查找,尤其是在有多个数据用户的状况下。 应用元数据作为参考资源也很重要。元数据实质上是用于定位和形容“数据包”的大量数据。图书馆提供了一个很好的类比。当图书馆的顾客想找一本书时,他们输出书名,电脑就会显示重要信息——简短的形容、图书所在的地位、出版日期和作者姓名。 元数据提供十分类似的有用信息(或应该)。尽管每个组织都能够管制他们如何组织利用于其数据包的元数据,但通常包含题目、创立日期、简短形容,兴许还有作者姓名。 也实用于非结构化数据,例如网页、视频、图像和音频。 元数据的应用提供了一种辨认和治理非结构化数据的办法。 元数据能够通过应用自动化来创立和调配,也能够手动创立。乏味的是,效率随着手动创立的元数据标签而进步。这是因为自动化元数据往往十分根底和根本,仅显示最根本的信息。手动创立的元数据能够提供更有用的信息。 元数据反对胜利的数据策略。 数据存储数据存储是解决数据的组织的一项基本功能。 然而,尽管大多数组织都有一个 数据存储 使将数据加载到一个存储系统不切实际。 将数据存储在多个地位已成为一种失常行为;然而,重要的是要为员工提供查找和拜访它的办法。 数据安全数据安全尽管可能很乏味,但也是一种负责任的行为,您的客户不仅会观赏而且会要求这样做。如果他们发现某个组织泄露了他们的个人信息,他们最起码会进行与该组织的业务往来。 施行 保护数据安全打算是制订胜利数据策略的要害。 基本上有两种哲学对于 数据安全 以及拜访存储在组织内的数据。一个人反对组织内的每个人都应该可能拜访所有数据的现实。另一个规定只有那些须要晓得的人才能拜访与其工作相干的数据。两者都有点极其,第一个让潜在的犯罪分子能够拜访客户的集体数据,第二个阻止工作流程,因为员工无法访问所需的数据。 两头路线哲学更为理想,客户的集体数据仅限于两三个可信赖的经理,而其余数据可供解决数据的员工应用。(拜访数据我的项目通常仅限于我的项目团队,但这取决于我的项目和组织。) 高效、精简的业务将确保有一个易于应用的流程来存储业务生成的所有数据,同时反对轻松拜访可信赖的员工应用的数据。 共享和销售数据数据能够发售或共享。共享数据能够是网站上公开提供的信息,也能够是学术机构共享的钻研数据,也能够是同行业企业共享的用于开发业务信息的数据。大多数共享数据分为两个根本类别:从内部起源(云应用程序、学术机构、第三方数据等)收集的数据和外部生成的数据。 数据治理一个功能齐全的数据治理零碎是简单的。它是工作人员解决数据时的软件和规定的组合。数据治理打算规定了用于收集、组织和治理精确数据的政策和程序。 它用于改良数据分析,进而促成更好的决策制定和更无效的治理。数据治理还解决了 GDPR 的合规性要求和其余监管要求(例如实用于员工数据、财务记录和其余法律问题的法规)。 如果组织不恪守各种数据法规,则可能面临罚款和法律诉讼的危险。 大多数企业开始应用 数据治理解决具体问题或改良(数据准确性、数据法规、提高效率)。然而,随着数据治理打算的应用和意识的增长,员工和管理层通常会开始摸索它的其余性能。随着这种状况的倒退,管理层意识到建设政策、规定和行为能够促成应用更精确、更高质量的数据。 强调商业胜利专一于业务指标很重要。请记住,施行新技术是实现业务指标的一种形式。如果它不能帮忙实现业务指标和增加利润,那么闪亮和新鲜就毫无意义。 列出业务指标应该是制订胜利数据策略的第一步。此列表不应受到限制或限度,而应反映您想要建设的企业的现实形象。 欢送大家欢送关注 OushuDB 小课堂 ...

February 13, 2023 · 1 min · jiezi

关于oushudb-hawq:OushuDB-小课堂丨实时分析示例和优势

什么是实时剖析?实时剖析就是在数据生成后立刻应用它来答复问题、做出预测、了解关系和自动化流程。 其定义为“将逻辑和数学利用于数据以提供洞察力以疾速做出更好决策的学科。” 实时剖析的外围需要是拜访陈腐数据和疾速查问,这实质上是提早的两种衡量标准:数据提早和查问提早。 数据提早: 数据提早是掂量从数据生成到可查问的工夫。在此过程中通常会有工夫滞后,实时剖析数据库旨在最大限度地缩小这种滞后,从而疾速反映数据的变动。 低数据提早的交付可能具备挑战性,因为数据库必须可能写入传入数据,同时容许应用程序对最新数据进行查问。这意味着领有一个能够解决高写入率并针对实时数据处理进行优化的数据库,而不是批处理剖析作业,后者始终是用于剖析的数据处理办法。 查问提早: 查问提早是执行查问并返回后果所需的工夫。应用程序心愿最大限度地缩小查问提早,以取得疾速、响应迅速的用户体验,并且团队越来越多地为其数据应用程序设置亚秒级查问提早规范。也就是说,解决数据和优化索引以提供始终如一的低查问提早可能十分耗时,这使得团队难以迭代和扩大其剖析性能。 实时与批量剖析实时剖析针对低提早剖析进行了优化,并确保数据可在几秒钟内进行查问,而批处理是高提早剖析,其中查问返回至多几十分钟或几小时前的数据后果。 应用历史数据来报告业务趋势并答复策略问题。在这些场景中,指标是应用数据来制订策略;不立刻采取行动。实时数据个别不会影响趋势剖析的后果,更适宜批量剖析。商业智能、报告和数据迷信等批量剖析用例对提早的要求不那么严格,因而能够容忍 ETL 管道对数据进行同质化和丰盛以进行剖析。相比之下,实时用例具备低提早要求,并试图缩小或打消对 ETL 过程的需要。 Hadoop 和数据仓库等许多剖析零碎都是为批处理剖析而设计的。批量剖析将其应用程序使用率进步了 350%。因而,应用程序洞察力嵌入到组织的日常决策中。 更快的决策制定: 如果您的数据的每个问题都须要几秒钟或几分钟能力返回,那么您就不会深刻开掘信息并更多地依赖直觉。 半自动化和自动化智能: 自动化或半自动化智能能够缩小决策的认知负荷。 实时剖析的增长实时剖析数据库曾经成熟,使工程团队更容易拜访流数据并实现低提早剖析。工程团队不再须要定制构建或自行治理简单的分布式系统来实现实时剖析。 反对实时剖析采用率增长的最根本变化是云。公司能够扩大和缩减资源以满足一直变动的应用程序需要,防止在流量减慢时为过剩容量领取过高的费用。实时剖析数据库还拆散了存储和计算,因而您不再须要适度配置资源,从而在规模上实现更好的性价比。云提供了更高水平的操作简略性和资源效率,这将使更多公司在 2023 年可能进行实时剖析。 欢送关注 OushuDB 小课堂

February 13, 2023 · 1 min · jiezi

关于oushudb-hawq:如何选择金融级云数据平台

一个简略的银行转账操作会产生多少数据的流动呢?在用户转账行为的同时,思考到转账资金的安全性,银行可能会须要存储本次用户转账的工夫、金额、地位等数据,通过反欺诈利用零碎进行危险预警与交易阻断,当大量用户的转账行为同时产生时,会有大量并发的数据涌入。转账实现后短暂工夫里,交易单方会有转账相干信息的查问需要,确认资金正确的交易,银行可能会须要按用户需要提供局部时间段的交易流水信息。在一些较长时间的距离里,银行还可能会对用户的转账的数据进行剖析统计、进行用户画像,以便于银行相干的业务决策。在这个过程中波及到数据库的实时流解决、实时按需剖析、离线剖析等简单需要,如果没有高效的数据平台撑持,很难保障数据分析和利用的有效性和安全性,甚至会对企业对企业数字化策略造成重大影响。金融行业须要什么样的数据库?信通院于2021年公布了《金融级分布式数据库白皮书》,报告中指出金融行业广泛对数据库的安全性、可靠性、稳定性有着全行业最为严苛的要求,因而,满足金融行业需要的金融级数据库产品简直成为所有行业中的标杆。报告认为金融级分布式数据库是可能满足金融级要求的高可用、高性能、低成本、线性程度扩大、企业级平安、便捷性运维的分布式数据库。与一般数据库的区别?报告认为,尽管分布式数据库起源于互联网行业,然而金融级业务数据的价值较高,对数据库的高可用、强统一、低时延、可扩展性、高容灾性、供应链安全性等要求更为严苛。这也是金融级分布式数据库与一般分布式数据库的次要不同点。       那么,要达到金融级分布式数据库的要求,须要做到满足:数据强一致性的需要:金融级分布式数据库通常用于存储各行业的外围数据,其任意一笔数据错乱、失落将带来重大影响。因而即便在某些软件故障、硬件异样的状况下,数据库都应保证数据的强一致性。业务连续性和数据可靠性的需要:金融级分布式数据库服务于波及国计民生的重要业务零碎,其对运行连续性要求异样严格。此要求来自于金融业,也来自于政务、大型企业自身需要、监管机构要求和用户舆论压力等。数据库作为业务零碎的根底,其通用的可用性要求在 99.999% 以上。为确保在异常情况下数据不失落、不错乱,即便极其异常情况仍需确保数据的留存,金融级分布式数据库的可靠性通常要求在 99.999999% 以上。疾速扩大、麻利迭代的需要:在金融级场景中,存在短时间用户规模增大或业务迭代需要强劲的状况,金融级数据库要求适配上述场景,即数据库具备疾速扩大的能力, 同时业务零碎要具备疾速匹配的麻利迭代能力。而在传统建设模型中,疾速扩大、麻利迭代简直是不可行的。因而分布式、微服务、规范开发框架等开始在金融级数据库中失去遍及与推广。低成本与云计算的需要:金融级业务品种繁多,随着工夫增长数据也会疾速减少,带来撑持性数据库变得越来越宏大。这意味着如果每个零碎都依照传统商用数据库建设规范来建设,会带来极高的老本。因而云计算环境的金融级数据库的粗放模式建设计划正逐渐成为支流趋势。高端服务器等供应链危险:受国内政治格局影响,洽购国外高端服务器(芯片)等存在诸多不确定性。一旦呈现国外服务器(芯片)断供,可能导致重大的结果。而短期内,国内对于芯片的供给可能仅在 28nm 或者更低的程度,繁多服务器的算力有余会对金融业务建设零碎带来诸多问题。OushuDB—云原生数据库新锐准独角兽理解了金融行业的需要,以及金融级数据库产品的定义,咱们来看看云原生数据库新锐准独角兽偶数科技如何通过OushuDB逐条破解难题。什么是 OushuDB?OushuDB是由偶数科技自主研发的新一代极速云原生架构的分布式数据库,反对高并发,高吞吐,高性能的弹性计算。OushuDB兼容国产软硬件平台,符合国家信创规范,反对各大公有云和公有云。通过计算存储拆散架构解决了传统数据库高老本、低性能、高门槛、难保护、难扩大的问题。OushuDB 具备哪些特点?云原生:采纳计算存储拆散架构,利用云服务器、分布式存储,对数据基础设施的可扩展性进行深度优化,充沛满足云端利用高度弹性、有限扩容的要求。反对腾讯云、阿里云、华为云、金山云、微软Azure、AWS等支流云平台。高性能:面向PB级大数据的简单查问,相比MPP和SQL-on-Hadoop快一个数量级。全新设计的执行器让性能晋升5~10倍,显著升高批处理和即席查问所需的工夫。强兼容:具备欠缺的SQL规范和ACID个性,反对HDFS和多种对象存储的增删改查、以及偶数自研的Magma存储。兼容基于Oracle,PostgreSQL,Greenplum开发的数字利用,用户能够轻松实现不同数据基础设施的安稳迁徙。自主可控:OushuDB由国内顶尖数据库内核研发团队自主开发,符合国家信创规范。偶数研发团队曾主导国内顶级的数据库开源我的项目。利用广:OushuDB已在金融、电信、政府、制作、互联网等行业的数百家头部企业失去广泛应用,助力各类企业实现数字化转型。能够说,OushuDB数据库所具备的高可用、高性能、低成本、易扩大、自主可控的个性,完全符合金融级分布式数据库的定义,并满足金融行业的业务需要。借助OushuDB作为底座,更能够疾速搭建偶数科技的湖仓一体和实时湖仓计划。基于OushuDB的实时湖仓一体计划什么是湖仓一体计划呢?在企业进行湖仓一体化摸索时,可能对原有的IT零碎和平台产生门路依赖,从而抉择采纳湖仓分体的技术模式,即湖是湖,仓是仓,而这个各自独立部署,数据通过ETL的形式买通,即业内经常提到的Hadoop+MPP模式。这种形式只管在逻辑上能够为用户提供对立的数据管理能力,但在物理层面数据湖和数据仓库依然是拆散的,同一份数据可能别离存在于多个存储集群中,从而不可避免的造成数据孤岛。而在企业克服湖仓分体模式带来的种种弊病的过程中,又可能进一步催生ETL逻辑简单、数据变更艰难、数据不统一等一系列施行与运维问题,最终不仅无奈最大化湖仓性能,还极大减少了治理运维老本。偶数科技研发的OushuDB创新性的采纳了存算拆散的云原生架构,冲破了传统MPP和Hadoop的局限,将计算和存储部署在不同的物理集群中,使得计算和存储资源能够独立的弹性伸缩;通过构建虚构计算集群,OushuDB能够在数十万节点的超大规模集群上满足高并发需要,造成了对立的数据体系,不仅使得湖仓更适应云环境,还升高了用户的老本;通过反对分布式表存储Magma,OushuDB的计算引擎便于实现快照视图,可能高效实现实时查问需要,从而在性能和事务方面的反对更加欠缺。       (偶数科技湖仓一体化解决方案)为了同时满足实时流解决、实时按需剖析和离线剖析需要,偶数科技独创性的摸索出了Omega全实时数据处理架构。Omega架构通过流解决零碎WASP实现实时间断的流解决或批流一体解决,并通过存储于实时数仓的快照视图实现实时查问,从而解决了传统Kappa架构落地艰难、Lambda架构难以保证数据一致性的问题,并极大简化了数据架构。       (Omega架构逻辑图)满足用户“既要也要”的要求,偶数科技的突破性技术和前瞻性观点并非海市蜃楼,而是以多年的行业实际和用户洞察为根底支点造成的教训积淀。偶数科技正在赋能用户的过程中一直实现自我迭代,摸索最佳实际。结语作为企业数字化转型的先锋行业,银行业自80-90年代起就曾经开始了信息化摸索,在自手工统计到信息化再到数智化的较长技术倒退过程中,大多数的银行造成了较为简单的技术体系。偶数科技率先洞察到了银行面对大数据时代的高性能、安全性、可靠性、稳定性需要,早在2020年就与建设银行成立了高性能大数据联结实验室,独特摸索金融级数据平台的施行门路。银行业是所有行业中对利用的自主可控、高可用、高可靠性的要求最高的畛域之一,偶数科技解决方案在银行业的落地正是其技术实力和对用户痛点理解力的明证。除了银行业以外,截至目前,偶数科技的产品和解决方案已在非银金融、电信、政府、能源、制作和互联网等行业中被宽泛的部署和利用。同时,其商业模式的可行性与成长性也失去了资本的认可,间断取得了国内顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资。而随着将来物联网、工业互联网的逐渐建设,大数据畛域将面临越来越广的数据起源、越来越大的数据量、越来越多的非结构化数据、越来越丰盛的利用场景和越来越简单的技术栈,大数据处理和剖析的难度将进一步晋升。汇合了泛滥组件的弱小能力,OushuDB 未然成为企业打造金融级数据库平台的最佳抉择之一,将会继续的为包含金融在内的等泛滥行业用户提供更加优良的数据服务。

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:oushudb丨偶数科技为辽宁农信数字化进程添加新动能

斗转星移,数据急剧收缩 2016年辽宁农信上线了基于关系型数据库的数据仓库,实现了各源零碎的数据会集。与此同时上线了大数据平台,实现了审计系统对各源零碎贴源层数据的存储、整合、查问相干需要。然而,随着辽宁农信业务的拓展以及各类业务零碎的一直建设,各源零碎的数据量激增,对数据的需要也呈现出多样化、复杂化的特点,对数据的查问效率、供应工夫也提出了更高的要求,导致现有关系型数仓和大数据平台已无奈同时满足辽宁农信的业务倒退须要。 时不我待,湖仓一体乘势 而出基于以上问题,辽宁农信布局了针对海量数据的湖仓一体平台我的项目,基于业内的新技术、新理念,对立建设数据湖与数据仓库,实现湖内建仓的布局,整体建设辽宁农信数据平台,整体升高数据冗余度,晋升数据整体查问、剖析、加工效率,提供及时高效的数据查问接口,拓展模型的整体利用能力,减少准实时数据利用能力,实现全行数据的整体汇聚、加工、下发与利用。 把控需要,连通全省法人机构 在满足全省法人机构及业务部门对数据利用一致性、时效性、安全性、稳定性的前提下,辽宁农信着力强化数据管理和数据品质管制,加强全量用数能力。同时,在满足监管要求的前提下,深刻施展全量数据、一致性数据对各业务线条倒退的驱动作用,进步精细化治理,达成数字化能力的螺旋式晋升。 偶数赋能,夯实数据底座 偶数科技基于辽宁农信的总体目标,凭借劣势技术为用户搭建基于云原生分布式数据库的根底平台,夯实辽宁农信数字化转型的基石;实现历史数据的整体迁徙,保障业务数据的连续性;建设对立高效数据分析计算体系,推动数据与金融业务的交融,放慢数字化转型的步调;建设对立的数据散发机制,满足各级法人分支机构与监管机构的数据安全要求;建设准实时数据利用能力,逐渐实现离线数据利用向实时数据利用能力的逾越;对立数据加工治理,通过湖仓一体存储的一份数据,利用平台的高性能,进行数据加工的全流程治理,防止数据存储的冗余,并制订数据加工标准,管控数据统计口径,实现数据源、数据加工过程、数据脚本标准、脚本上线过程、批量调度程序等五个对立治理。 数字金融,农村振兴新姿势展望未来,辽宁农信将通过激发金融科技翻新生机、构筑自主可控能力,摸索一条当先的、实用的、灵便的、有特色的金融科技创新型倒退门路。在这个过程中,从新扫视了“数字金融”的业务价值属性,着重调整了“数据”的业务服务本色定位与治理视角,构建了全量数据思维下的新型治理思维。进一步放慢辽宁农信特色数字金融的摸索步调,为数字金融的倒退奉献多样性,产出更为丰硕的成绩,以农村金融主力军的姿势服务农村振兴。为落实人民银行推动农村振兴工作意见,助力“十四五”布局施行,推动农村中小金融机构被动适应农业农村数字化趋势,以数字化伎俩赋能区域倒退、晋升农村金融服务质效,构筑农村数字普惠金融服务新模式,由农信银资金清理核心主办、金科翻新社承办的“第六届农村中小金融机构科技翻新优良案例评选活动。

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:oushudb丨偶数科技入选-Gartner-Cool-Vendor-成为最酷厂商

近日,寰球驰名的钻研与征询公司 Gartner 公布了 2022年 Cool Vendor 钻研报告,偶数科技荣膺数据管理畛域翻新厂商 Cool Vendor。 Cool Vendor 钻研什么? Cool Vendor 是 Gartner 推出的翻新公司评比打算,笼罩寰球范畴100个钻研畛域,旨在开掘细分技术畛域最具创新力的成长型企业。很多科技从业者都曾理解 Gartner 的魔力象限(Magic Quadrant),而 Cool Vendor 是魔力象限外最重要的翻新钻研。 翻新科技公司成功率几何? 咱们看失去一颗树开花结果,但可能想不到经久不息有多少种子和幼苗被永远掩埋在广袤的土地下,翻新畛域的公司亦是如此。Gartner Cool Vendor 钻研报告给出了有说服力的答复,在过来的18年中寰球曾经有3000家企业入选 Cool Vendor ,达到了超90%的胜利概率,远超过 VC 投资初创企业的成功率,已经入选 Cool Vendor 的很多企业现在已成长为寰球知名企业,如Salesforce、Instagram、Snowflake、Cloudera、Dropbox 等。 企业生命周期的惟一一次机会 Cool Vendor 每年在细分畛域中评比不到5家企业,一家企业成长的生命周期内只有一次入选机会,并且只能呈现在其主营赛道畛域的评比中。评比维度包含创新性、影响力和独特性三个规范。创新性——让用户可能做他们已经难以达成的事件影响力——具备前瞻的业务影响力的技术或产品,不是“为了技术而技术”独特性——在过来一年引起了行业分析师的宽泛关注和趣味 不仅如此,Gartner 分析师还会从客户侧去理解厂商的产品、解决方案是否用翻新形式切实解决客户难题。每年 Gartner 分析师都会进行700余次行业问询,通过征询的形式来筛选 Cool Vendor 候选人。 此次偶数科技凭借其云原生数据库 OushuDB 入选 Gartner Cool Vendor ,作为偶数 Skylab 云数据平台中的外围组件,OushuDB 翻新的存算拆散云原生架构,以及超高并发、超高性能和超大规模的产品个性,为不同行业用户提供了湖仓一体和实时数仓技术能力。 Gartner 分析师锐评 由偶数科技自主研发的 OushuDB 是一款高性能的云中立数据库。通过与国内头部云厂商单干,OushuDB 解决了兼容性难题,反对用户基于不同基础设施疾速部署和应用 OushuDB,升高 IT 老本。此外,OushuDB 为云端用户提供了独特和翻新的产品能力——主动的计费监管和无效的资源管理。 OushuDB 集中的性能监控和资源管理,反对混合和多云部署,帮忙用户缩小不同数据基础设施上的运维工作量。它将存储和计算解耦,容许用户别离优化存储和计算成本,从而进步资源利用效率。其自动化的资源分配引擎能够依据实时工作负载在几分钟内主动扩大和缩减计算资源。 ...

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:oushudb丨偶数科技入选-IDC-中国分布式数据库报告获-Innovator-殊荣

近日,寰球出名征询钻研机构 IDC 公布了《中国分布式关系型数据库》钻研报告,通过调研 CIO、IT 负责人、投资机构和泛滥厂商,评比出该畛域综合体现突出的创新型厂商。偶数科技凭借其新一代云原生数据库 OushuDB 和实时湖仓一体创新能力取得了 IDC Innovator 中国分布式数据库创新者殊荣。IDC 和 Gartner 是寰球驰名的征询钻研机构,几周前偶数科技刚刚入选 Gartner 中国数据管理畛域 Cool Vendor,一个月内偶数接连取得了 IDC、Gartner 两大顶尖机构认可,其在技术创新畛域可见一斑。除了国内机构的认可,偶数还被评为国家级专精特新“小伟人”企业。IDC 认为,与同类产品相比 OushuDB 在以下方面有独特劣势:云原生:采纳计算存储拆散架构,利用云服务器、分布式存储,对数据基础设施的可扩展性进行深度优化,充沛满足云端利用高度弹性、有限扩容的要求。产品反对在各个支流云平台部署。高性能:面向 PB 级大数据的简单查问,相比 MPP 和 SQL-on-Hadoop 快一个数量级。全新设计的执行器让性能晋升 5 到 10 倍,显著升高批处理和即席查问所需的工夫。高并发:率先反对剖析型负载超高并发,多主节点程度扩大的同时,保障齐备的查问服务,实现多主节点集群的高可用,企业外部数万用户可同时应用简单查问拜访一份数据。强兼容:具备欠缺的 SQL 规范和 ACID 个性,兼容基于 Oracle,PostgreSQL,Greenplum,Hadoop等开发的数字利用,用户能够轻松实现不同数据基础设施的安稳迁徙。全自主:偶数科技研发团队曾主导国内顶级的数据库开源我的项目,OushuDB 由国内顶尖工程师自主开发。       偶数科技的云原生实时湖仓一体六大创新能力——ANCHOR,曾经取得了来自金融、电信、政府、能源等泛滥头部客户的高度认可。在金融畛域,偶数与建行独特成立了高性能大数据处理技术实验室,交融建行 PB 级海量数据的利用场景和偶数科技的数据库创新能力,独特打造新一代极速云数据库,用于湖仓一体等大规模外围数据的解决场景,成为建行专项前沿技术的重要力量。用户不仅可能应用同一套技术栈,对立存储,发展数据湖和数据仓库的双重能力建设,还无效优化集群扩大规模,进步大数据资源利用率。 在电信畛域,偶数科技与中国移动成立联结实验室,联合偶数科技积淀多年的技术劣势和中国移动丰盛的业务场景,打造满足 EB 级数据管理的云原生分布式数据库。存算拆散架构解决了传统 MPP 和 Hadoop 的架构缺点及效率运维难题,满足自主可控要求,撑持经营剖析等场景,推动中国移动大数据技术架构演进,深入数字转型。偶数科技自成立以来始终致力于云原生数据库技术的钻研和冲破,其外围产品云原生分布式数据库 OushuDB 通过计算存储拆散架构解决了传统数据平台高老本、高门槛、难保护、难扩大的问题,在泛滥畛域和行业取得了最佳实际和头部客户认可,偶数云数据平台同时反对各大公有云和公有云。偶数已取得国内驰名投资机构红杉中国、腾讯、红点中国、金山云四轮投资,是微软加速器、腾讯云原生加速器、VMware 威睿减速打算成员企业。

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:oushudb丨案例分析-丨湖仓一体助力保险企业数据战略转型升级

当下,海量数据联合前沿技术架构正在为保险业带来根本性的改革。本文以某出名保险机构为例,联合偶数行业实践经验,介绍保险企业如何利用湖仓一体技术推动数据策略转型降级。背景介绍在对该客户需要进行深度开掘并横向比拟行业现状后,咱们发现:(1) 包含该客户在内的少数保险企业的数据分析场景较为繁多,间接产生业务价值的数据挖掘不够丰盛;(2) 该客户现有数据分析场景的效率、性能、用户体验都亟待晋升。下文咱们具体开展剖析。业务场景剖析客户现有的数据分析利用集中在经营剖析、监管报送和危险管控等几个传统场景,其实不止该客户,目前大多数保险企业的大数据业务利用价值开掘都还不够丰盛。1.危险管控仅以目前少数保险企业都十分关注的风控环节为例,该客户仍以危险部门固定报表剖析为主,而通过危险数据建模,利用在投保前危险排查、承保中危险管控及理赔时危险辨认和反欺诈等全业务链条还十分无限。在投保环节,能够利用数据搭建危险评估模型,筛查高风险客户,对大概率产生负价值的客户采纳拒保或者进步保费的形式以缩小损失。以互联网场景下的意外险和健康险为例,因为投保手续较为简单,很多产品免体检,只须要填写投保人根本信息即可,这些业务中,很容易呈现投保人瞒哄病情、造假家庭收入的状况,逆向抉择甚至欺诈的可能性十分大。因而在投保场景下能够利用数据进行多维分析,及时发现高风险投保客户,防止欺诈行为的产生。在承保经营环节,相比拟传统风控,大数据风控让保险机构对保险用户的动静跟踪反馈,定期对承保中用户信息进行保护,更新用户危险指数。此外,在增强用户信息安全治理和隐衷方面,保险公司借助大数据和人工智能(如设施指纹、IP 画像、机器行为辨认等工具)加以防备,在回访环节,依据用户状况及其手机在网状态抉择拨打形式及话术,更有利于进步回访效率,晋升客户体验。在理赔环节,大数据风控先通过构建模型的形式筛查出疑似欺诈的高风险案件,而后再人工重点审核和考察,缩小现场查勘误差,进步查勘效率。除了危险管控,通过数据赋能业务还能够落地在其余几个重点保险场景中,包含产品翻新、危险定价、精准获客。接下来咱们开展阐明下数据赋能这些场景的模式和实现逻辑。               2.产品翻新除了传统的保单和用户信息等结构化数据,很多互联网大厂和保险应用软件都积攒了大量用户行为等非结构化数据,通过大数据能够对保险市场需要的洞察更为敏锐,从而研发出低成本、场景化的细分保险产品,用户也能够在适合的工夫、地点和场景抉择保障范畴和比例。如基于女性用户退换货频繁推出的运费险,男性用户出差频繁进而推出航班延误险和酒店勾销险,手机用户增长进而推出碎屏险等等。               3.危险定价险企对客户进行精准定价的前提是基于大量同质危险标的,通过对不同危险标的进行数据挖掘和剖析,从而对不同特色的客户进行不同的定价。以车险为例,通过智能设施采集用户驾驶习惯,如流动区域、行驶里程、驾驶频率和时段、减速和刹车强度等习惯丰盛车险定价因子,进而升高整个业务线的老本。4.精准获客精准获客就是依据保险用户偏好,在适合的工夫举荐适合的保险产品给用户。保险公司在发展定向营销时,也更加重视场景内潜在用户开掘,比方某些场景更容易激发用户的危险忧患意识,从而促成投保转化。此外,保险代理公司和代理人能够拜访保险用户信息和行为偏好,通过大数据标签和智能疏导,帮忙代理人更好的抓住客户需要和用户体验,造成转化和复购。精准获客模式不仅升高了营销老本,还晋升了营销效率。效率和体验剖析1.效率该客户现有技术架构对资源依赖较高,个别剖析看板 5-10 张图表的查问申请很可能导致内存需要动辄数百 GB,甚至有时会达到 TB 级别,响应工夫进而进化至数秒,重大影响了分析师和数据科学家的剖析效率。同时,受现有架构制约,该客户难以造成实时经营决策和实时业务利用,也进一步影响了决策效率。2.体验除了资源开销大间接导致的交互体验降落,用户的数据分析通常要通过 IT 实现,对 IT 的依赖很大,因而很多灵便的利用剖析都难以进行。以经营剖析为例,该客户目前的经营剖析次要以面向治理决策者的固定报表为主,对业务用户因随机需要产生的灵便报表反对无限,剖析和决策灵便度较低。此外,短少基于现有架构的原生剖析工具和平台,导致整个数据分析和利用的体验较差。技术架构剖析该保险公司很早就应用了 Db2,为晋升 Db2 性能,该公司在 2013 年引入 TD 一体机,并从新搭建数据仓库平台,集市建设在 Db2 之上。随着数据体量越来越大,基于 Teradata 和 Db2 的传统数据仓库越来越难以撑持业务倒退, 从 2015 年起开始搭建 Hadoop 大数据平台,最后蕴含 6 个节点的集群。通过初期的摸索后,将 Db2 的一些数据逐渐迁徙到 Hadoop 平台,同时把 ClickHouse 作为集市 SQL 查问引擎。               随着该客户 Hadoop 利用范畴越来越广,集群规模也逐渐扩充,但也裸露呈现有平台架构的一些问题。基于 TD 一体机 + Db2 的传统数仓,数据利用次要是多维分析和固定报表,存在的的次要问题包含:查问响应慢:80% 的查问响应在分钟级别;并发性能差:随着数据量和用户数的增长,共享存储模式愈发难以撑持高并发;时效性低:一方面因为 Db2 的计算能力和扩展性受限,另一方面是因为过多过大的 Cognos Power Cube 更新较慢,用户体验不佳;保护艰难:报表体量约 1000 张,报表保护的工作量微小。ClickHouse+Hadoop 大数据平台的问题次要有:资源开销大:个别剖析看板 5-10 张图表的查问申请同时发给 ClickHouse,因为 ClickHouse 对内存和 CPU 资源的需要较大(内存需要动辄数百 GB 乃至数 TB),其查问性能降落很快,平时有余 2s 的查问速度会进化至 8s 以上,响应工夫影响交互剖析体验;多表关联查问性能弱:ClickHouse 波及 Join 的查问往往都须要 10s 以上,数据量⼤的查问甚⾄甚至更久;时效性低:ClickHouse 并不⽀持数据的删除,因而不得不通过额定字段来标记以后数据是否曾经被删除,进一步拖慢查问的性能,因而也难以反对实时场景;开发成本高:ClickHouse 只能对同一分⽚上同一分区的数据去重,所以在设计表分区或者写⼊数据时,都须要更多精力进行解决,减少了开发成本;稳定性弱:ClickHouse 最常见的是应用时前端利用忽然报出查问谬误;保护艰难:目前已开发了数百张宽表(含明细和汇总宽表)用以满足业务需要,每日更新、保护和迭代的工作量微小。湖仓一体实现计划围绕客户痛点,偶数科技通过翻新技术架构对该保险公司技术架构进行降级革新,依靠实时湖仓一体架构造成数据翻新和数据赋能。               通过 WASP 工具,同时满足批量和实时数据同步,实现批流一体,反对解决实时变动数据,让数据平台接入更多源异构数据,整合该保险公司的数据资产,如行为埋点和用户音讯事件。存储集群既能够应用偶数专有存储引擎 Magma、HDFS,也能够应用对象存储 S3,给客户更多的存储抉择。OushuDB 作为计算引擎,翻新引入了快照视图 (Snapshot View) 的概念,通过会集实时变动数据和批处理数据,造成 T+0 实时快照,始终随着业务源库的变动而实时变动。以保险用户的权利视图为例,通过多源库会集后的跨库查问失去动静查问后果。因而在报表剖析的利用方面,不仅反对治理决策者关注的固定经营报表,还反对分析师和业务人员的实时灵便报表剖析。因而,该保险公司也就不再须要通过 MPP+Hadoop 组合来解决离线跑批及剖析查问。偶数为客户提供这样的一套云原生实时湖仓架构,不再依靠原 ClickHouse、TD 一体机,还能帮忙用户防止引入 MySQL、HBase 等组件,极大简化了数据架构,共享一份数据,实现了数据湖、数仓、集市全方位一体化,并实现了全实时数据分析能力,该架构是由偶数在 2021 年初提出的 Omega 架构。全面改善晋升性能改善,晋升用户体验在施行偶数湖仓一体架构之前,基于现有的集群规模,用户操作的响应工夫在分钟级,现通过 OushuDB 查问响应工夫均管制在秒级。OushuDB 相比 ClickHouse 在查问性能方面大幅改善。基于国内基准测试 TPC-H 的试验表明,OushuDB 多节点性能是 ClickHouse 的 2 倍以上,单节点性能是 ClickHouse 的 5 倍以上,局部 Query 可达 20 倍。       具体的比拟过程和后果能够看往期这篇文章:受美制裁,俄罗斯 ClickHouse 是否扛起数据库大旗?         自助剖析,赋能业务场景之前业务部门有任何数据分析都需要必须通过 IT 实现,对 IT 的依赖很大。偶数湖仓一体架构原生反对 Kepler 数据分析和利用平台,Kepler 升高业务人员对 IT 的依赖,真正反对业务自助剖析,实现了应用大数据领导业务部门进步产能、赋能业务。通过 Kepler,客户在经营剖析、数据分析、数据挖掘等泛滥方面都进行了摸索。在波及保险代理人营销获客的繁多场景、繁多需要中,就加工了近百亿条数据的宽表,创立了 50 多个维度(如产品、机构、渠道、保代年龄、性别、学历和过往业绩等)和 40 多个指标。通过剖析开掘指对业务员做分群以确定高产能保险代理人的共性特色(如学历、性别、入职工夫等等),对保险代理人跟进的商机和续保线索进行智能举荐和标签提醒,实现了更精准的预估保代业务产能,最终让营销人员和该保险公司同时取得更好倒退。此外,偶数湖仓一体平台还兼容支流第三方 BI 工具,保障用户高效经营剖析的同时,提供更多工具抉择。全实时剖析,疾速开掘业务价值因为引入偶数 Omega 架构,实时剖析决策失去了质的晋升。除了高效拆分历史和以后数据进行经营剖析,在不同场景都逐渐引入实时能力。经营层面:建设和欠缺了实时业务变动,实时营销成果,当日分时业务趋势剖析等;用户层面:保险用户、保险代理人的举荐排序,依据实时行为等特色变量的生产,为用户举荐更精准的保险产品和定价;风控层面:投保实时危险辨认、反欺诈、异样理赔预警等利用场景。超高并发,反对整体用户依靠偶数湖仓一体对高并发的反对,大量用户能够同时应用简单查问对同一份数据进行剖析查问,满足更多用户对更细粒度的剖析需要。OushuDB 虚构计算集群能够对湖仓一体平台实现资源正当利用、资源动静配置和资源隔离,相比原 ClickHouse 对资源的占用状况,OushuDB 对资源占用非常低,这样无效的保障了大量用户同时在线查问,防止高并发简单查问导致的零碎解体。从 2021 年,偶数科技开始接触该客户,到 POC 及正式单干,偶数凭借前沿技术、业余的方案设计和交付能力,始终陪伴客户成长和倒退。无论是初识还是陪伴,偶数秉承着初心,继续专一云数据平台和解决方案,服务更多客户。 ...

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:OushuDB-专家认证第二期报名开始啦

OushuDB 专家认证培训第二期今日正式启动!本次培训为偶数科技面向生态合作伙伴与客户公开举办的线上培训,目标是独特倒退 OushuDB 生态。报名工夫:2022 年 11 月 28 日 9:00 — 12 月 11 日 13:00报名形式:偶数科技官网(点击下方浏览原文或扫描下方二维码)考试工夫:2023年1月7日考试地点:线上ODCP 简介:ODCP (OushuDB Certified Professional) 为 OushuDB 数据库认证专家。通过考试并取得 ODCP 认证的学员,将具备扎实的数据库实践根底,以及大规模分布式数据库治理能力。 ↑长按扫描上方二维码或点击下方浏览原文立刻报名↑报名胜利的学员↑请增加上方二维码进入学习群OushuDB 是新一代分布式云原生数据库,可轻松构建企业外围数仓、数据集市、实时数仓以及湖仓一体数据平台,领有泛滥的技术创新点和广大的市场前景。在数字经济引领倒退的时代,偶数科技保持自主研发,领有深厚的技术实力和丰盛的实践经验。具备齐备技术体系和优良师资的偶数科技,在自主研发、产品利用、人才培养方面均失去行业认可。培训课程立足学员的理论工作需要,内容涵盖了 OushuDB 的产品性能、原理和技术解说,并将实践与实际相结合,模仿各类实在应用场景,将丰盛的技术常识与教训传递给学员。培训考核后,偶数科技将为通过考试的学员颁发培训认证证书。证书样图将来,偶数科技会更加致力为客户、合作伙伴以及所有数据库爱好者,提供更多具备创新性、实用性、前瞻性的优质培训内容,发明更深远的社会价值。

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:oushudb丨数据中心转型利润中心数据如何赋能零售行业营销升级

通过大数据来晋升营销成果曾经是批发行业不同业态都绕不过来的话题。以往,市场团队在进行投放时须要依附营销团队和销售团队的教训来判断,这样的营销策略较为粗放,对用户的感知也不精准,个别都是在海量投放后被动的期待营销反馈。不仅节约了大量营销估算,同时也无奈在第一工夫纠偏。若想晋升营销投放的精准度,市场营销的思路就须要从教训驱动转变为数据驱动。在教训的根底上,叠加数据驱动,通过实时采集多样化的数据,即时剖析制订个性化的精准营销计划,取代大一统的基于教训的计划,并通过数据平台获取及时、全面的营销反馈,进行疾速调整。行业实际表明,海量数据可在以下四个方面为营销提供反对。一、精确定位指标客户群体精准营销能够利用用户标签精准定位到须要面对的用户群体进行投放。任何一个好的营销策略都离不开对指标人群的精准形容。用户画像越清晰,营销投入产出比越高。那么,如何定义这里的“清晰”呢?简略来说,就是要晓得一个用户是谁,咱们是什么时候、因为什么、从什么渠道晓得他的,而他对哪些产品有趣味,购买过哪些产品,对哪些产品评估较高。有了这些用户信息和画像,就可能预测他对某些渠道和产品的接受程度。这些用户信息通过解决后,能够造成业务侧能看懂的用户标签。从用户属性来分,有交易属性、账户属性、根底属性、兴趣爱好属性、行为属性等;从标签计算类别来辨别,要涵盖统计类标签、规定类标签及开掘类标签;从时效性来分,须要有离线标签及流式计算类标签。所构建的标签零碎须要反对标签的特色库提取、标签权重计算、标签类似度剖析以及组合标签和历史标签的归档等性能。最初在标签的综合治理上,要反对即席查问、标签视图与查问以及标签元数据管理。上面是一些常见的用户标签。上面是一些常见的用户标签:根底属性标签:性别、地区、年龄、生产能力。交易属性标签:过来7天、30天下单/未下单用户、高频购买用户、大额购买用户。账户属性标签:账户余额高/低。兴趣爱好标签:用户购买产品类别、用户珍藏类别、用户浏览类别。行为标签:日活用户、月活用户、未登录用户、门店用户、常客户。这些标签个别会依据企业业务的不同而调整,然而大抵思路是要可能形容一个客户的全面信息,以反对各种数字化经营性能,例如:用户珍藏了某产品然而没有购买,向其推送该产品的促销信息;现有一款针对中年职场女士的产品,应该在哪些区域进行重点推广;剖析门店和网站用户的流动频率和标签散布,及时发现经营中可能的问题;库存产品与沉闷用户的标签是否匹配。咱们还能够创立其余上下游业务零碎可能应用的数据服务,复用数据标签以进行个性化服务场景的利用开发。例如,将标签后果作为数据服务供其余零碎应用,疾速落地基于用户画像的利用场景,比方:用户短信/邮件触达A/B人群投放成果测试用户生命周期分组筛选指标人群高价值用户举荐二、疾速量化营销流动成果通过买通营销渠道、销售数据、用户行为数据,精准量化市场营销流动的ROI,缩小有效市场投放,加大无效渠道的投入,这其中最重要的是"看得清"。决策者看到的不应该是一个最初聚合归总的数字,而应该是数据背地造成的过程,是可掂量的ROI。在传统的营销执行中,决策者对于本人的营销估算破费在了什么中央存在疑难,例如并不知道哪一半的破费被节约了。通过汇聚的数据,咱们能够看到每个营销流动的具体成果,并且依据这样的洞察一直调整营销策略。 三、市场状况的动静监控通过对现有客户行为和销售状况的剖析,了解市场对企业产品和服务的反馈,疾速调整市场和产品策略。一方面,决策者能够在行将产生谬误的临界值之前,及时调整经营策略,及时止损和调整方向。决策者不能等到做月度结算报告的时候才晓得本人犯错了,那个时候可能曾经晚了,而应该一直在“试错”计划中迭代本人的经营动作,通过一次次小幅的修改逐步靠近真正的指标。当然,还须要机器学习算法来辅助决策者“预测”和“感知”谬误的产生。另一方面,决策者能够在客户有需要之前,就通过模型剖析来锁定用户群体,把营销流动推送给他们,抢占他们的心智,从而及时影响用户的购买决策。许多优良的经营计划就是这么“试验进去的”。四、跨部门的营销协同各部门间能够共享客户和市场营销数据,进行产品的穿插推送,共享最优的营销渠道,充分发挥数据的价值。从用标签来实现精准用户画像,到实时反馈量化营销成果,到最初的跨部门营销协同,数据的加持将让营销效率大幅晋升,数据中心也因而而变得更加重要。高效的营销不仅能够帮忙营销团队节约大量营销估算,甚至通过业绩的增长来实现老本笼罩。当然,精准用户画像、实时营销反馈、跨部门营销协同等等这些美妙的业务愿景的实现,都要基于一个更加先进的数据平台来反对,在下篇文章中咱们将重点介绍批发行业湖仓一体平台的实现办法,帮忙批发行业与时俱进,造成新一代云原生数据平台。

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:oushudb丨大数据看全国疫情生活北京武汉已过疫情拐点

自2022年11月末,很多地区新冠病例数据出现降落趋势,与理论感知有显著差别。2022年12月14日,国家疾控中心公布音讯,核酸检测履行“愿检尽检”,不再颁布无症状感染者数据。因而,网友们想要理解所在地和老家的新冠感化状况全靠朋友圈和微信群,只能通过互联网原野调研对“转阳”停顿进行解读。为了能让网友更全面和尽量主观的理解各地区疫情停顿和疫情下的生存,咱们通过宏观大数据形式(百度指数等数据)进行了剖析并图解,心愿大家能窥一斑而知全豹。—数据截止到 2022年12月20日 剖析思路很多国家和地区政策放开后的首轮疫情,新冠肺炎新增病例的趋势与搜索引擎“发烧”指数根本拟合。以日本为例,自2022年开始彻底“躺平”,疫情疾速暴发,搜索引擎“发烧”指数也疾速回升,工夫根本同步。因而,通过互联网宏观大数据指数拟合各国家地区人工统计病例,是一个绝对无效的剖析方法。当然,任何一种测算分析方法都不是完满的,囿于当下不足实在统计数据,尽量通过数据失去疫情信息才是目标。       依据美国约翰斯·霍普金斯大学 (JHU) 数据,日本新增新冠肺炎病例统计 依据谷歌趋势 (Google Trends) 数据,“発熱 外来”指数在日本地区的趋势援用数据通过百度“发烧”指数与微信“发烧”指数在全国范畴内的比拟,咱们发现百度PC+挪动端的趋势与微信挪动端趋势根本相符,鉴于通过百度指数能够进行各地区的分类剖析,本次剖析抉择百度指数。思考到本轮群体感化中上海、广州等地有很多不发热的病例,为了进一步优化根底数据,选取近期刚上线的百度“疫情指数”,该指数依据包含发热在内的多种新冠症状和防疫物资需要合成,实践上比“发热”指数更全面和精确。       百度PC+挪动端“发烧”指数       微信挪动端“发烧”指数疫情终点剖析当某一个地区某一天疫情指数超过了过来7天均值的25%时,则断定为是疫情开始。以北京为例,11月12日-18日的疫情指数别离为:508138、530552、681125、777385、786664、751859、793139,均值为 689837。11月19日疫情指数为 877499,因而,877499/689837-1=0.27>0.25,可判断11月19日为北京疫情终点。全国十个次要城市近期疫情指数统计 同理,咱们计算了全国次要城市的开始工夫,北京是11月19日,武汉是11月25日,上海、深圳、重庆、苏州、杭州是11月28日,广州是11月29日,成都、南京是12月5日,基本上与咱们理论感知统一。将数据可视化,红点为各城市疫情开始工夫。 基于疫情指数的全国次要城市疫情终点疫情拐点剖析以疫情指数终点作为基准点 (X0),每日疫情指数 (Xn) 超出基准点的差值局部与基准点的比值作为标准化疫情指数,累计求和面积 S。当累计面积 S>=80 时,则为疫情拐点。     以北京为例,将疫情指数依照以上公式进行标准化,失去了每日面积。12月12日时累积指数求和面积 S=84.42>80,断定12月12日为北京的疫情拐点。同理计算,武汉在12月14日达到疫情拐点,上海在12月18日达到拐点,深圳、苏州在12月19日达到拐点,广州、杭州将在12月20日达到拐点,重庆、成都、南京将来一周达到拐点。             全国次要城市的标准化疫情指数统计 咱们将标准化后的各地区疫情指数进行可视化比照发现,只管武汉疫情终点晚于北京,然而其拐点与北京靠近,也就是说武汉达到疫情拐点相对速度更快,疫情过程整体也会更快。     基于标准化疫情指数的全国次要城市疫情停顿群体感化比例剖析通过观察美国、日本、台湾地区在放开后的新增病例增长状况,咱们能够发现,一波疫情从开始到完结,新增感化病例图像状态趋近钟形正态分布,或者钟形右偏散布。如果本轮疫情在大陆各地区出现钟形正态分布,则 S>=160 时疫情完结;如果本轮疫情在大陆各地区出现钟形右偏散布,则疫情完结时要 S 可能远大于160。所以,咱们激进的假如 S>=220 时,本轮疫情完结。也就是说,某地区某天的累计群体感化比例=S/220。以北京为例,截止12月20日,S=164.64,感化人口比例=164.64/220=75%       依据美国约翰斯·霍普金斯大学 (JHU) 数据,日本新增新冠肺炎病例统计 依据美国约翰斯·霍普金斯大学 (JHU) 数据,美国新增新冠肺炎病例统计 依据美国约翰斯·霍普金斯大学 (JHU) 数据,台湾新增新冠肺炎病例统计群体感化比例等于理论人口感化比例吗?值得注意的是,每一波疫情都不可能感化该地区的全副人口,因而群体感化比例是本轮疫情理论感化人口最大值的百分比,本轮疫情完结时,群体感化比例达到100%,而该地区理论人口感化比例不可能达到100%。依据流行病学群体免疫实践,人群中少数对传染病取得免疫力,使得其余没有免疫力的个体受到爱护而不被传染。这个“少数”的阈值是多少?某一病毒群体免疫的阈值取决于其R0,群体免疫阈值计算方法如下:   据国内外很多媒体报道,奥密克戎病毒R0约为20,那么其群体免疫阈值 HIT=1-1/20=95%,假设本轮疫情过后某一地区对奥密克戎亚型分支达到了群体免疫,则理论感化人口会约等于地区人口数的95%。为了便于了解,能够简略粗犷的了解群体感化比例等于理论人口感化比例。 各地区群体感化比例依照以上计算逻辑,咱们计算了全国次要城市的群体感化比例。依据上文疫情拐点测算逻辑,只管武汉的疫情终点晚于北京,然而疫情过程更快,因而截止12月20日数据,其群体感化比例也相较北京更高。        次要城市群体感化比例 各地区疫情过程咱们将各城市群体感化比例的面积拟合在同一个规范正态分布曲线中的不同地位,以便更加直观的察看各地区的疫情停顿。以省为单位来看,河北、河南、湖北等省份已迎来拐点,其余省份也会在将来半个月左右迎来拐点。        防疫物资图鉴依据百度指数显示,各地网友对不同防疫物资体现出不同关注度和抢购欲望。布洛芬尽管新冠病毒没有特效药,然而能缓解症状也不失为一个好的抉择,布洛芬和连花清瘟成了炽手可热的礼品——往年过节不收礼,收礼只收布洛芬。通过百度指数热度,能够看出北京、上海和湖北对布洛芬关注度最高。     连花清瘟随着转阳的比例越来越多,人们对药的争执早已从有没有用变成能不能买到。不过当北京和石家庄的网友反馈过去时连花清瘟早已脱销,而率先步入疫情的石家庄网友们不晓得是否以地主劣势得购此药。从图中能够看出对连花清瘟关注度最高的城市是浙江、江苏和广东。抗原试剂随着核酸检测退出历史舞台,抗原试剂成为了测验的新规范。毕竟阳没阳本人说了不算,特地是在家里工夫久了,身边阳的敌人越来越多,难免会产生本人阳的幻觉。抗原试剂也成为了增进友谊的新利器。对抗原试剂关注度最高的城市是山东、广东和四川。      N95口罩据察看,自疫情政策放开后,大家对戴口罩的积极性疾速升高。纷纷表示从"要我戴"变成了"我要戴"。阳了的人去公共场所心里或多或少会有点"不好意思",那些没阳却依然保持在一线的企业员工们不得不把N95口罩焊在脸上,为社会和家庭的错峰感化奉献一份力量。从图中能够看出对N95口罩关注度最高的城市是江苏、浙江和陕西。               黄桃罐头这波疫情黄桃罐头跟着意外走红,不少人感化后都呈现了嗓子"吞刀片"症状,香甜软糯的黄桃罐头滑过喉咙能缩小些许不适,黄桃罐头成为了年轻人送礼新风尚。黄桃罐头本来是因为东北地区夏季没有水果,但随着疫情的意外走红,水果丰盛的地区如广东也开始追捧黄桃罐头。        ...

December 26, 2022 · 1 min · jiezi

关于oushudb-hawq:偶数科技为辽宁农信数字化进程添加新动能

斗转星移,数据急剧收缩2016年辽宁农信上线了基于关系型数据库的数据仓库,实现了各源零碎的数据会集。与此同时上线了大数据平台,实现了审计系统对各源零碎贴源层数据的存储、整合、查问相干需要。然而,随着辽宁农信业务的拓展以及各类业务零碎的一直建设,各源零碎的数据量激增,对数据的需要也呈现出多样化、复杂化的特点,对数据的查问效率、供应工夫也提出了更高的要求,导致现有关系型数仓和大数据平台已无奈同时满足辽宁农信的业务倒退须要。时不我待,湖仓一体乘势而出基于以上问题,辽宁农信布局了针对海量数据的湖仓一体平台我的项目,基于业内的新技术、新理念,对立建设数据湖与数据仓库,实现湖内建仓的布局,整体建设辽宁农信数据平台,整体升高数据冗余度,晋升数据整体查问、剖析、加工效率,提供及时高效的数据查问接口,拓展模型的整体利用能力,减少准实时数据利用能力,实现全行数据的整体汇聚、加工、下发与利用。把控需要,连通全省法人机构在满足全省法人机构及业务部门对数据利用一致性、时效性、安全性、稳定性的前提下,辽宁农信着力强化数据管理和数据品质管制,加强全量用数能力。同时,在满足监管要求的前提下,深刻施展全量数据、一致性数据对各业务线条倒退的驱动作用,进步精细化治理,达成数字化能力的螺旋式晋升。偶数赋能,夯实数据底座偶数科技基于辽宁农信的总体目标,凭借劣势技术为用户搭建基于云原生分布式数据库的根底平台,夯实辽宁农信数字化转型的基石;实现历史数据的整体迁徙,保障业务数据的连续性;建设对立高效数据分析计算体系,推动数据与金融业务的交融,放慢数字化转型的步调;建设对立的数据散发机制,满足各级法人分支机构与监管机构的数据安全要求;建设准实时数据利用能力,逐渐实现离线数据利用向实时数据利用能力的逾越;对立数据加工治理,通过湖仓一体存储的一份数据,利用平台的高性能,进行数据加工的全流程治理,防止数据存储的冗余,并制订数据加工标准,管控数据统计口径,实现数据源、数据加工过程、数据脚本标准、脚本上线过程、批量调度程序等五个对立治理。数字金融,农村振兴新姿势展望未来,辽宁农信将通过激发金融科技翻新生机、构筑自主可控能力,摸索一条当先的、实用的、灵便的、有特色的金融科技创新型倒退门路。在这个过程中,从新扫视了“数字金融”的业务价值属性,着重调整了“数据”的业务服务本色定位与治理视角,构建了全量数据思维下的新型治理思维。进一步放慢辽宁农信特色数字金融的摸索步调,为数字金融的倒退奉献多样性,产出更为丰硕的成绩,以农村金融主力军的姿势服务农村振兴。为落实人民银行推动农村振兴工作意见,助力“十四五”布局施行,推动农村中小金融机构被动适应农业农村数字化趋势,以数字化伎俩赋能区域倒退、晋升农村金融服务质效,构筑农村数字普惠金融服务新模式,由农信银资金清理核心主办、金科翻新社承办的“第六届农村中小金融机构科技翻新优良案例评选活动。

November 3, 2022 · 1 min · jiezi

关于oushudb-hawq:偶数科技入选-IDC-中国分布式数据库报告获-Innovator-殊荣

近日,寰球出名征询钻研机构 IDC 公布了《中国分布式关系型数据库》钻研报告,通过调研 CIO、IT 负责人、投资机构和泛滥厂商,评比出该畛域综合体现突出的创新型厂商。偶数科技凭借其新一代云原生数据库 OushuDB 和实时湖仓一体创新能力取得了 IDC Innovator 中国分布式数据库创新者殊荣。IDC 和 Gartner 是寰球驰名的征询钻研机构,几周前偶数科技刚刚入选 Gartner 中国数据管理畛域 Cool Vendor,一个月内偶数接连取得了 IDC、Gartner 两大顶尖机构认可,其在技术创新畛域可见一斑。除了国内机构的认可,偶数还被评为国家级专精特新“小伟人”企业。IDC 认为,与同类产品相比 OushuDB 在以下方面有独特劣势:云原生:采纳计算存储拆散架构,利用云服务器、分布式存储,对数据基础设施的可扩展性进行深度优化,充沛满足云端利用高度弹性、有限扩容的要求。产品反对在各个支流云平台部署。高性能:面向 PB 级大数据的简单查问,相比 MPP 和 SQL-on-Hadoop 快一个数量级。全新设计的执行器让性能晋升 5 到 10 倍,显著升高批处理和即席查问所需的工夫。高并发:率先反对剖析型负载超高并发,多主节点程度扩大的同时,保障齐备的查问服务,实现多主节点集群的高可用,企业外部数万用户可同时应用简单查问拜访一份数据。强兼容:具备欠缺的 SQL 规范和 ACID 个性,兼容基于 Oracle,PostgreSQL,Greenplum,Hadoop等开发的数字利用,用户能够轻松实现不同数据基础设施的安稳迁徙。全自主:偶数科技研发团队曾主导国内顶级的数据库开源我的项目,OushuDB 由国内顶尖工程师自主开发。       偶数科技的云原生实时湖仓一体六大创新能力——ANCHOR,曾经取得了来自金融、电信、政府、能源等泛滥头部客户的高度认可。在金融畛域,偶数与建行独特成立了高性能大数据处理技术实验室,交融建行 PB 级海量数据的利用场景和偶数科技的数据库创新能力,独特打造新一代极速云数据库,用于湖仓一体等大规模外围数据的解决场景,成为建行专项前沿技术的重要力量。用户不仅可能应用同一套技术栈,对立存储,发展数据湖和数据仓库的双重能力建设,还无效优化集群扩大规模,进步大数据资源利用率。 在电信畛域,偶数科技与中国移动成立联结实验室,联合偶数科技积淀多年的技术劣势和中国移动丰盛的业务场景,打造满足 EB 级数据管理的云原生分布式数据库。存算拆散架构解决了传统 MPP 和 Hadoop 的架构缺点及效率运维难题,满足自主可控要求,撑持经营剖析等场景,推动中国移动大数据技术架构演进,深入数字转型。偶数科技自成立以来始终致力于云原生数据库技术的钻研和冲破,其外围产品云原生分布式数据库 OushuDB 通过计算存储拆散架构解决了传统数据平台高老本、高门槛、难保护、难扩大的问题,在泛滥畛域和行业取得了最佳实际和头部客户认可,偶数云数据平台同时反对各大公有云和公有云。偶数已取得国内驰名投资机构红杉中国、腾讯、红点中国、金山云四轮投资,是微软加速器、腾讯云原生加速器、VMware 威睿减速打算成员企业。

November 3, 2022 · 1 min · jiezi

关于oushudb-hawq:偶数科技入选-Gartner-Cool-Vendor-成为最酷厂商

近日,寰球驰名的钻研与征询公司 Gartner 公布了 2022年 Cool Vendor 钻研报告,偶数科技荣膺数据管理畛域翻新厂商 Cool Vendor。 Cool Vendor 钻研什么? Cool Vendor 是 Gartner 推出的翻新公司评比打算,笼罩寰球范畴100个钻研畛域,旨在开掘细分技术畛域最具创新力的成长型企业。很多科技从业者都曾理解 Gartner 的魔力象限(Magic Quadrant),而 Cool Vendor 是魔力象限外最重要的翻新钻研。 翻新科技公司成功率几何? 咱们看失去一颗树开花结果,但可能想不到经久不息有多少种子和幼苗被永远掩埋在广袤的土地下,翻新畛域的公司亦是如此。Gartner Cool Vendor 钻研报告给出了有说服力的答复,在过来的18年中寰球曾经有3000家企业入选 Cool Vendor ,达到了超90%的胜利概率,远超过 VC 投资初创企业的成功率,已经入选 Cool Vendor 的很多企业现在已成长为寰球知名企业,如Salesforce、Instagram、Snowflake、Cloudera、Dropbox 等。 企业生命周期的惟一一次机会 Cool Vendor 每年在细分畛域中评比不到5家企业,一家企业成长的生命周期内只有一次入选机会,并且只能呈现在其主营赛道畛域的评比中。评比维度包含创新性、影响力和独特性三个规范。创新性——让用户可能做他们已经难以达成的事件影响力——具备前瞻的业务影响力的技术或产品,不是“为了技术而技术”独特性——在过来一年引起了行业分析师的宽泛关注和趣味 不仅如此,Gartner 分析师还会从客户侧去理解厂商的产品、解决方案是否用翻新形式切实解决客户难题。每年 Gartner 分析师都会进行700余次行业问询,通过征询的形式来筛选 Cool Vendor 候选人。 此次偶数科技凭借其云原生数据库 OushuDB 入选 Gartner Cool Vendor ,作为偶数 Skylab 云数据平台中的外围组件,OushuDB 翻新的存算拆散云原生架构,以及超高并发、超高性能和超大规模的产品个性,为不同行业用户提供了湖仓一体和实时数仓技术能力。 Gartner 分析师锐评 由偶数科技自主研发的 OushuDB 是一款高性能的云中立数据库。通过与国内头部云厂商单干,OushuDB 解决了兼容性难题,反对用户基于不同基础设施疾速部署和应用 OushuDB,升高 IT 老本。此外,OushuDB 为云端用户提供了独特和翻新的产品能力——主动的计费监管和无效的资源管理。 OushuDB 集中的性能监控和资源管理,反对混合和多云部署,帮忙用户缩小不同数据基础设施上的运维工作量。它将存储和计算解耦,容许用户别离优化存储和计算成本,从而进步资源利用效率。其自动化的资源分配引擎能够依据实时工作负载在几分钟内主动扩大和缩减计算资源。 ...

November 3, 2022 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南类型转换之函数

在一次函数调用中应用的特定函数由以下几个步骤决定。函数类型解析 从零碎表pg_proc中抉择要思考的函数。如果应用了一个不带模式润饰的函数名字, 那么认为该函数是那些在以后搜寻门路中名字和参数个数都匹配的函数(参阅  「模式搜寻门路」- http://www.oushu.com/docs/ch/...  )。 如果给出一个带润饰的函数名,那么只思考指定模式中的函数。 a. 如果搜寻门路中找到了多个雷同参数类型的函数,那么只思考最早呈现在门路中的那一个。 然而不同参数类型的函数将被平等对待,而不论它们在门路中的地位如何。查找准确承受输出参数类型的函数。如果找到一个(在一组被思考的函数中, 可能只存在一个准确匹配的),则用之。蕴含unknown类型的函数调用绝不会在此处找到匹配。如果没有找到准确的匹配,则看看函数调用是否须要一个非凡的类型转换。 如果函数调用只有一个参数并且函数名与某些数据类型的外部名称雷同,那么就会呈现这种状况。另外,该函数的参数必须是一个未知类型的文本,或者与某个已命名数据类型二进制兼容。当这些条件满足时,函数参数能够在没有任何理论函数调用的时候转换为已命名的数据类型。查找最佳匹配。a. 摈弃那些输出类型不匹配并且也不能隐式转换成匹配的候选函数。unknown 文本在这种状况下能够转换成任何货色。如果只剩下一个候选项,则用之,否则持续下一步。b. 遍历所有候选函数,保留那些输出类型匹配最精确的。此时, 域被看作和他们的根本类型雷同。如果没有一个函数能精确匹配,则保留所有候选。 如果只剩下一个候选项,则用之,否则持续下一步。c. 遍历所有候选函数,保留那些须要类型转换时承受(属于输出数据类型的类型领域的) 首选类型地位最多的函数。如果没有承受首选类型的函数,则保留所有候选。 如果只剩下一个候选项,则用之,否则持续下一步。d. 如果有任何输出参数是unknown类型,查看残余的候选函数对应参数地位的类型领域。 在每一个可能承受字符串类型领域的地位应用string类型(这种对字符串的偏爱是适合的, 因为 unknown 文本的确像字符串)。另外,如果所有剩下的候选函数都承受雷同的类型领域, 则抉择该类型领域,否则抛出一个谬误(因为在没有更多线索的条件下无奈作出正确的抉择)。 当初摈弃不承受选定的类型领域的候选函数,而后,如果任意候选函数在那个领域承受一个首选类型, 则摈弃那些在该参数地位承受非首选类型的候选函数。 a. 如果正好一个候选合乎,那么应用它。否则,产生一个谬误。请留神,”最佳匹配”规定对操作符和对函数的类型剖析都是一样的。上面是一些例子。例.圆整函数参数类型解析只有一个round函数有两个参数(第一个是numeric, 第二个是integer)。所以上面的查问主动把第一个类型为integer 的参数转换成numeric类型:SELECT round(4, 4);round--------4.0000(1 row)实际上它被分析器转换成:SELECT round(CAST (4 AS numeric), 4);因为带小数点的数值常量初始时被赋予numeric类型, 因而上面的查问将不须要类型转换,并且可能会稍微高效一些:SELECT round(4.0, 4);例.子字符串函数类型解析有好几个substr函数,其中一个承受text 和integer类型。如果用一个未声明类型的字符串常量调用它, 零碎将抉择承受string类型领域的首选类型 (也就是text类型)的候选函数。SELECT substr('1234', 3);substr--------34(1 row)如果该字符串申明为varchar类型,就像从表中取出来的数据一样, 分析器将试着将其转换成text类型:SELECT substr(varchar '1234', 3);substr--------34(1 row)Note分析器从pg_cast表中理解到text和varchar 是二进制兼容的,意思是说一个能够传递给承受另一个的函数而不须要做任何物理转换。 因而,在这种状况下,实际上没有做任何类型转换。而且,如果以integer为参数调用函数,分析器将试图将其转换成text类型:SELECT substr(1234, 3);substr--------34(1 row)事实上变成:SELECT substr(CAST (1234 AS text), 3);这种主动转换可行是因为有一个从integer 到text 的隐式转换。

December 24, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南类型转换之操作符

上面解说了如何在一次操作符调用中确定所应用的到底是哪个操作符。请留神这个过程间承受被调用操作符的优先级影响。详阅  「操作符优先级」- http://www.oushu.com/docs/ch/...  。操作符类型解析 从零碎表pg_operator中选出要思考的操作符。 如果应用了一个不带模式润饰的操作符名(常见的情况), 那么认为该操作符是那些在以后搜寻门路中名字和参数个数都匹配的操作符 (参阅  「模式搜寻门路」- http://www.oushu.com/docs/ch/...  )。如果给出一个带润饰的操作符名, 那么只思考指定模式中的操作符。 a. 如果搜寻门路中找到了多个雷同参数类型的操作符,那么只思考最早呈现在门路中的那一个。 然而不同参数类型的操作符将被平等对待,而不论它们在门路中的地位如何。查找准确承受输出参数类型的操作符。如果找到一个(在一组被思考的操作符中, 可能只存在一个准确匹配的),则用之。 a. 如果一个双目操作符调用中的一个参数是unknown类型, 则在本次查看中假如其与另一个参数类型雷同。包含两个unknown 输出的调用或一个一元带有unknown输出的操作符,将绝不会在此处找到匹配。查找最佳匹配。a. 摈弃那些输出类型不匹配并且也不能隐式转换成匹配的候选操作符。 unknown文本在这种状况下能够转换成任何货色。 如果只剩下一个候选项,则用之,否则持续下一步。b. 遍历所有候选操作符,保留那些输出类型匹配最精确的。(此时,域被看作和他们的根本类型雷同。) 如果没有一个操作符能被保留,则保留所有候选。如果只剩下一个候选项,则用之,否则持续下一步。c. 遍历所有候选操作符,保留那些须要类型转换时承受(属于输出数据类型的类型领域的)首选类型地位最多的操作符。如果没有承受首选类型的操作符,则保留所有候选。如果只剩下一个候选项,则用之,否则持续下一步。d. 如果有任何输出参数是unknown类型,查看残余的候选操作符对应参数地位的类型领域。 在每一个可能承受字符串类型领域的地位应用 string类型(这种对字符串的偏爱是适合的, 因为 unknown 文本的确像字符串)。另外,如果所有剩下的候选操作符都承受雷同的类型领域, 则抉择该类型领域,否则抛出一个谬误(因为在没有更多线索的条件下无奈作出正确的抉择)。而后, 如果任意候选操作符在某个给定的参数地位承受一个首选类型, 则摈弃那些在该参数地位承受非首选类型的候选操作符。 a. 如果只有一个操作符合乎,那么应用它。否则,产生一个谬误。上面是一些例子。例.阶乘操作符类型解析在零碎表中里只有一个阶乘操作符,它以double precision类型作为参数。扫描器给上面查问表达式的参数赋予integer的初始类型:SELECT 2 ^ 3 AS "exp";exp-----8(1 row)分析器对参数做类型转换,查问等效于:SELECT CAST(2 AS double precision) ^ CAST(3 AS double precision) AS "exp";例.字符串连贯操作符类型剖析一种字符串格调的语法既能够用于字符串也能够用于简单的扩大类型。 未声明类型的字符串将被所有可能的候选操作符匹配。有一个未声明的参数的例子:SELECT text 'abc' || 'def' AS "text and unknown";text and unknown------------------abcdef(1 row)本例中分析器寻找两个参数都是text的操作符, 因而第二个参数就被认为是text类型。上面是连贯两个未声明类型的值:SELECT 'abc' || 'def' AS "unspecified";unspecified-------------abcdef(1 row)因为查问中没有申明任何类型,所以本例中对类型没有任何初始提醒,因而,分析器查找所有候选操作符,发现既存在承受字符串类型领域的操作符也存在承受位串类型领域的操作符。因为字符串类型领域是首选,所以抉择字符串类型领域的首选类型text 作为解析未知类型文本的申明类型。例.绝对值和取反操作符类型剖析OushuDB 操作符表外面有几条记录对应于前缀操作符@, 它们都用于为各种数值类型实现绝对值操作。其中之一用于float8类型, 它是数值类型领域中的首选类型。因而,在面对非数值输出的时候,OushuDB 会应用该类型:SELECT @ '-4.5' AS "abs";abs-----4.5(1 row)此处,零碎在利用选定的操作符之前隐式的转换text类型为float8类型。 咱们能够验证它是float8而不是其它类型:SELECT @ '-4.5e500' AS "abs";ERROR: "-4.5e500" is out of range for type double precision另一方面,前缀操作符~(按位取反)只为整数数据类型定义, 而不为float8定义。因而,如果咱们用~做相似的试验将失去:SELECT ~ '20' AS "negation";ERROR: operator is not unique: ~ "unknown"HINT: Could not choose a best candidate operator. You may need to add explicit type casts.这是因为零碎无奈决定几个可能的~操作符中到底应该应用哪一个。 咱们能够用明确地类型转换来帮它:SELECT ~ CAST('20' AS int8) AS "negation";negation-----------21(1 row)

December 24, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南类型转换之概述

概述SQL是强类型语言。也就是说,每个数据都与一个决定其行为和用法的数据类型相关联。OushuDB 有一个可扩大的数据类型零碎, 该零碎比其它SQL实现更具通用性和灵活性。因而,OushuDB 中大多数类型转换是由通用规定来治理的, 而不是由专门的试探法剖析的,这种做法容许应用混合类型的表达式, 即使是其中蕴含用户定义的类型也如此。OushuDB 扫描/分析器只将词法元素分解成五个根本品种: 整数、浮点数、字符串、标识符、关键字。大多数非数字类型首先表征为字符串,SQL 语言定义容许申明字符串的类型名,而且这种机制能够用于OushuDB 保障分析器沿着正确的方向运行。例如,查问:SELECT text 'Origin' AS "label", point '(0,0)' AS "value";label | value--------+-------Origin | (0,0)(1 row)有两个文本常量,类型别离为text和point。 如果没有为字符串文本申明类型,该文本先被初始化成一个领有存储空间的 unknown类型,该类型将在前面形容的早期阶段剖析。在OushuDB 分析器里, 有四种根本的SQL元素须要独立的类型转换规定:函数调用少数OushuDB 类型零碎是建设在一套丰盛的函数上的。函数调用能够有一个或多个参数。因为OushuDB 容许函数重载, 所以函数名本身并不惟一地标识将要调用的函数, 分析器必须依据函数提供的参数类型抉择正确的函数。操作符OushuDB 容许在表达式上应用前缀或后缀(单目)操作符, 也容许表达式外部应用双目操作符(两个参数)。像函数一样,操作符也能够被重载, 因而操作符的抉择也和函数一样取决于参数类型。值存储INSERT和UPDATE语句将表达式后果放入表中。 语句中的表达式类型必须和指标列的类型统一或者能够转换为统一。UNION, CASE和相干结构因为联结SELECT语句中的所有查问后果必须在一列里显示进去, 所以每个SELECT子句中的元素类型必须互相匹配并转换成一套对立类型。 相似地,一个CASE结构的后果表达式必须转换成对立的类型, 这样CASE表达式本身作为整体有一种已知输入类型。 同样的要求也存在于ARRAY结构中。零碎表casts存储无关哪种数据类型之间存在哪种转换以及如何执行这些转换的信息。额定的转换能够由用户通过CREATE CAST命令减少。(这个通常和定义一种新的数据类型一起实现。内置的类型转换集曾经通过认真的雕刻了, 因而最好不要去更改它们。)分析器中还提供了一个额定的搜索器,容许进步对有隐含转换的类型组之间的适当的转换行为的决断。数据类型分成了几个根本 类型分类 ,包含:boolean, numeric, string, bitstring, datetime, timespan, geometric, network, user-defined(用户定义)。每种类型(除用户定义)都有一种或多种 首选类型 用于解决类型抉择的问题。因而歧义的表达式(那些有多个候选解析计划的)当有多个内置类型时能够解决,然而用户定义的类型有多个抉择时会产生谬误。所有类型转换规定都是建设在上面几个根本原则上的:● 隐含转换决不能有奇怪的或不可预感的输入。● 解析器没有 先验 常识的用户定义类型应该是 “较高的” 类型等级。在混合类型表达式中,本地类型总应该转换为用户定义的类型(当然,只有转换是必要的)。● 用户定义的类型是不相干的。当初,除了内置类型的硬编码启发式和可用函数和转换的隐式关系外,OushuDB 没有类型之间关系的可用信息。● 如果一个查问不须要隐含的类型转换,分析器或执行器不应该进行更多的额定操作。 这就是说,任何一个类型匹配、格局清晰的查问不应该在分析器里消耗更多的工夫, 也不应该向查问中引入任何不必要的隐含类型转换调用。另外,如果一个查问通常应用某个函数进行隐含类型转换,而用户定义了一个有正确参数的函数, 解释器应该应用新函数取代原先旧函数的隐含操作。

December 24, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南图算法之GQL脚本命令

创立VERTEX LABEL:CREATE VERTEX person (code text, name text, age int, PRIMARY KEY(code));CREATE VERTEX card (code text, PRIMARY KEY(code)); 创立EDGE LABEL:CREATE EDGE owns (from person, to card);CREATE EDGE translate (from card, to card, id text, amount int, DISCRIMINATOR(id)); 创立图: 创立图的时候能够指定不同存储类型的图,目前反对的类型有magmaap,orc,创立的语法如下:CREATE GRAPH graphname(vertex(person, card), edge(owns, translate))format 'magmaap';CREATE GRAPH graphname(vertex(person, card), edge(owns, translate))format 'orc'; 创立图的时候默认是不创立主键的索引的,如果须要创立图的时候依据点和边的主键创立惟一索引,能够用如下语句:CREATE GRAPH graphname(vertex(person, card), edge(owns, translate))format 'magmaap' with(primaryindex=false); 注:orc格局的图不反对惟一索引 创立index能够对图中任一类型的点或边创立索引,创立vertex index语法如下:CREATE INDEX indexname ON graphname.person (age);CREATE UNIQUE indexname INDEX ON graphname.person (code);创立edge index时,能够任意抉择edge的属性和源点、指标点的主键,源点和指标点的主键用 FROM 和 TO 示意:CREATE INDEX indexname ON graphname.translate (FROM, TO, id);这样索引有三列,(src_person.code, dst_person.code, id)也能够建设反转edge的index,如CREATE INDEX indexname ON graphname.translate (TO, FROM, id);该语句的索引列为 (dst_person.code, src_person.code, id)注:创立UNIQUE INDEX时必须向左蕴含primary key/DISCRIMINATOR。如给person创立UNIQUE INDEX,则必须蕴含code,且code在最右边。 ...

December 22, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南图算法之边类型

1.新建边类型 鼠标右键“边类型”文件夹抉择“新建边类型”,会弹出如下窗口 在此页面上填写边名称、抉择起源点类型及指标点类型、增加必要的边属性。 2.查看边类型 在曾经建好的边类型上点击右键,能够查看边类型信息 3.删除边类型 在曾经建好的边类型上点击右键,能够点选菜单删除此边。 须要留神的是,当删除边时,零碎会查看这个边类型是否正在被某张“图”所应用。如果正在被应用,则无奈删除,须要先删除相应的“图”。

December 22, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南图算法之点类型

1.建点类型鼠标右键“点类型”文件夹点击“新建点类型”,会弹出如下窗口填入点类型名称及点相干的属性。 其中“显示列”会在可视化的画布中,将此列数据显示在点的下方。 其中“主键”可设置多列,在下方的“主键程序”处,能够用鼠标拖动以调整程序。 2.查看点类型 在曾经建好的点上点击右键,能够查看点类型信息。 须要留神的是,曾经建好的点类型,只容许批改“显示列”,其余信息不可批改。 注:下图中的图标是一个开关按钮,能够收起、开展树形侧边栏。(与应用侧边栏的箭头图标有同样的成果) 3.删除点类型 在曾经建好的点类型上点击右键,能够点选菜单删除此点。 须要留神的是,当删除点时,零碎会查看这个点类型是否正在被“边类型”或者“图”所应用。如果正在被应用,则无奈删除,须要先删除相应的“边类型”或者“图”。

December 22, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南之类型转换值存储

要插入表中的数值也依据上面的步骤转换成指标列的数据类型。值存储数据类型解析 查找与指标精确的匹配。否则,试着将表达式间接转换成指标类型。如果已知这两种类型之间存在一个已注册的转换函数, 那么间接调用该转换函数即可。如果表达式是一个未知类型文本, 该文本字符串的内容将交给指标类型的输出转换过程。检查一下看看指标类型是否有长度转换。长度转换是一个从某类型到本身的转换。如果在pg_cast表外面找到一个,那么在存储到指标列之前先在表达式上利用。 这样的转换函数总是承受一个额定的类型为integer的参数, 它接管指标字段的atttypmod值(实际上是其申明长度,atttypmod 的解释随不同的数据类型而不同),并且它可能承受一个boolean类型的第三个参数, 示意转换是显式的还是隐式的。转换函数负责施加那些长度相干的语义,比方长度查看或者截断。例.character存储类型转换对一个指标列定义为character(20)的语句,上面的语句显示存储值的长度正确:CREATE TABLE vv (v character(20));INSERT INTO vv SELECT 'abc' || 'def';SELECT v, octet_length(v) FROM vv;v | octet_length----------------------+--------------abcdef | 20(1 row)这里真正产生的事件是两个 unknown 文本缺省解析成text, 这样就容许||操作符解析成text连贯。 而后操作符的text后果转换成bpchar(“空白填充的字符型”, character类型外部名称)以匹配指标列类型。(因为从text 到bpchar的转换是二进制兼容的,这样的转换是隐含的并且实际上不做任何函数调用。)最初,在零碎表里找到长度转换函数bpchar(bpchar, integer, boolean) 并且利用于该操作符的后果和存储的字段长。这个类型相干的函数执行所需的长度检查和额定的空白填充。

December 22, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南之类型转换

概述SQL是强类型语言。也就是说,每个数据都与一个决定其行为和用法的数据类型相关联。 OushuDB 有一个可扩大的数据类型零碎, 该零碎比其它SQL实现更具通用性和灵活性。因而,OushuDB 中大多数类型转换是由通用规定来治理的, 而不是由专门的试探法剖析的,这种做法容许应用混合类型的表达式, 即使是其中蕴含用户定义的类型也如此。 OushuDB 扫描/分析器只将词法元素分解成五个根本品种: 整数、浮点数、字符串、标识符、关键字。大多数非数字类型首先表征为字符串,SQL 语言定义容许申明字符串的类型名,而且这种机制能够用于OushuDB 保障分析器沿着正确的方向运行。 例如,查问:SELECT text 'Origin' AS "label", point '(0,0)' AS "value";label | value--------+-------Origin | (0,0)(1 row) 有两个文本常量,类型别离为text和point。 如果没有为字符串文本申明类型,该文本先被初始化成一个领有存储空间的 unknown类型,该类型将在前面形容的早期阶段剖析。 在OushuDB 分析器里, 有四种根本的SQL元素须要独立的类型转换规定: 函数调用少数OushuDB 类型零碎是建设在一套丰盛的函数上的。函数调用能够有一个或多个参数。因为OushuDB 容许函数重载, 所以函数名本身并不惟一地标识将要调用的函数, 分析器必须依据函数提供的参数类型抉择正确的函数。 操作符OushuDB 容许在表达式上应用前缀或后缀(单目)操作符, 也容许表达式外部应用双目操作符(两个参数)。像函数一样,操作符也能够被重载, 因而操作符的抉择也和函数一样取决于参数类型。 值存储INSERT和UPDATE语句将表达式后果放入表中。 语句中的表达式类型必须和指标列的类型统一或者能够转换为统一。 UNION, CASE和相干结构因为联结SELECT语句中的所有查问后果必须在一列里显示进去, 所以每个SELECT子句中的元素类型必须互相匹配并转换成一套对立类型。 相似地,一个CASE结构的后果表达式必须转换成对立的类型, 这样CASE表达式本身作为整体有一种已知输入类型。 同样的要求也存在于ARRAY结构中。 零碎表casts存储无关哪种数据类型之间存在哪种转换以及如何执行这些转换的信息。额定的转换能够由用户通过CREATE CAST命令减少。(这个通常和定义一种新的数据类型一起实现。内置的类型转换集曾经通过认真的雕刻了, 因而最好不要去更改它们。) 分析器中还提供了一个额定的搜索器,容许进步对有隐含转换的类型组之间的适当的转换行为的决断。数据类型分成了几个根本 类型分类 ,包含:boolean, numeric, string, bitstring, datetime, timespan, geometric, network, user-defined(用户定义)。每种类型(除用户定义)都有一种或多种 首选类型 用于解决类型抉择的问题。因而歧义的表达式(那些有多个候选解析计划的)当有多个内置类型时能够解决,然而用户定义的类型有多个抉择时会产生谬误。 所有类型转换规定都是建设在上面几个根本原则上的:● 隐含转换决不能有奇怪的或不可预感的输入。● 解析器没有 先验 常识的用户定义类型应该是 “较高的” 类型等级。在混合类型表达式中,本地类型总应该转换为用户定义的类型(当然,只有转换是必要的)。● 用户定义的类型是不相干的。当初,除了内置类型的硬编码启发式和可用函数和转换的隐式关系外,OushuDB 没有类型之间关系的可用信息。● 如果一个查问不须要隐含的类型转换,分析器或执行器不应该进行更多的额定操作。 这就是说,任何一个类型匹配、格局清晰的查问不应该在分析器里消耗更多的工夫, 也不应该向查问中引入任何不必要的隐含类型转换调用。另外,如果一个查问通常应用某个函数进行隐含类型转换,而用户定义了一个有正确参数的函数, 解释器应该应用新函数取代原先旧函数的隐含操作。 ...

December 22, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南之编程接口

因为OushuDB和PostgreSQL兼容,所以能够应用PostgreSQL的驱动和编程接口来拜访OushuDB。 ● https://jdbc.postgresql.org/● https://www.postgresql.org/do...● https://odbc.postgresql.org/ JDBC例子上面给出一个简略的JDBC拜访OushuDB的例子。 // OushuDBJDBC.javaimport java.sql.Connection;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import java.sql.DriverManager;import java.sql.ResultSetMetaData;public class OushuDBJDBC {public static Connection getConn() {Connection conn = null;try {Class.forName("org.postgresql.Driver");String url = "jdbc:postgresql://localhost:5432/postgres";try {conn = DriverManager.getConnection(url, "ChangLei", "");}catch (SQLException e) {e.printStackTrace();}}catch (ClassNotFoundException e) {e.printStackTrace();}return conn;}public static void main(String[] args) {Connection conn= getConn();String sql = "select * from gp_segment_configuration";try {Statement stmt=conn.createStatement();ResultSet rs=stmt.executeQuery(sql);ResultSetMetaData rsmd = rs.getMetaData();int numCol = rsmd.getColumnCount();for (int i = 0; i < numCol; i++) {System.out.print(rsmd.getColumnName(i + 1) + ' ');}System.out.println();while(rs.next()) {for (int i = 0; i < numCol; i++) {System.out.print(rs.getString(i + 1) + ' ');}System.out.println();}}catch (SQLException e) {e.printStackTrace();}}} ...

December 22, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-管理指南-集群高可用2

配置备用主节点能够在 Oushu Database 的装置过程中配置备用主节点, 也能够向现有集群中增加。装置过程中配置备用主节点请参见  「装置OushuDB」- http://www.oushu.com/docs/ch/...  中无关 oushum2 的配置。向现有群集增加备用主节点 请确保备用主节点的主机已装置了 Oushu Database 并相应地进行了配置:● 已创立 gpadmin 零碎用户。● Oushu Database 二进制文件已装置。● 设置了 Oushu Database 环境变量。● 已替换 SSH 密钥。● 已创立 Oushu Database 数据目录。初始化 Oushu Database 备用主节点:请登录到 Oushu Database 主节点并从新初始化 Oushu Database 备用主节点:$ ssh gpadmin@<oushu_master>oushu_master$ source /usr/local/hawq/greenplum_path.shoushu_master$ hawq config -c hawq_standby_address_host -v <new_standby_master>oushu_master$ hawq init standby其中 < new_standby_master > 标识备用主节点的主机名。 通过查问 gp_master_mirroring system 视图来查看备用主节点的状态,请参阅  「查看备用主节点的状态」- http://www.oushu.com/docs/ch/...  。要激活或故障切换到备用主节点, 请参阅  「故障切换」- http://www.oushu.com/docs/ch/...  。

December 14, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-管理指南-集群高可用3

故障切换如果主节点产生故障, 日志同步将进行。此时必须激活备用主节点。激活备用主节点后, Oushu Database 将重建最初一胜利提交的事务时的状态。手动激活备用主节点 确保已为系统配置了备用主节点。请登录到 Oushu Database 备用主节点并激活:oushu_master$ hawq activate standby激活备用主节点后, 它将成为 Oushu Database 群集的沉闷的主节点。 (可选)配置新的备用主节点。无关阐明, 请参阅  「向现有群集增加备用主节点」- http://www.oushu.com/docs/ch/...  。通过在主节点上执行以下命令来查看 Oushu Database 群集的状态:oushu_master$ hawq state新激活的主节点的状态应为 active。如果配置了新的备用主节点, 则备用主节点状态为 passive。当未配置备用主节点时, 该命令将显示 -No entries found, 批示没有配置主节点。 查问该 gp_segment_configuration 表来验证 segment 节点是否已将本人注册到新的 master 节点:oushu_master$ psql dbname -c 'SELECT * FROM gp_segment_configuration;'最初, 通过查问 gp_master_mirroring 视图来查看新增加的备用主节点的状态。无关阐明, 请参阅  「查看备用主节点的状态」- http://www.oushu.com/docs/ch/...  。主动激活备用主节点最新的 Oushu Database 反对备用主节点的主动激活,您能够按如下步骤关上此性能。确保已为系统配置了备用主节点。您能够在启动集群前,在配置文件 hawq-site.xml 中增加如下属性并同步到各节点,也能够在启动集群后再批改 GUC 值。 (情谊提醒:对于首次应用 Oushu Database 的用户,倡议先跳过此步骤,防止因某些操作不慎导致 master 启动失败,引发主节点切换,给后续操作带来麻烦。)<property><name>enable_master_auto_ha</name><value>on</value></property><property><name>ha_zookeeper_quorum</name><value>ZKHOST1:2181,ZKHOST2:2181,ZKHOST3:2181</value></property>enable_master_auto_haoff 是否容许主动切换 ...

December 14, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-管理指南-集群高可用1

Oushu Database 集群上能够配置两个master节点:主节点(master)和备用主节点(standby master)。客户端连贯到主节点, 查问只能在主节点上执行。您能够在独自的机器上部署备用主节点, 使群集可能更好得容忍单点故障。如果主节点无奈运行, 备用主节点将降级为主节点以反对集群失常运行。Oushu Database 失常提供服务的同时, 会将主节点上的事务性快照(transactional snapshot)以及基于快照的更新同步到备用主节点上, 使得备用主节点与主节点放弃同步。因为主节点不负责存储用户数据, 主节点和备用主节点之间只同步零碎元数据表。当这些表在主节点上产生更改后, 将主动同步到备用主节点, 使其放弃最新状态。如果主节点产生故障, 管理员能够激活备用主节点。Oushu Database 利用同步的日志信息将集群重建为最初一胜利提交事务时的状态。激活的备用主节点将作为 Oushu Database 新的主节点, 为集群提供服务。如果主节点故障, 管理员可应用命令行工具激活备用主节点。如果在集群启动时曾经关上了主动切换性能,备用主节点将在主节点故障时主动降级为主节点。原故障主节点将从集群中删除,由管理员自行处理。(注:切换主节点后,集群中曾经没有备用主节点,须由管理员手工增加。)提醒:● (重要)当管理员在主节点批改用户权限管制文件  「pg_hba.conf」- https://www.postgresql.org/do...  时,必须手动把更新后的该文件同步到备用主节点上,以防止主节点故障时,切换后的新主节点无奈辨认用户权限而导致的集群服务不可用。● 您能够为主节点和备用主节点配置虚构 IP 地址, 以便当主节点产生更改时, 客户端程序不用切换到其余网络地址。如果主节点故障, 则能够将虚构 IP 地址调配给理论的主节点。● 当客户端应用 jdbc 链接 Oushu Database 时,如果没有配置虚构 IP 地址,倡议同时将主节点地址与备用主节点地址退出到 jdbc 连贯的 url 地址中,以便客户端程序在 Oushu Database 集群主节点产生切换时仍放弃可用。例如: String url = "jdbc:postgresql://master:port,standby:port/dbname";

December 14, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-用户指南书籍定义创建和管理模式之创建模式

一个OushuDB数据库集群蕴含一个或多个已命名数据库。 用户和用户组在整个集群范畴内是共享的,然而其它数据并不共享。 任何与服务器连贯的客户都只能拜访那个在连贯申请里申明的数据库。 Note集群中的用户并不一定要有拜访集群内所有数据库的权限。共享用户名的意思是不能有重名用户。 假设同一个集群里有两个数据库和一个joe用户,零碎能够配置成只容许joe 拜访其中的一个数据库。 一个数据库蕴含一个或多个已命名的模式,模式又蕴含表。模式还能够蕴含其它对象, 包含数据类型、函数、操作符等。同一个对象名能够在不同的模式里应用而不会导致抵触; 比方,schema1和myschema都能够蕴含一个名为mytable的表。 和数据库不同,模式不是严格拆散的:只有有权限,一个用户能够拜访他所连贯的数据库中的任意模式中的对象。 咱们须要模式的起因有很多:● 容许多个用户应用一个数据库而不会烦扰其它用户。● 把数据库对象组织成逻辑组,让它们更便于管理。● 第三方的利用能够放在不同的模式中,这样它们就不会和其它对象的名字抵触。模式相似于操作系统档次的目录,只不过模式不能嵌套。 1、创立模式要创立一个模式,应用CREATE SCHEMA命令。给出你抉择的模式名字。比方:CREATE SCHEMA myschema; 要创立或者拜访在模式中的对象,写出一个 受润饰 的名字,这个名字蕴含模式名以及表名, 它们之间用一个句点离开:schema.table 这个形式在任何须要表名字的中央都可用,包含前面探讨的表批改命令和数据拜访命令。出于简化,咱们将只探讨表,这个概念实用于所有其它已命名对象类型,比方数据类型和函数。 实际上,更个别的语法:database.schema.table 也能够应用,但目前它只是为了和 SQL 规范 模式上 兼容。如果你写了一个数据库名, 那么它必须和你以后连贯的数据库同名。 要在新模式里创立一个表,用:CREATE TABLE myschema.mytable (...); 如果一个模式是空的(所有它外面的对象都曾经删除),那么删除它的命令如下:DROP SCHEMA myschema; 要删除一个模式及其蕴含的所有对象,能够应用:DROP SCHEMA myschema CASCADE; 通常你想创立一个别人领有的模式(因为这是一种限度用户在定义良好的模式中的流动的办法)。其语法如下:CREATE SCHEMA schemaname AUTHORIZATION username; 你甚至能够省略模式名字,这时模式名将和用户名同名。参阅 http://www.oushu.com/docs/ch/... 获取这种状况的实用场合。以pg_结尾的模式名是保留给零碎应用的,用户不能创立这样的名字。 2、public模式在后面的大节里,咱们没有申明任何模式名字就创立了表。缺省时, 这样的表(以及其它对象)都主动放到一个叫做”public”的模式中去了。 每个新数据库都蕴含一个这样的模式。因而,上面的命令是等效的: CREATE TABLE products ( ... );和:CREATE TABLE public.products ( ... );上面是零碎默认创立的schema。 template1=# \dnList of schemasName | Owner--------------------+----------hawq_toolkit | ChangLeiinformation_schema | ChangLeipg_aoseg | ChangLeipg_bitmapindex | ChangLeipg_catalog | ChangLeipg_toast | ChangLeipublic | ChangLei(7 rows)

December 8, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-创建和管理表的基本结构之表的基本概念

关系型数据库中的表十分相似纸面上的一张表:它由行和列组成。列的数目和程序是固定的,每个列都有一个名字。行的数目是变动的(它反映了给定时刻存储的数据量)。SQL 对表中行的程序没有任何规定。当读取一个表时,即将会以一个随机的程序呈现,除非你明确地要求排序。另外,SQL 并不给行赋予惟一的标识,因而咱们很可能在一个表中有好几个完全相同的行。这是作为 SQL 根底的上层数学模型的必然结果,然而这通常是咱们不违心看到的。 每个列都指定一个数据类型。数据类型限度着一个列所有可能值的汇合,并且限度着列中数据的语义,这样它就能够用于计算。比方,一个申明为数值类型的列不会承受任意文本字符串,而存储在这种列里的数据能够用于数学计算。相比之下,一个申明为字符串类型的列承受简直任意类型的数据,然而它们不能进行数学计算(不过能够进行像字符串连贯之类的操作)。 OushuDB蕴含一套可观的内置数据类型,这些类型能够实用于许多利用。用户也能够定义它们本人的数据类型。大多数内置的数据类型有不言而喻的名字和语义。罕用的数据类型有:用于整数的integer、用于可能为分数的numeric、用于字符串的text、用于日期的date、用于工夫的time、用于工夫戳的timestamp。 要创立一个表,可应用CREATE TABLE命令。在这个命令里,你至多要为新表申明一个名字,还有各列的名字以及其数据类型。比方:CREATE TABLE my_first_table (first_column text,second_column integer);这样就创立了一个有两个列的名为my_first_table的Append-Only表。第一个列的名字是first_column,数据类型为text;第二个列的名字是second_column,数据类型是integer。 表和列的名字遵循 http://www.oushu.com/docs/ch/... 外面解释的标识符语法。 创立ORC格局表的语法如下:CREATE TABLE my_first_table (first_column text,second_column integer) WITH (APPENDONLY = true, OIDS = FALSE, ORIENTATION = orc); 创立MAGMA格局表的语法如下(MAGMA表在创立时能够申明主键,且主键必须为表级束缚,而且如果主键束缚的列中蕴含变长列,此列需搁置最初一列申明):CREATE TABLE my_first_table (second_column integer,first_column text,primary key (second_column)) FORMAT 'MAGMAAP'; 创立PARQUET格局表的语法如下:CREATE TABLE my_first_table (first_column text,second_column integer) with (appendonly=true, orientation=parquet); 当然,后面只是十分虚构的例子。通常,你会给表和列取有意义的名字,用以表白他们存储什么类型的数据,所以还是让咱们给一个比拟事实的例子:CREATE TABLE products (product_no integer,name text,price numeric); numeric类型能够存储分数局部,金额很可能有这样的分数局部。 提醒:如果你创立了许多互相关联的表,那么最好为表和列抉择统一的命名模式。比方,表名字能够对立抉择复数或者复数。 一个表能蕴含的列数目是有限度的。依据列类型的不同,这个数目可能在 250 到 1600 之间。不过,不论是哪一个数目, 你设计的表蕴含这么多的列的状况如同都很不可能产生,否则就是设计上有问题的体现。 如果你不再须要一个表,那么能够用DROP TABLE命令删除它。像这样:DROP TABLE my_first_table;DROP TABLE products; ...

December 8, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-创建和管理模式下

1、应用办法模式能够用多种形式组织数据。上面是一些倡议应用的模式,它们也很容易在缺省配置中失去反对:● 如果没有创立任何模式,那么所有用户都默认拜访 public 模式。这样就模仿了没有模式的时候的情景。 这种设置倡议次要用在只有一个用户或者数据库里只有几个单干用户的情景。 这样的设置也容许咱们平滑地从无模式的环境过渡。● 你能够为每个用户创立一个模式,名字和用户雷同。要记得缺省的搜寻门路从$user开始, 它会解析为用户名。因而,如果每个用户都有一个独立的模式,那么他们缺省时拜访他们本人的模式。 如果你应用了这样的设置,那么你可能还想撤销对 public 模式的拜访(或者删除它), 这样,用户就真的限度于他们本人的模式了。● 要装置共享的利用(被所有人应用的表、第三方提供的额定函数等等), 咱们能够把它们放到独立的模式中。只有记得给须要拜访它们的用户赋予适合的权限就能够了。 而后用户就能够通过用一个模式名润饰来应用这些额定的对象,或者他们能够把额定的模式放到他们的搜寻门路中。 2、移植性在 SQL 规范里,在同一个模式里的对象被不同的用户所有的概念是不存在的。而且, 有些实现不容许你创立和它们的所有者不同名的模式。实际上, 模式的概念和用户在那些只实现了规范中规定的基本模式反对的数据库系统里简直是一样的。 因而,许多用户思考对名字加以润饰,使它们真正由username.tablename 组成。如果你为每个用户都创立了一个模式,这实际上就是OushuDB的行为。同样,在 SQL 规范里也没有public模式的概念。为了最大限度地遵循规范, 你不应该应用(可能甚至是应该删除)public模式。当然,有些数据库系统可能基本没有模式,或者是通过容许跨数据库拜访来提供模式的性能。 如果你须要在这些零碎上干活,那么为了最大限度的移植性,应该基本不应用模式。

December 8, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-创建和管理外部表上

内部表是一个数据存储在数据库内部的OushuDB数据库表,容许OushuDB对存储在数据库之外的数据源中的数据进行拜访,就像数据存储在惯例数据库表中一样。内部表分可读和可写,数据能够从内部表读取或写入。它和惯例数据库表的用法一样, 能够执行INSERT、SELECT、JOIN等操作。内部表通常用于疾速并行加载和卸载数据库数据。 内部web表容许OushuDB数据库解决动静数据源,它能够在查问运行时进行更改,因而数据不可从新记录。且内部web表提供对HTTP服务器或操作系统过程提供的数据的拜访。 接下来将通过以下目录章节具体介绍内部表: 内部表定义创立可读内部表或创立可读内部WEB表是在OushuDB中创立一个新的可读内部表定义。可读内部表通常用于疾速并行数据加载。一旦定义了内部表,就能够应用SQL命令间接(并行)查问其数据。例如,能够对外部表数据进行查问、关联或排序。也能够为内部表创立视图。不容许对可读内部表执行DML操作(UPDATE、INSERT、DELETE或TRUNCATE)。 创立可写内部表或创立可写内部WEB表是在OushuDB中创立一个新的可写内部表定义。可写内部表通常用于将数据从数据库卸载到一组文件或命名管道中。可写内部web表也可用于将数据输入到可执行程序。一旦定义了可写内部表,就能够从数据库表中抉择数据并将其插入可写内部表中。可写内部表容许INSERT–不容许SELECT、UPDATE、DELETE。目前只有hdfs协定和hive协定反对TRUNCATE。 在OushuDB中,Web内部表可通过两种形式拜访动静数据源:能够在Web服务器上通过http://protocol拜访文件表,也能够通过执行操作系统命令或脚本拜访数据表。 定义内部表时,需应用location子句指定内部数据的地位,应用format子句指定内部表文件格式。 LOCATION子句指定内部数据的地位。location字符串以协定字符串结尾,该字符串指定用于拜访数据的存储类型和协定。你能够应用以下协定拜访内部表数据源,但不能在一个CREATEA EXTERNAL TABLE命令中混合应用多个协定。 ● gpfdist://protocol指定由一个或多个OushuDB文件服务器gpfdist实例提供服务的数据文件。● 「http:/」- http://www.oushu.com/ /protocol指定一个或多个http url,并与web表一起应用。● hdfs://protocol指定由hadoop hdfs文件系统提供服务的数据文件。● hive://protocol指定由Hive数据库提供服务的数据文件。 Note:不举荐应用file://。相同,请应用gpfdist://、gpfdists://、hive://、hdfs://或COPY命令。FORMAT子句指定如何格式化内部数据,对于gpfdist协定,无效的立体文件格式(包含HDFS中的文件)是分隔文本(TEXT)格局和逗号分隔值(CSV)格局。 版本3.0减少了对hdfs协定中orc格局的反对。如果文件中的数据不应用默认列分隔符、本义符、空字符串等,则必须指定其余格局选项,以便OushuDB正确读取内部文件中的数据。 NoteOushuDB目前只有hdfs协定和hive协定反对ORC格局。以下内容是内部表定义的SQL命令,蕴含创立、批改和删除内部表:

December 8, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-创建和管理外部表中

创立内部表创立一个内部表,应用CREATE EXTERNAL TABLE命令。在这个命令里,需申明新表名称,各列名称及其数据类型,基于命令的EXECUTE子句或基于URL的LOCATION子句的内部数据起源,数据格式。 当创立一个可读内部表时,location子句需指定应用一种协定指向内部数据源,format子句需指定TEXT、CSV、ORC或CUSTOM用户自定义文本格式。比方:应用gpfdist协定在gpfdist目录中找到(.txt)格局的所有文本文件,来创立一个名为ext_customer的可读内部表。这些文件的格局是以‘|’作为列分隔符,空白空间为空。还能够在单行谬误隔离模式下拜访内部表的SQL定义:CREATE EXTERNAL TABLE ext_customer(id int, name text, sponsor text)LOCATION ( 'gpfdist://filehost:8081/*.txt' )FORMAT 'TEXT' ( DELIMITER '|' NULL ' ')LOG ERRORS INTO err_customer SEGMENT REJECT LIMIT 5; 或者创立与下面雷同的可读内部表定义,但应用CSV格式文件的示例:CREATE EXTERNAL TABLE ext_customer(id int, name text, sponsor text)LOCATION ( 'gpfdist://filehost:8081/*.csv' )FORMAT 'CSV' ( DELIMITER ',' ); 当创立一个可读web内部表时,除location子句形式指定内部数据形式外,还能够应用execute子句运行指定脚本(脚本必须位于所有segment主机上的同一地位)来拜访内部数据源。比方:在第五个虚构节点执行指定脚本创立一个内部表的SQL定义:CREATE EXTERNAL WEB TABLE log_output (linenum int,message text)EXECUTE '/var/load_scripts/get_log_data.sh' ON 5FORMAT 'TEXT' (DELIMITER '|'); 当创立一个可写内部表时,location子句应用上述协定之一指向内部数据源,format子句指定TEXT、CSV、ORC或CUSTOM用户自定义文本格式。例如:以下SQL命令显示如何创立可写hdfs内部表以自在加载、卸载、查问和插入数据:CREATE WRITABLE EXTERNAL TABLE tbexternal (a int,b decimal(10,2),t text,d date)LOCATION ('hdfs://host1:port1/tbexternaldir')FORMAT 'csv' (DELIMITER '|')LOG ERRORS INTO err_tbexternal SEGMENT REJECT LIMIT 5; ...

December 8, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-创建和管理外部表下

1、批改内部表批改内部表,应用ALTER TABLE命令。ALTER TABLE orcexternal RENAME TO orc_ext;ALTER TABLE orc_ext SET SCHEMA new_schema;批改内部表构造时,必须应用ALTER EXTERNAL TABLE命令。减少一个列,应用上面命令:ALTER EXTERNAL TABLE orc_ext ADD COLUMN col int;删除一个列,应用上面命令:ALTER EXTERNAL TABLE orc_ext DROP COLUMN col;批改列数据类型,应用上面命令:ALTER EXTERNAL TABLE log_output alter column message TYPE varchar(200);内部表不反对束缚批改、默认值批改。 2、删除内部表删除内部表时,应用DROP EXTERNAL TABLE命令。DROP EXTERNAL TABLE orc_ext; 3、应用内部表应用内部表的步骤如下:● 定义内部表,配置数据库并启动创立内部表时指定的协定。● 启动location子句中指定协定对应的文件服务器,且对协定和数据库进行相干配置● 将数据文件搁置在location子句中对应的地位● 应用SQL命令查问应用内部表

December 8, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-安装与升级之命令行安装准备下

装置其余节点YUM源在oushum1上,通过“hawq scp”命令对立装置其余节点的YUM源:hawq scp -f hostfile /etc/yum.repos.d/oushu-database-cent73.repo =:/etc/yum.repos.d 敞开selinuxhawq ssh -f hostfile -e 'sed -i "s/^SELINUX\=enforcing/SELINUX\=disabled/g" /etc/selinux/config'hawq ssh -f hostfile -e 'setenforce 0'”hawq ssh -f hostfile”会在hostfile中的所有节点上执行”-e”选项带的命令。 敞开防火墙如果防火墙曾经开启,须要敞开防火墙:hawq ssh -f hostfile -e 'systemctl stop iptables'hawq ssh -f hostfile -e 'systemctl disable iptables'hawq ssh -f hostfile -e 'systemctl stop firewalld'hawq ssh -f hostfile -e 'systemctl disable firewalld' 装置配置NTPhawq ssh -f hostfile -e 'yum install -y ntp'hawq ssh -f hostfile -e 'systemctl enable ntpd' #配置NTPD服务开机启动hawq ssh -f hostfile -e 'systemctl start ntpd' #启动NTPD服务 ...

November 26, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-安装与升级之命令行安装准备上

装置筹备本节装置之前须要筹备4台主机,各个节点上行将装置的组件如下表所示: 阐明:每个节点都须要配置/etc/hosts,上表中的主机名称须要在每台机器的/etc/hosts中追加 192.168.1.11 oushum1192.168.1.12 oushum2192.168.1.21 oushus1192.168.1.22 oushus2 配置YUM源首先登陆到oushum1,而后切换到root用户:ssh oushum1su - root有两种形式配置YUM源,第一种是配置Oushu源,通过互联网装置部署,第二种是通过下载Oushu安装包,而后配置本地源装置。形式一:配置Oushu的YUM源,适宜有互联网连贯状况Redhat/CentOS 7.4及更低版本零碎并且蕴含avx指令请配置以下YUM源:wget -P /etc/yum.repos.d/ $获取的repo url Redhat/CentOS 7.4及更低版本零碎然而不蕴含avx指令请配置以下YUM源:wget -P /etc/yum.repos.d/ $获取的repo rul 形式二:下载安装包,配置本地源,适宜不需始终联网装置状况下载安装包(或通过物理介质拷贝的形式获取): `sudo su rootcd /wget $获取的tarball url` 解压软件包并装置httpd,请用具体的版本号代替...,比方oushu-software-full-4.6.0.0-rhel7-x86_64.tar.gz: tar xzf oushu-database-full-latest-rhel7-x86_64.tar.gzyum -y install httpdsystemctl start httpdchown -R gpadmin:root /oushu-database-full-*.*.*.*-rhel7-x86_64装置本地源,请用具体的版本号代替...,比方/oushu-database-full-4.6.0.0/setup_repo.sh: /oushu-database-full-*.*.*.*/setup_repo.sh敞开selinux:setenforce 0重建yum缓存:`yum clean allyum makecache`上述步骤胜利后,请删除压缩包,以节俭磁盘空间:rm -f /oushu-database-full-...-rhel7-x86_64.tar.gz 替换公钥,设置无明码登陆创立一个hostfile文件,蕴含cluster中的所有机器。cd /roottouch hostfile编辑hostfile文件内容如下(集群各机器的hostname):oushum1oushum2oushus1oushus2因为咱们须要应用OushuDB命令行工具”hawq ssh-exkeys”来简化无明码登录设置以及应用“hawq ssh”来简化集群操作,所以咱们在oushum1上先装置OushuDB: yum install -y hawqsource /usr/local/hawq/greenplum_path.sh #设置hawq环境变量在集群每台机器上执行如下指令: sudo sed -i 's/PasswordAuthentication no/PasswordAuthentication yes/g' /etc/ssh/sshd_config & sudo service sshd restart在oushum1执行: ...

November 26, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-体验新执行器

本章节通过TPCH lineitem 表来展现新执行器的应用。 建设e_lineitem内部表用来生成TPCH lineitem 数据, CREATE EXTERNAL WEB TABLE E_LINEITEM ( L_ORDERKEY INT8 ,L_PARTKEY INTEGER ,L_SUPPKEY INTEGER ,L_LINENUMBER INTEGER ,L_QUANTITY FLOAT ,L_EXTENDEDPRICE FLOAT ,L_DISCOUNT FLOAT ,L_TAX FLOAT ,L_RETURNFLAG VARCHAR(1) ,L_LINESTATUS VARCHAR(1) ,L_SHIPDATE TEXT ,L_COMMITDATE TEXT ,L_RECEIPTDATE TEXT ,L_SHIPINSTRUCT CHAR(25) ,L_SHIPMODE VARCHAR(10) ,L_COMMENT VARCHAR(44) )EXECUTE 'bash -c "$GPHOME/bin/dbgen -b $GPHOME/bin/dists.dss -T L -s 1 -N 6 -n $((GP_SEGMENT_ID + 1))"'on 6 format 'text' (delimiter '|');创立ORC 表 CREATE TABLE lineitem( L_ORDERKEY INT8,L_PARTKEY INTEGER,L_SUPPKEY INTEGER,L_LINENUMBER INTEGER,L_QUANTITY FLOAT,L_EXTENDEDPRICE FLOAT,L_DISCOUNT FLOAT,L_TAX FLOAT,L_RETURNFLAG TEXT,L_LINESTATUS TEXT,L_SHIPDATE TEXT,L_COMMITDATE TEXT,L_RECEIPTDATE TEXT,L_SHIPINSTRUCT TEXT,L_SHIPMODE TEXT,L_COMMENT TEXT)WITH (APPENDONLY = true, OIDS = FALSE, ORIENTATION = orc);插入数据INSERT INTO lineitem SELECT * FROM e_lineitem;从上面的例子能够看到新执行器对于性能的大幅改良。 ...

November 26, 2021 · 2 min · jiezi

关于oushudb-hawq:OushuDB-如何安装与升级

如果您用的是Oushu Lava私有云,或者公有云2.0+,您能够通过Lava UI主动部署OushuDB,详情请见: http://oushu.io/docs/ch/lava-...。 如果您不应用Oushu Lava,只想独自部署OushuDB,请依照本节步骤装置。 首先在oushum1,批改/usr/local/hawq/etc/slaves,将所有OushuDB的segment节点的hostname写入slaves中,在本次装置中,应该写入slaves的有oushus1和oushus2,slaves内容为:oushus1oushus2 在其余节点上装置hawq: hawq ssh -h oushum2 -e "yum install -y hawq"hawq ssh -f slaves -e "yum install -y hawq"在oushum1节点上,在配置文件/etc/sysctl.conf增加内容: kernel.shmmax = 1000000000kernel.shmmni = 4096kernel.shmall = 4000000000kernel.sem = 250 512000 100 2048kernel.sysrq = 1kernel.core_uses_pid = 1kernel.msgmnb = 65536kernel.msgmax = 65536kernel.msgmni = 2048net.ipv4.tcp_syncookies = 0net.ipv4.conf.default.accept_source_route = 0net.ipv4.tcp_tw_recycle = 1net.ipv4.tcp_max_syn_backlog = 200000net.ipv4.conf.all.arp_filter = 1net.ipv4.ip_local_port_range = 10000 65535net.core.netdev_max_backlog = 200000net.netfilter.nf_conntrack_max = 524288fs.nr_open = 3000000kernel.threads-max = 798720kernel.pid_max = 798720# increase networknet.core.rmem_max=2097152net.core.wmem_max=2097152net.core.somaxconn=4096拷贝oushum1上/etc/sysctl.conf中的配置文件到所有节点: ...

November 25, 2021 · 3 min · jiezi

关于oushudb-hawq:OushuDB-安装与升级之安装-HDFS

因为hadoop依赖于特定版本的snappy,请先卸载snappy确保装置的顺利进行: hawq ssh -f hostfile -e 'yum remove -y snappy'HAWQ的HDFS采纳HA的形式进行装置配置。装置Hadoop可执行文件。hawq ssh -f hostfile -e 'yum install -y hadoop hadoop-hdfs'配置NameNode目录,须要配置的节点有两个,oushum1 和 oushum2。创立nnhostfile,相似前文hostfile:touch nnhostfile配置nnhostfile内容为hadoop的NameNode节点hostname:oushum1oushum2创立DataNode主机文件dnhostfile,相似前文nnhostfile:touch dnhostfile配置dnhostfile内容为hadoop的DataNode节点hostname:oushus1oushus2创立NameNode目录: hawq ssh -f nnhostfile -e 'mkdir -p /data1/hdfs/namenode'hawq ssh -f nnhostfile -e 'chmod -R 755 /data1/hdfs'hawq ssh -f nnhostfile -e 'chown -R hdfs:hadoop /data1/hdfs'创立DataNode目录: hawq ssh -f dnhostfile -e 'mkdir -p /data1/hdfs/datanode'hawq ssh -f dnhostfile -e 'mkdir -p /data2/hdfs/datanode'hawq ssh -f dnhostfile -e 'chmod -R 755 /data1/hdfs'hawq ssh -f dnhostfile -e 'chmod -R 755 /data2/hdfs'hawq ssh -f dnhostfile -e 'chown -R hdfs:hadoop /data1/hdfs'hawq ssh -f dnhostfile -e 'chown -R hdfs:hadoop /data2/hdfs'复制下列文件到oushum1上的/etc/hadoop/conf/中,● http://www.oushu.com/docs/ch/_downloads/908bee114673dff44292d2b51ed5a1ce/core-site.xml.● http://www.oushu.com/docs/ch/_downloads/a57b214c41f418570548204fdf5089b3/hdfs-site.xml.● http://www.oushu.com/docs/ch/_downloads/5caeda7d6d35f2ab18438c8994e855c1/hadoop-env.sh.批改hadoop配置文件, 依据各个节点的本身配置决定的,能够参考上面内容进行批改 ,次要是/etc/hadoop/conf目录下的core-site.xml、hdfs-site.xml、hadoop-env.xml和slaves批改oushum1上的配置文件/etc/hadoop/conf/core-site.xml 首先须要关上HA,即去掉如下所示的HA正文:<!-- HA...HA -->去掉上面的内容:<property><name>fs.defaultFS</name><value>hdfs://hdfs-nn:9000</value></property> ...

November 25, 2021 · 2 min · jiezi

关于oushudb-hawq:OushuDB-安装与升级之安装-Zookeeper

如果您装置了Oushu Lava公有云,或者用的是Lava Cluod私有云,那么您不须要手动部署Zookeeper。在部署HDFS的过程中会主动部署Zookeeper。创立一个zkhostfile蕴含要装置zookeeper的机器:touch zkhostfile增加上面主机名到zkhostfile,该文件记录装置zookeeper的主机名称:oushum1oushum2oushus1装置Zookeeper: source /usr/local/hawq/greenplum_path.shhawq ssh -f zkhostfile -e 'yum install -y zookeeper'创立zookeeper数据目录: hawq ssh -f zkhostfile -e 'mkdir -p /data1/zookeeper/data'hawq ssh -f zkhostfile -e 'chown -R zookeeper:zookeeper /data1/zookeeper'别离在三台配置了zookeeper的节点上配置myid文件,别离节点oushum1、oushum2、oushus1创立文件myid,内容别离是1、2和3,而后为zookeeper用户加上权限: source /usr/local/hawq/greenplum_path.shecho 1 > myidhawq scp -h oushum1 ./myid =:/data1/zookeeper/dataecho 2 > myidhawq scp -h oushum2 ./myid =:/data1/zookeeper/dataecho 3 > myidhawq scp -h oushus1 ./myid =:/data1/zookeeper/datahawq ssh -f zkhostfile -e "sudo chown -R zookeeper:zookeeper /data1/zookeeper/data"复制zoo.cfg(右键保留)到oushum1上/etc/zookeeper/conf/zoo.cfg, 在oushum1上文件/etc/zookeeper/conf/zoo.cfg中增加以下内容: server.1=oushum1:2888:3888server.2=oushum2:2888:3888server.3=oushus1:2888:3888阐明: server.n中的n值,即是myid文件的内容,在配置zookeeper节点须要留神:在oushum1上文件/etc/zookeeper/conf/zoo.cfg中批改dataDir:dataDir=/data1/zookeeper/data 拷贝zoo.cfg到所有zookeeper节点: ...

November 25, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-产品基本介绍表

1、表OushuDB表由行(rows)和(columns)组成。每一个列有一个列名和一个数据类型,一个表的列数和列的程序是固定的。一个表的行数是可变的。SQL并不假如表中行的程序。当读一个表时,除非显示要求排序,返回的行会以任意程序呈现。另外,SQL并不给每一行一个惟一标志符,所以,一个表中具备同样几个同样的行是可能的。 创立一个表能够应用create table命令。在命令外面,须要指定表名,列名以及列的类型。例如: create table my_first_table ( first_column text, second_column integer);下面的命令创立了一个两列的表,一列为文本类型,一列为整数类型。删除刚刚创立的表能够应用drop table命令。 drop table my_first_table; 2、表的存储格局OushuDB当初反对多种存储格局:AO,Parquet,ORC,MagmaAP。AO是按行存储的格局,而Parquet,ORC,MagmaAP是按列存储的格局。 其中MagmaAP 是在4.0.0.0公布的全新的存储格局。MagmaAP,ORC都反对update/delete,反对事务, 且MagmaAP还反对index。注:和GPDB相似,之前OushuDB版本反对CO格局,但CO格局不适宜集群大和分区多的状况,后续新版本去除了CO反对。 对于各种格局的表的建表语法,上面给出了几个例子。 # 默认创立的是AO表CREATE TABLE rank1 (id int, rank int, year smallint,gender char(1), count int );# 和下面的创立的表一样,显式指定存储格局类型CREATE TABLE rank2 (id int, rank int, year smallint,gender char(1), count int ) with (appendonly =true, orientation =row);# 创立一个snappy压缩的AO表CREATE TABLE rank3 (id int, rank int, year smallint,gender char(1), count int ) with (appendonly =true, orientation =row, compresstype = snappy);# 创立一个snappy压缩的Parquet表,如果不指定压缩类型的话,默认不压缩。CREATE TABLE rank3 (id int, rank int, year smallint,gender char(1), count int ) with (appendonly =true, orientation =parquet, compresstype = snappy);# 创立一个不压缩的ORC表,如果不指定压缩类型的话,默认不压缩。CREATE TABLE rank3 (id int, rank int, year smallint,gender char(1), count int ) with (appendonly =true, orientation =orc);# 创立一个带压缩的ORC表,需指定压缩类型。CREATE TABLE rank3 (id int, rank int, year smallint,gender char(1), count int ) with (appendonly =true, orientation =orc, compresstype = lz4);# 创立一个压缩的magma表, magma 外部主动实现了压缩。CREATE TABLE rank3 (id int, rank int, year smallint,gender char(1), count int ) format 'magmaap';# 创立一个有primary key的magma表, magma 外部主动实现了压缩。CREATE TABLE rank3 (id int, rank int, year smallint,gender char(1), count int,primary key(id) ) format 'magmaap';3、表的散布在OushuDB中,表能够两种形式散布形式:基于Hash的散布和Random散布。基于Hash的散布办法基于散布列的Hash值进行散布,Random散布采取随机分布模式。 ...

November 24, 2021 · 7 min · jiezi

关于oushudb-hawq:OushuDB-产品介绍基本的模式

一个数据库蕴含多个模式(schema),而一个模式能够蕴含多种命名对象,比方表,数据类型,函数,操作符等。同一个对象名字能够用在不同的模式中而不产生抵触。比方schema1中能够蕴含表test,schema2中也能够同时蕴含名字为test的表。从这个意义上,模式很像一个命名空间(namespace)。 当创立一个对象时,默认被搁置在public模式中。上面是零碎默认创立的schema。 template1=# \dn List of schemas Name | Owner--------------------+---------- hawq_toolkit | ChangLei information_schema | ChangLei pg_aoseg | ChangLei pg_bitmapindex | ChangLei pg_catalog | ChangLei pg_toast | ChangLei public | ChangLei(7 rows)通常在这样几个场景下,用户须要应用模式:● 容许多个用户同时应用一个数据库,而不产生名字抵触。● 把数据库对象组织成多个schema,如同是多个命名空间一样● 第三方利用能够把它们的对象放到一个独自的schema中,而不和其余对象产生从图。留神:schema不能够嵌套,也就是说,schema中不能够再蕴含schema。上面是创立schema的例子。 create schema myschema; 创立或者存取一个schema中的对象,能够应用{schema}.{object}模式,例如: create table myschema.test(i int);select * from myschema.test;删除一个空的schema,能够应用: drop schema myschame; 删除不空的schema,能够应用cascade关键词: drop schema myschema cascade; 应用{schema}.{object}模式,通常用起来不是很不便。能够通过设置schema搜寻门路来简化。”SHOW search_path”命令能够给出以后的schema搜寻门路。”SET search_path TO schema-name1, schema-name2”能够设置schema搜寻门路。例如: postgres=# show search_path; search_path---------------- "$user",public(1 row)postgres=# create schema myschema;CREATE SCHEMApostgres=# set search_path = public, myschema;SETpostgres=# show search_path; search_path------------------ public, myschema(1 row)

November 24, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-产品介绍基本用法概述

1、概述一个OushuDB集群治理着多个数据库(database),每个数据库又蕴含多个模式(schema), 一个模式蕴含多个对象(表,视图,函数等),所以这些对象之间的层级构造为: database -> schema -> (tables, functions, views)每个模式,表,视图,函数等只属于一个database。本章次要介绍每一种对象的常见用法。具体应用语法能够参见参考手册。 2、数据库OushuDB在初始化实现后,会默认生成三个数据库,能够应用l命令查看,或者查看pg_database零碎表。 postgres=# \l List of databases Name | Owner | Encoding | Access privileges-----------+----------+----------+------------------- postgres | ChangLei | UTF8 | template0 | ChangLei | UTF8 | template1 | ChangLei | UTF8 |(4 rows)其中template0和template1为模版数据库。template1为零碎默认用来创立新数据库的模版数据库,用户能够批改。template0默认不承受连贯,所以不可更改,目标是始终保留一个洁净的模版数据库。 创立一个数据库的时候,能够指定一个数据库的模版数据库。缺省为template1,当初OushuDB只反对以template0,template1和postgres数据库为模版数据库。例如: postgres=# create database tdb; # 创立一个新数据库,默认以template0为模版CREATE DATABASEpostgres=#\c postgres # 连贯postgrespostgres=# create table test(i int); # 在postgres数据库中创立表testCREATE TABLEpostgres=# create table test_orc(i int) with (appendonly=true, orientation=orc); # 在postgres数据库中创立ORC格局表CREATE TABLEpostgres=# create database dbnew template postgres;CREATE DATABASEpostgres=#\c dbnew # 连贯dbnew能够看到,dbnew中当初蕴含test表 ...

November 24, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-查看查询执行情况

应用\timing命令能够打印出查问执行的工夫。 test=# \timing on Timing is on. test=# select * from foo; # 这时再执行SQL语句会给出语句执行工夫。 id | name ----+------ 1 | hawq 2 | hdfs (2 rows) Time: 16.369 ms test=# \timing off # 敞开工夫输入 Timing is off. 应用explain语句能够显示出查问打算。 test=# explain select count(*) from foo; QUERY PLAN---------------------------------------------------------- Aggregate (cost=1.07..1.08 rows=1 width=8) -> Gather Motion 1:1 (slice1; segments: 1) (cost=1.03..1.06 rows=1 width=8) -> Aggregate (cost=1.03..1.04 rows=1 width=8) -> Append-only Scan on foo (cost=0.00..1.02 rows=2 width=0) Settings: default_hash_table_bucket_number=6 (5 rows)应用explain analyze能够显示出查问在具体执行时的状态,包含每一个操作符开始执行工夫,以及完结工夫,能够帮忙用户找到查问的瓶颈,进而优化查问。对于查问打算以及explain analyze的执行后果的解释能够参考查问打算与查问执行章节。针对一个查问,可能会有无数个查问打算。得出优化的查问打算是查问优化器的性能。一个查问执行工夫的长短与查问的打算有很大关系,所以相熟查问打算以及具体查问的执行对查问优化有很大意义。 ...

November 23, 2021 · 2 min · jiezi

关于oushudb-hawq:OushuDB-基本用法-创建数据库和表

本节通过应用OushuDB的命令行工具psql来阐明如何创立根本数据库对象:database和table。因为OushuDB和PostgreSQL兼容,所以应用OushuDB的形式和应用PostgresSQL的形式基本相同,如果OushuDB的文档有些中央阐明不分明的话,用户也能够通过查阅PostgresSQL的帮忙文档来理解更多对于OushuDB的信息。 上面这条命令应用psql连贯OushuDB缺省装置的数据库postgres,而后创立一个新的数据库test,并在新的数据库中创立一个表foo。 changlei:build ChangLei$ psql -d postgres psql (8.2.15) Type "help" for help. postgres=# create database test; # 创立数据库test CREATE DATABASE postgres=# \c test # 连贯进入test数据库 You are now connected to database "test" as user "ChangLei". test=# create table foo(id int, name varchar); # 创立表foo CREATE TABLE test=# \d # 显示以后数据库test中所有表 List of relations Schema | Name | Type | Owner | Storage--------+------+-------+----------+------------- public | foo | table | ChangLei | append only (1 row) test=# insert into foo values(1, 'hawq'),(2, 'hdfs'); INSERT 0 2 test=# select * from foo; # 从表foo中抉择数据 id | name ----+------ 1 | hawq 2 | hdfs (2 rows) 如果想删除表或者数据库的话能够应用drop语句。 test=# drop table foo; DROP TABLE test=# \d No relations found. test=# drop database test; # 因为当初在test数据库中,所以不能删除 ERROR: cannot drop the currently open database test=# \c postgres # 首先连贯到postgres数据库,而后删除test数据库 You are now connected to database "postgres" as user "ChangLei". postgres=# drop database test; DROP DATABASE

November 23, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-基本用法-启动停止

启动OushuDB有两种形式,一种是通过”hawq start cluster”命令来启动整个集群,包含master和segment。启动哪些segment是由”/hawq-install-path/etc/slaves”中蕴含的节点确定的。 source /usr/local/hawq/greenplum_path.sh # 设置OushuDB环境变量hawq start cluster # 启动整个OushuDB集群另外一种形式是别离启动OushuDB master和segment。因为OushuDB master和segment是解耦合的,别离启动master和segment是可行的。 hawq start master # 启动master,指的是启动本地masterhawq start segment # 启动segment,指的是启动本地segment 重新启动或者进行OushuDB也有两种形式: # 形式一hawq restart cluster # 重启OushuDB集群hawq stop cluster # 进行OushuDB集群# 形式二hawq restart master # 重启本机的OushuDB masterhawq restart segment # 重启本机的OushuDB segmenthawq stop master # 进行本机OushuDB masterhawq stop segment # 进行本机OushuDB segment启动/进行Magma OushuDB4.0 实现了独自起停Magma服务,具体命令如下: # 形式一 OushuDB4.0 集群起停带Magma服务 [只有hawq init|start|stop cluster命令能够带--with_magma选项]hawq init cluster --with_magma # 启动OushuDB集群时,应用--with_magma选项,同时启动Magma服务, 3.X版本不反对。# 形式二 Magma服务独自起停magma start|stop|restart clustermagma start|stop|restart node对于OushuDB hawq命令的具体用法,能够通过”hawq –help”命令失去。 ...

November 23, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-高速互联网络

高速互联网络的作用是在多个节点之间替换大量数据。OushuDB高速互联网络基于UDP协定。大家可能会疑难为什么OushuDB不应用TCP。其实OushuDB同时反对TCP和UDP两种协定,TCP协定实现早于UDP协定。然而因为咱们遇到了TCP不能很好解决的高连接数并发问题,咱们才开发了基于UDP的协定。图4展现了一个高速互联网络的例子。 图4. 高速互联网络 例子中各个节点上的执行器过程造成了一个数据交换的流水线。假如每个节点上有1000个过程。有1000个节点,这些过程须要互相交互,每个节点上就会有上百万个连贯。TCP是没方法高效地反对这么多的连接数的。所以咱们开发了基于UDP的互联协定。针对UDP传输,操作系统是不能保障可靠性的,并且不能保障是有序传递的。所以咱们的设计须要保障和反对如下个性:● 可靠性:可能保障在丢包的状况下,重传失落的包● 有序性:保障包传递给接受者的最终有序性● 流量管制:如果不管制发送者的速度,接收者可能会被吞没,甚至会导致整个网络性能急剧下降● 性能和可扩展性:性能和可扩展性是咱们须要解决TCP问题的初衷可反对多种平台

November 19, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-产品介绍

一、查问执行流程图3. 查问执行流程用户通过JDBC/ODBC提交查问之后,查问解析器解析查问失去查问树,而后优化器依据查问树生成查问打算,差遣器和资源管理器交互失去资源,合成查问打算,而后差遣打算到Segment的执行器下面执行。最终后果会传回给用户。 二、弹性调度执行弹性执行引擎有几个要害设计点:存储和计算的齐全拆散,无状态Segment以及如何应用资源。存储和计算的拆散使得咱们能够动静的启动任意多个虚构Segment来执行查问。无状态Segment使得集群更容易扩大。要想保障大规模集群的状态一致性是比拟艰难的问题,所以咱们采纳了无状态的Segment。如何应用资源包含如何依据查问的代价申请多少资源,如何无效的应用这些资源以及如何使得数据局部性最优。OushuDB外部针对每一个局部都进行了优化的设计。 三、极速执行器执行器是数据库最外围的部件之一,Oushu Database对执行器进行了齐全从新设计,充分利用了最新CPU的每一个个性,比方SIMD指令等,能够做到性能的极致。

November 19, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-体系架构概览

图1给出了一个典型的OushuDB集群的次要组件。计算局部和存储局部齐全拆散,能够独立扩容。在图中有多个OushuDB Master节点。元数据管理服务和资源管理服务位于OushuDB Master外部。其余节点为Slave节点。每个Slave节点上装置有一个OushuDB Segment。Segment实现OushuDB的计算。OushuDB Segment在执行查问的时候会启动多个QE (Query Executor, 查问执行器)。查问执行器运行在资源容器外面。在这个架构下,节点能够动静的退出集群,并且不须要数据从新散布。当一个节点退出集群时,他会向OushuDB Master节点发送心跳,而后就能够接管将来查问了。 图1. OushuDB体系架构 在OushuDB master节点外部有如下几个重要组件:查问解析器(Parser/Analyzer),优化器,资源管理器,容错服务,查问差遣器,元数据服务。在查问执行时,针对一个查问,弹性执行引擎会启动多个虚构Segment同时执行查问,节点间数据交换通过Interconnect(高速互联网络)进行。如果一个查问启动了1000个虚构Segment,意思是这个查问被平均的分成了1000份工作,这些工作会并行执行。所以说虚构Segment数其实表明了查问的并行度。查问的并行度是由弹性执行引擎依据查问大小以及以后资源应用状况动静确定的。上面我一一来解释这些组件的作用以及它们之间的关系:● 查问解析器:负责解析查问,并查看语法及语义。最终生成查问树传递给优化器。● 优化器:负责承受查问树,生成查问打算。针对一个查问,可能有数亿个可能的等价的查问打算,但执行性能差异很大。优化器的作用是找出优化的查问打算。● 资源管理器:资源管理器负责整个集群的资源管理。资源管理器须要在并发的查问之间分配资源,并保障查问不应用超过调配给该查问的资源,否则查问之间会相互影响,可能导致系统整体不可用。● 元数据缓存:用于OushuDB确定哪些Segment扫描表的哪些局部。OushuDB须要把计算差遣到数据所在的中央,所以咱们须要匹配计算和数据的局部性。这些须要底层存储数据(比方HDFS块,Magma Range等)的地位信息。地位信息个别在底层存储中,每个查问都拜访底层存储中的元数据,会造成瓶颈。所以咱们在OushuDB Master节点上建设了元数据缓存。● 容错服务:负责检测哪些节点可用,哪些节点不可用。不可用的机器会被排除出资源池。● 查问差遣器:优化器优化完查问当前,查问差遣器差遣打算到各个节点上执行,并协调查问执行的整个过程。查问差遣器是整个并行零碎的粘合剂。● 元数据服务:负责存储OushuDB的各种元数据,包含数据库和表信息,以及拜访权限信息等。另外,元数据服务也是实现分布式事务的要害。● 高速互联网络:负责在节点之间传输数据。应用软件实现,基于UDP协定。UDP协定无需建设连贯,从而能够防止TCP高并发连接数的限度。

November 19, 2021 · 1 min · jiezi

关于oushudb-hawq:OushuDB-的主要功能

极速执行器: 高效的执行器,比传统数仓/MPP快5-10倍,比Hadoop SQL引擎要快5-30倍。私有云和公有云部署:反对亚马逊和阿里云等私有云平台,同时能够反对支流PaaS云平台(比方Kubernetes等)和Docker部署。对规范的欠缺反对:ANSI SQL规范,OLAP扩大,规范JDBC/ODBC,比Hadoop SQL引擎都要欠缺。具备十分成熟的并行优化器。优化器是并行SQL引擎的重要组成部分,对性能影响很大,尤其是对简单查问。反对ACID事务个性:这是很多现有基于Hadoop的SQL引擎做不到的,对保证数据一致性很重要。能够无效缩小开发及运维人员的累赘。动静数据流引擎:基于UDP的高速互联网络。弹性调度执行:能够依据查问大小来决定执行查问应用的节点及Segment个数。反对多种分区办法及多级分区:反对List分区和Range分区。分区表对性能有很大晋升作用,如果用户只想拜访最近一个月的热数据,查问只须要扫描最近一个月数据所在分区。反对多种压缩办法:snappy,gzip,zlib, zstd, lz4, RLE等。多种存储过程语言反对:python, c/c++, perl等。动静扩容:动静按需扩容,依照存储大小或者计算需要,秒级增加节点。多级资源和负载治理:和内部资源管理器YARN集成;能够治理CPU,Memory资源等;反对多级资源队列;具备不便的DDL治理接口。反对拜访任何HDFS及其他零碎的数据:各种HDFS格局(文本,ORC等等)以及其余内部零碎(Hive等),并且用户本人能够开发插件来拜访新的数据源。原生的机器学习数据挖掘库MADLib反对:易于应用及高性能。与Hadoop零碎无缝集成:存储、资源、装置部署、数据格式和拜访等。欠缺的平安及权限治理:kerberos;数据库,表等各个级别的受权治理。反对多种第三方工具:比方Tableau,SAS,较新的Apache Zeppelin等。

November 18, 2021 · 1 min · jiezi

关于oushudb-hawq:Oushu-Database和Apache-HAWQ的不同

全新执行引擎,充分利用硬件的所有个性,比Apache HAWQ性能高出5-10倍反对Update和Delete,以及索引C++可插拔内部存储替换JAVA PXF,性能高数倍,无需装置部署PXF额定组件,极大简化了用户装置部署和运维原生反对CSV/TEXT内部存储能够用于不同集群之间共享数据,比方数据仓库和集市之间共享及传输数据能够用于高速数据加载和数据导出能够实现高速备份和复原能够实现可插拔文件系统:比方S3, Ceph等能够实现可插拔文件格式:比方ORC,Parquet等反对ORC/TEXT/CSV作为外部表格局,反对ORC作为内部表格局 (通过C++可插拔内部存储)对PaaS/CaaS云平台的原生反对 世界上首个能够原生运行与PaaS容器平台中的MPP++剖析型数据库反对Kubernetes集群容器编排与部署csv和text文件格式中对非ASCII字符串或长度大于1的字符串作为分隔符的反对要害Bug fixes

November 18, 2021 · 1 min · jiezi