乐趣区

关于前端:详解BI系统中的任务调度

任务调度是一个通用的计算机概念,能够简略地了解为计算机基于肯定工夫频率,主动执行一项过程工作。任务调度是操作系统的重要组成部分,Windows 零碎中的定时工作和 Linux 的 Crontab 都是罕用的零碎级调度器,被广泛应用于各种定时执行程序的场景。在传统商业智能 BI 畛域,零碎的调度器也常常被作为 ETL 作业的调度器。作业工作会通过 T + 1 或者更高的工夫频率进行调度执行。

随着商业智能 BI 技术的倒退,BI 工具的调度性能也有了长足的倒退。特地是随同着大数据和实时数据的市场需求,解决能力更强、多线程作业,准实时调度等场景的利用越来越广泛。

具体到商业智能 BI 工具的调度性能,目前,次要能够概括为两类:

  1. 数据抽取的任务调度
  2. 告诉、音讯的任务调度

一、数据抽取的任务调度

商业智能工具的一大利用场景就是突破数据孤岛,将散布在不同零碎中的异构数据进行整合,并抽取到数据仓库,造成分析模型,为可视化剖析提供数据撑持。对于大数据量的历史数据分析,抽取根本采纳的就是定时调度机制。从数据源到数据仓库,能够配置增量更新或者全量更新。

全量更新个别采纳的机制是先 Truncate Table,再进行 Insert 操作。增量更新则是基于主键列或者工夫戳,只更新满足条件的数据。无论哪种形式,都是通过设置不同工夫频率的定时调度工作来执行的。

工作的频率也是和前述两种更新形式密切相关的。对于实时性要求不高的数据,能够通过设置 T + 1 来进行全量更新。对于频率绝对较高的数据,能够设置以小时、分钟甚至秒级的频率来进行调度增量更新。

具体的调度频率要依据数据量、服务器配置,同时思考对数据源零碎的压力来综合思考。

以 Wyn 为例,在数据接入形式上同时反对直连模型和抽取模型。对于抽取模型,能够设置调度运行打算。主动重载打算会在设定的工夫主动刷新模型中的数据。

用户能够依据不同的业务需要制订不同的执行打算,以不同频率重载表中的缓存数据。若打算执行失败,会向填写的邮箱发送一封邮件告诉。若胜利,则没有提醒。

创立主动定时的运行打算,设定后运行打算会周期性的主动刷新数据。

商业智能 BI 工具在工作打算设置上,也会思考到其复用性。提供通过模板创立运行打算性能。运行打算能够手动或主动执行。运行打算的调度执行是数据抽取胜利的重要技术保障。

二、告诉、音讯的任务调度

在商业智能的任务调度场景中,不仅要将数据抽取到数仓集中存储。对于报表、仪表板等剖析后果,也须要反对定时推送性能。并不是每个报表数据的查看者都方面间接登录零碎查看数据。例如,出差路上,或者忘记时,通过定时推送性能,能够被动地将剖析后果出现给数据的使用者。在企业实际中,邮件推送是最罕用的形式之一。

以 Wyn 为例,在工作打算模板中,能够应用邮件推送性能。发送对象反对邮件和邮件组。在运行报表运行打算时,不仅仅反对将报表作为邮件附件或链接的模式发送至指标邮箱,也反对将报表作为邮件注释,这样会更加不便用户查看。

将报表作为邮件注释显示的关键在于,在设置运行打算时,将导出格局设置为 ”HTML” 或 ”Image”。而后,发送形式抉择邮件告诉时,” 发送类型 ” 中才能够抉择 ” 在邮件注释中显示报表 ”。

综上所述,任务调度作为商业智能工具的广泛需要,曾经被广泛应用,为数据抽取提供了无效的撑持。随着软件开发技术的倒退和市场需求的变动,数据实时性更高的剖析场景将越来越多。然而,大数据量历史数据分析的场景也会始终存在。因而,能够预感的是,在将来一段时间内,基于任务调度的抽取模型和基于流式的、实时推送模型、直连数据源的直连模型将并存,并独特为企业的数据分析提供重要的技术撑持。

退出移动版