乐趣区

关于数据分析:超越想象普通笔记本分析亿级数据只要几秒钟

超过设想,一般笔记本剖析亿级数据只有几秒钟!

Smartbi 只做最实在的测试,用事实来证实思迈特软件 Smartbi 的高性能,这将是你难得一见的时刻。

 

如图所示,咱们测试的电脑是一台 2013 年的 thinkpad 笔记本,售价不到 6000,用鲁巨匠检测硬件配置如下:

 

而用于测试的数据包含 1 份数据 2 个模型——星型和宽表,其中星型包含产品、客户、天文三个维度,事实表 0.98 亿条记录,维度表数百条记录。做过性能测试的敌人一看就晓得,这样一个星型模型,如果交给业务人员本人拖拽剖析数据,性能是很有问题的,数据库配置不好的状况下还能间接跑死零碎,更别说是一台这么一般的笔记本电脑了!

 

接下来,咱们基于这个数据模型,思考到自助剖析的场景,构建了三大类 22 个测试案例,以确保主观正当的测试案例覆盖度。比方用户会以年为条件,进行同期增长率的计算等等。

交代好性能测试的根本状况,咱们不兜圈,间接来看测试后果:

 

简言之,星型模型因为要进行关联操作,均匀响应工夫为 13.3 秒(6.7 秒——17.1 秒),宽表模型没有关联操作,均匀响应工夫为 4.5 秒(2.7 秒——6.3 秒),总体均匀为 8.9 秒!是的,你没看错,无论怎样拖拽的自助剖析,均匀 8.9 秒!!测试后果后,咱们和你一样感到兴奋,Smartbi 竟然能够在一台几年前的一般笔记本电脑上对 1 亿大数据量的自助摸索在区区几秒实现剖析查问!!

跨库数据源反对利用在数据集定义中,通常在可视化数据集和自助数据集中利用比拟宽泛。咱们惯例的这个数据分析底层构造是基于数据源间接连咱们的数据连贯进行数据的剖析展示,那这种状况如果咱们的数据量比拟少的状况下个别是没有什么问题,然而咱们的数据一旦达到某个级别之后咱们的报表性能就会呈现很大的一个瓶颈,甚至说导致咱们的这个报表长时间刷不进去,以至于咱们的零碎解体,那这个时候就能够间接应用高速缓存库机制,以保证系统具备较长的生命力和扩大能力最重要保障。

Smartbi 将数据抽取到高速缓存库后,之后的查问间接从高速缓存库取数,来进步查问性能。如在 Smartbi 体验核心的“体验式场景 5”在剖析某公司的 emplyees 数据状况时,其中的雇员表(300,024 条记录)与薪资表(2,844,047 条记录)进行跨库关联,应用前高速缓存之前刷新数据至多要 20 秒;当数据抽取到高速缓存库后,切换年份刷新仅需 2 秒,甚至更快。

退出移动版