计算技术的提高,以及挪动互联网、物联网、5G 挪动通信技术的倒退,引发了数据规模的爆发式增长。大数据蕴含微小价值,引起了社会各界的高度关注。大概从 2009 年开始,“大数据”成为互联网信息技术行业的风行词汇。在经验了几年的批评、质疑、探讨、炒作之后,大数据终于迎来了属于它的时代。
大数据时代将在泛滥畛域中掀起改革的巨浪。在以云计算为代表的技术创新大幕的烘托下,这些本来很难收集和应用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐渐为人类发明更多的价值。大数据的能量是不可估量的,比方在 2020 年,大数据分析技术在新冠肺炎疫情预测、密切接触者追踪方面都产生了至关重要的作用,大大晋升了疫情防控和停工复产的效率。
然而,考察显示:未被应用的信息比例高达 99%,造成这种后果的次要起因是无奈采集高价值的信息。如何从大数据中采集有用的信息并正当地存储起来是大数据倒退的最关键因素之一,也能够说数据采集与解决是大数据产业的基石。
目前,大数据方面的著述、系列教材很多,但专门阐述大数据采集与解决方面的书籍不多。在此背景下,思考到大数据利用与行业及企业的联合严密,以及在大数据技术学习和教学中,应更偏差新技术的利用,对工程实际能力要求更高,河南工业大学软件学院副院长张雪萍传授组织多家单位大数据利用的一线研发工程师,总结多年研发教训,编写《大数据采集与解决》一书。
本书内容贯通大数据采集与解决的全过程,采纳“实践根底 + 工具 + 案例实战”的编排架构,系统化解说了大数据采集、大数据预处理、大数据存储与计算、大数据安全等重要环节的相干实践与技术,包含 Hadoop 生态系统,Scribe、Chukwa、Kafka、Flume 等大数据采集工具,HDFS、NoSQL、ElasticSearch 3 种大数据存储技术,Spark String、Storm、Flink3 种流计算解决框架等;聚焦电商、金融、电信、煤炭、交通、教育等行业热点问题,实例化的解说了大数据采集与解决的实践与技术在行业实际中的具体利用,展现了残缺的数据采集、荡涤、解决的数据分析案例,以期给读者展现残缺的数据采集与解决实际操作流程。