新技术介绍之二：大数据核心技术进展

2021/10/12 10:30

对于大数据的定义，麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。通俗地说，大数据来源于海量用户的一次次的行为数据，是一个数据集合。不过，大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理，通过“加工”实现数据的“增值”。

从大数据的生命周期来看，大数据采集、大数据预处理、大数据存储、大数据分析4部分共同组成了大数据生命周期里最核心的技术，简单地说，就是如何拿数据，算数据，卖数据。

一、大数据采集

大数据采集，即对各种来源的结构化和非结构化海量数据所进行的采集。对于各种来源的数据，包括移动互联网数据、社交网络的数据等，这些结构化和非结构化的海量数据是零散的，也就是所谓的数据孤岛，此时的这些数据并没有什么意义，数据采集就是将这些数据写入数据仓库中，把零散的数据整合在一起，对这些数据综合起来进行分析。数据采集主要包括以下三种：

1、数据库采集：流行的有Sqoop和ETL。以Sqoop为例，是用来将关系型数据库和Hadoop中的数据进行相互转移的工具，可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中，也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业（极其容错的分布式并行计算）来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

2、网络数据采集：一种借助网络爬虫或网站公开API，从网页获取非结构化或半结构化数据，并将其统一结构化为本地数据的数据采集方式。

3、文件采集：包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。以较为流行的Flume NG为例，Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，source用来消费（收集）数据源到channel组件中，channel作为中间临时存储，保存所有source的组件信息，sink从channel中读取数据，读取成功之后会删除channel中的信息。

二、大数据预处理

大数据预处理指的是在进行数据分析之前，先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作，旨在提高数据质量，为后期分析工作奠定基础。数据预处理主要包括四个部分：数据清理、数据集成、数据转换、数据规约。

1、数据清理：指利用ETL等清洗工具，对有遗漏数据(缺少感兴趣的属性)、噪音数据(数据中存在着错误、或偏离期望值的数据)、不一致数据进行处理。ETL(Extract-Transform-Load,抽取-转换-存储）的操作，即在数据抽取过程中进行数据的加工转换，然后加载到存储中。ETL是一种对数据进行清洗和处理的操作。ETL应用最广泛的就是Informatics和开源工具Kettle。

2、数据集成：是指将不同数据源中的数据，合并存放到统一数据库的，存储方法，着重解决三个问题：模式匹配、数据冗余、数据值冲突检测与处理。

3、数据转换：是指对所抽取出来的数据中存在的不一致，进行处理的过程。它同时包含了数据清洗的工作，即根据业务规则对异常数据进行清洗，以保证后续分析结果准确性。

4、数据规约：是指在最大限度保持数据原貌的基础上，最大限度精简数据量，以得到较小数据集的操作，包括：数据方聚集、维规约、数据压缩、数值规约、概念分层等。

三、大数据存储

按数据类型的不同，大数据的存储和管理采用不同的技术路线，大致可以分为3类。

第1类主要面对的是大规模的结构化数据。针对这类大数据，通常采用新型数据库集群。它们通过列存储或行列混合存储以及粗粒度索引等技术，结合MPP(Massive Parallel Processing)架构高效的分布式计算模式，实现对PB 量级数据的存储和管理。这类集群具有高性能和高扩展性特点，在企业分析类应用领域已获得广泛应用。

第2类主要面对的是半结构化和非结构化数据。应对这类应用场景，基于Hadoop开源体系的系统平台更为擅长。它们通过对Hadoop生态体系的技术扩展和封装，实现对半结构化和非结构化数据的存储和管理。

第3类面对的是结构化和非结构化混合的大数据。采用MPP 并行数据库集群与Hadoop 集群的混合来实现对百PB 量级、EB量级数据的存储和管理。一方面，用MPP 来管理计算高质量的结构化数据，提供强大的SQL和OLTP型服务;另一方面，用Hadoop实现对半结构化和非结构化数据的处理，以支持诸如内容检索、深度挖掘与综合分析等新型应用。这类混合模式将是大数据存储和管理未来发展的趋势。

四、大数据分析挖掘

从可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量管理等方面，对杂乱无章的数据，进行萃取、提炼和分析的过程。

1、可视化分析：指借助图形化手段，清晰并有效传达与沟通信息的分析手段。主要应用于海量数据关联分析，即借助可视化数据分析平台，对分散异构数据进行关联分析，并做出完整分析图表的过程。具有简单明了、清晰直观、易于接受的特点。目前主流的平台包括国外的敏捷BI Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数等。

2、数据挖掘算法：即通过创建数据挖掘模型，而对数据进行试探和计算的数据分析手段。它是大数据分析的理论核心。数据挖掘算法多种多样，且不同算法因基于不同的数据类型和格式，会呈现出不同的数据特点。但创建模型的过程却是相似的，即首先分析用户提供的数据，然后针对特定类型的模式和趋势进行查找，并用分析结果定义创建挖掘模型的最佳参数，并将这些参数应用于整个数据集，以提取可行模式和详细统计信息。

3、预测性分析：是大数据分析最重要的应用领域之一，通过结合多种高级分析功能（特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等），达到预测不确定事件的目的。帮助用户分析结构化和非结构化数据中的趋势、模式和关系，并运用这些指标来预测将来事件，为采取措施提供依据。

4、语义引擎：指通过为已有数据添加语义的操作，提高用户互联网搜索体验。

5、数据质量管理：指对数据全生命周期的每个阶段（计划、获取、存储、共享、维护、应用、消亡等）中可能引发的各类数据质量问题，进行识别、度量、监控、预警等操作，以提高数据质量的一系列管理活动。

资料来源：大数据方面核心技术有哪些？https://www.zhihu.com/question/27696290，并在上述文章基础上进行部分整理与改写。

上一篇：新技术介绍之三：算法技术研究进展

下一篇：新技术介绍之一：碳中和技术研究进展