2、Hadoop与Spark开源大数据技术栈

发布时间：2022-12-06 16:31:06 所属栏目：大数据来源：互联网

导读： 本系列文章按照大数据五层架构介绍整个大数据技术体系，即数据收集→数据存储→资源管理与服务协调→计算引擎→数据分析。
文章目录
一、总体概述 1、大数据技术体系概述
大数据的基本概念

本系列文章按照大数据五层架构介绍整个大数据技术体系，即数据收集→数据存储→资源管理与服务协调→计算引擎→数据分析。

文章目录

一、总体概述 1、大数据技术体系概述

大数据的基本概念：大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。——《促进大数据发展行动纲要》（2015）

广泛应用：它产生于互联网领域，并逐步推广到电信、医疗、金融、交通等领域，大数据技术在众多行业中产生了实用价值。

大数据尝试从海量数据中，通过一定的分布式技术手段，挖掘出有价值的信息，最终提供给用户，进而产生实用价值和商业价值。

2、大数据技术体系

从数据在信息系统中的生命周期看，大数据从数据源开始，经过分析、挖掘到最终获得价值一般需要经过6个主要环节 [1] ，包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化。

企业级大数据技术体系

（1）数据收集层

数据收集层：由直接跟数据源对接的模块构成，负责将数据源中的数据近实时或实时收集到一起。

为了让后端获取全面的数据，以便进行关联分析和挖掘，通常我们建议将数据收集到一个中央化的存储系统中。

（2）数据存储层

数据存储层：主要负责海量结构化与非结构化数据的存储。

（3）资源管理与服务协调层

为了解决存在的资源利用率低、运维成本高和数据共享困难等问题，在集群中引入资源统一管理层。

（4）计算引擎层

针对不同应用场景，单独构建一个计算引擎，每种计算引擎只专注于解决某一类问题大数据技术，进而形成了多样化的计算引擎。（系统吞吐率和处理延迟往往是矛盾的两个优化方向）

总体上讲，可按照对时间性能的要求，将计算引擎分为三类：

（5）数据分析层

数据分析层：直接跟用户应用程序对接，为其提供易用的数据处理工具。

（6）数据可视化层

数据可视化技术：运用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。

二、企业级大数据技术实现方案 1、Google大数据技术栈

涉及的大数据系统主要分布在数据存储层、资源管理与服务协调层、计算引擎层、数据分析层这四层中。

在这里插入图片描述

2、Hadoop与Spark开源大数据技术栈

目前开源社区中应用最广泛的是以Hadoop与Spark为核心的生态系统。

整个大数据技术栈涉及数据收集、数据存储、资源管理与服务协调、计算引擎和数据分析这五个层级。

在这里插入图片描述

（1）数据收集层

组成：关系型数据收集组件、非关系型数据收集组件、分布式消息队列。

（2）数据存储层

组成：布式文件系统（面向文件的存储）、分布式数据库（面向行/列的存储）。

HBase：构建在HDFS之上的分布式数据库，Google BigTable的开源实现，允许用户存储结构化与半结构化的数据，支持行列无限扩展以及数据随机查找与删除。Kudu：分布式列式存储数据库，允许用户存储结构化数据，支持行无限扩展以及数据随机查找与更新。（3）资源管理与服务协调（4）计算引擎层

三种引擎：批处理、交互式处理和流式实时处理。

（5）数据分析层

包括数据分析工具。

三、大数据Lambda架构

Lambda Architecture（LA）是一种大数据软件设计架构，其目的是指导用户充分利用批处理和流式计算技术各自的优点实现一个复杂的大数据处理系统。通过结合这两类计算技术，LA可以在延迟、吞吐量和容错之间找到平衡点。

LA主要思想：将数据处理流程分解成批处理层、流式处理层和服务层三层。

示例：典型的推荐系统数据流水线架构

在这里插入图片描述

（编辑：鹰潭站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

企业需要不断推进数据	降能耗、减人工，智能
大数据究竟有多大？谷	学术论文上已验证，人