基于Spark的数据分析实践

发布时间：2019-06-19 21:37:30 所属栏目：教程来源：EAWorld

导读：引言： Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。本文主要分析了 Spark RDD 以及 RDD 作为开发的不足之处，介

通过单个 regiserDataFrameAsTable 项进行分析，SparkSQL 并不是把source 的数据立即计算把数据放到内存，而是每次执行 source 时只是生成了一个 Logical Plan，只有遇到需要提交的算子(Action)，SparkSQL 才会触发前面所依赖的的 plan 执行。

总结

这是一个开发框架，不是一个成熟的产品，也不是一种架构。他只是基于 SparkSQL 整合了大多数的外部系统，能通过 XML 的模板配置完成数据开发。面向的是理解数据业务但不了解 Spark 的数据开发人员。整个框架完成了大多数的外部系统对接，开发者只需要使用 type 获得数据，完成数据开发后通过 target 回写到目标系统中。整个过程基本无须程序开发，除非当前的 SQL 函数无法满足使用的情况下，需要自行开发一下特定的 UDF。因此本框架在对 SparkSQL 做了二次开发基础上，大大简化了 Spark 的开发，可降低了开发者使用难度。

关于作者：震秦，普元资深开发工程师，专注于大数据开发 8 年，擅长 Hadoop 生态内各工具的使用和优化。参与某公关广告(上市)公司DMP 建设，负责数据分层设计和批处理，调度实现，完成交付使用;参与国内多省市公安社交网络项目部署，负责产品开发(Spark 分析应用);参与数据清洗加工为我方主题库并部署上层应用。

关于EAWorld：微服务，DevOps，数据治理，移动架构原创技术分享。

（编辑：鹰潭站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

9/9

首页

word打不开,教您怎么处	台式电脑电源多少钱台
迅捷CAD编辑器工具条无	微信怎么设定浮窗权限