基于Spark的数据分析实践

发布时间：2019-06-19 21:37:30 所属栏目：教程来源：EAWorld

导读：引言： Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。本文主要分析了 Spark RDD 以及 RDD 作为开发的不足之处，介

//通过 spark bin 下的 beeline 工具，可以连接到 spark ThriftServer(SparkOnHive)

bin/beeline -u jdbc:hive2://ip:10000/default -n hadoop

-u 是指定 beeline 的执行驱动地址;
-n 是指定登陆到 spark Session 上的用户名称;

Beeline 还支持传入-e 可传入一行 SQL，

-e query that should be executed

也可通过 –f 指定一个 SQL File，内部可用逗号分隔的多个 SQL(存储过程)

-f script file that should be executed

SparkSQL Beeline 的执行效果展示

SparkSQL ThriftServer

对于 SparkSQL ThriftServer 服务，每个登陆的用户都有创建的 SparkSession，并且执行的对个 SQL 会通过时间顺序列表展示。

SparkSQL ThriftServer 服务可用于其他支持的数据库工具创建查询，也用于第三方的 BI 工具，如 tableau。

四、SparkSQL Flow

SparkSQL Flow 是以 SparkSQL 为基础，开发的统一的基于 XML 配置化的可执行一连串的 SQL 操作，这一连串的 SQL 操作定义为一个 Flow。下文开始 SparkSQL Flow 的介绍：

（编辑：鹰潭站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/9

首页

尾页

word打不开,教您怎么处	台式电脑电源多少钱台
迅捷CAD编辑器工具条无	微信怎么设定浮窗权限