【赵强老师】什么是Spark SQL？[通俗易懂]

小小码 • 2023-03-17 17:30 • 代码基础 • 阅读 162

大家好，我是考100分的小小码，祝大家学习进步，加薪顺利呀。今天说一说【赵强老师】什么是Spark SQL？[通俗易懂],希望您对编程的造诣更进一步.

一、Spark SQL简介

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！同时Spark SQL也支持从Hive中读取数据。

二、Spark SQL的特点

无缝集成在Spark中，将SQL查询与Spark程序混合。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。适用于Java、Scala、Python和R语言。
提供统一的数据访问，以相同的方式连接到任何数据源。DataFrames和SQL提供了一种访问各种数据源的通用方法，包括Hive、Avro、Parquet、ORC、JSON和JDBC。您甚至可以通过这些源连接数据。
支持Hive集成。在现有仓库上运行SQL或HiveQL查询。Spark SQL支持HiveQL语法以及Hive SerDes和udf，允许您访问现有的Hive仓库。
支持标准的连接，通过JDBC或ODBC连接。服务器模式为业务智能工具提供了行业标准JDBC和ODBC连接。

三、核心概念：DataFrames和Datasets

DataFrame

DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表，但在底层具有更丰富的优化。DataFrames可以从各种来源构建，例如：

结构化数据文件
hive中的表
外部数据库或现有RDDs

DataFrame API支持的语言有Scala，Java，Python和R。

从上图可以看出，DataFrame多了数据的结构信息，即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化。

Datasets

Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口，是DataFrame之上更高一级的抽象。它提供了RDD的优点（强类型化，使用强大的lambda函数的能力）以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造，然后使用函数转换（map， flatMap，filter等）去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。

四、创建DataFrames

测试数据如下：员工表

定义case class（相当于表的结构：Schema）

case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,deptno:Int)

代码100分

将HDFS上的数据读入RDD，并将RDD与case Class关联

代码100分val lines = sc.textFile("hdfs://bigdata111:9000/input/emp.csv").map(_.split(","))

把每个Array映射成一个Emp的对象

val emp = lines.map(x => Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))

生成DataFrame

代码100分val allEmpDF = emp.toDF

通过DataFrames查询数据

将DataFrame注册成表（视图）

allEmpDF.createOrReplaceTempView("emp")

执行SQL查询

spark.sql("select * from emp").show

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
转载请注明出处: https://daima100.com/7614.html

【赵强老师】什么是Spark SQL？[通俗易懂]

一、Spark SQL简介

二、Spark SQL的特点

三、核心概念：DataFrames和Datasets

DataFrame

Datasets

四、创建DataFrames

相关推荐

发表回复