【赵强老师】什么是Spark SQL?[通俗易懂]

【赵强老师】什么是Spark SQL?[通俗易懂]一、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?

【赵强老师】什么是Spark SQL?

【赵强老师】什么是Spark SQL?[通俗易懂]

一、Spark SQL简介

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。

二、Spark SQL的特点

  • 无缝集成在Spark中,将SQL查询与Spark程序混合。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。适用于Java、Scala、Python和R语言。
  • 提供统一的数据访问,以相同的方式连接到任何数据源。DataFrames和SQL提供了一种访问各种数据源的通用方法,包括Hive、Avro、Parquet、ORC、JSON和JDBC。您甚至可以通过这些源连接数据。
  • 支持Hive集成。在现有仓库上运行SQL或HiveQL查询。Spark SQL支持HiveQL语法以及Hive SerDes和udf,允许您访问现有的Hive仓库。
  • 支持标准的连接,通过JDBC或ODBC连接。服务器模式为业务智能工具提供了行业标准JDBC和ODBC连接。

三、核心概念:DataFrames和Datasets

  • DataFrame

DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建,例如:

  • 结构化数据文件
  • hive中的表
  • 外部数据库或现有RDDs

DataFrame API支持的语言有Scala,Java,Python和R。

【赵强老师】什么是Spark SQL?[通俗易懂]

从上图可以看出,DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化。

  • Datasets

Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优点(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造,然后使用函数转换(map, flatMap,filter等)去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。

四、创建DataFrames

  • 测试数据如下:员工表

【赵强老师】什么是Spark SQL?[通俗易懂]

  • 定义case class(相当于表的结构:Schema)
case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,deptno:Int)

代码100分

  • 将HDFS上的数据读入RDD,并将RDD与case Class关联
代码100分val lines = sc.textFile("hdfs://bigdata111:9000/input/emp.csv").map(_.split(","))

  • 把每个Array映射成一个Emp的对象
val emp = lines.map(x => Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))

  • 生成DataFrame
代码100分val allEmpDF = emp.toDF

  • 通过DataFrames查询数据

【赵强老师】什么是Spark SQL?[通俗易懂]

  • 将DataFrame注册成表(视图)
allEmpDF.createOrReplaceTempView("emp")

  • 执行SQL查询
spark.sql("select * from emp").show

【赵强老师】什么是Spark SQL?[通俗易懂]

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/7614.html

(0)
上一篇 2023-03-17
下一篇 2023-03-17

相关推荐

  • day01-数据库的安装和使用「终于解决」

    day01-数据库的安装和使用「终于解决」Java数据库的安装和使用 1.数据库的作用 一个问题:淘宝网、京东、微信抖音,都有各自的功能,那么我们退出系统的时候,为什么信息还在? 解决之道-文件,数据库 为了解决上诉问题,使用更加利于管理数据

    2023-06-08
    103
  • 北京哪里有开住宿费发票

    北京哪里有开住宿费发票电薇13530507261 保-真,可-先-幵-验,陈经理。链接与装载是一个比较晦涩的话题,大家往往容易陷入复杂的细节中而难以看清问题的本来面目。从本质上讲各个系统的编译、链接、装载过程都是大同小异…

    2023-02-16
    103
  • 程序员教你_程序员基础知识

    程序员教你_程序员基础知识答:完全可以,甚至我只建议自学,现在网上课程很多,而且大部分程序员是边学边做的,技术一直在更新,需要一直学,假如你自学都不太行的话,甚至我不建议

    2022-12-14
    148
  • Python os.path.join函数的使用方法

    Python os.path.join函数的使用方法在Python中,os模块经常被用来进行文件系统操作。os.path.join()函数是os模块中非常重要的一个函数,它可以用来将多个路径组合成一个路径。

    2024-01-02
    64
  • Linux 上安装 PostgreSQL

    Linux 上安装 PostgreSQL 打开 PostgreSQL 官网 https://www.postgresql.org/,点击菜单栏上的 Download ,可以看到这里包含了很多平台的安装包,包括 Linux、Windo…

    2023-03-28
    100
  • 使用Python将字符串转换为浮点数

    使用Python将字符串转换为浮点数在读取外部文件中的数据时,经常会遇到带有小数的数字。例如,读取一个CSV文件中的数据时,该文件中的数值通常是字符串形式。这时,我们就可以使用Python的字符串转换为浮点数功能,将这些字符串转换为需要的浮点数,以此进行计算和分析。

    2024-05-06
    12
  • 自学SQL网题目解答与笔记[亲测有效]

    自学SQL网题目解答与笔记[亲测有效]SELECT 查询 101 Id Title Director Year Length_minutes 1 Toy Story John Lasseter 1995 81 2 A Bug's

    2023-05-19
    83
  • pgpool-II 用户手册[通俗易懂]

    pgpool-II 用户手册[通俗易懂]简单通俗的来讲,pgpool-II 是一个位于 PostgreSQL 服务器和 PostgreSQL 数据库客户端之间的中间件。pgpool-II主要提供负载均衡、连接池、复制、并行查询等等功能。Pg

    2023-04-27
    217

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注