4.RDD操作_rd命令的用法

小小码 • 2023-05-10 20:30 • 代码基础 • 阅读 151

一键激活最新全家桶

4.RDD操作_rd命令的用法一、 RDD创建从本地文件系统中加载数据创建RDD sc：SparkContext（shell自动创建）本地文件系统中加载数据创建RDD Spark采用textFile()方法来从文件系统中加载数

大家好，我是考100分的小小码，祝大家学习进步，加薪顺利呀。今天说一说4.RDD操作_rd命令的用法,希望您对编程的造诣更进一步.

一、 RDD创建
- 从本地文件系统中加载数据创建RDD
- 从HDFS加载数据创建RDD
- 通过并行集合（列表）创建RDD
二、 RDD操作
- 转换操作
  - filter(func)
  - map(func)
  - flatMap(func)
  - reduceByKey()
  - groupByKey()
  - sortByKey()
  - sortBy()
- 行动操作
  - foreach(func)
  - collect()
  - count()
  - take(n)
  - reduce()

一、 RDD创建

从本地文件系统中加载数据创建RDD

sc：SparkContext（shell自动创建）
本地文件系统中加载数据创建RDD

Spark采用textFile()方法来从文件系统中加载数据创建RDD
该方法把文件的URI作为参数，这个URI可以是：
- 本地文件系统的地址
- 或者是分布式文件系统HDFS的地址
- 或者是Amazon S3的地址等等

从HDFS加载数据创建RDD

启动hdfs
上传文件
查看文件
spark内加载文件

textFile默认是读hdfs，所以hdfs可以省略。

hdfs的默认目录，前三条语句是完全等价的，可以使用其中任意一种方式

不是默认目录，要还上路径
停止hdfs

通过并行集合（列表）创建RDD

输入列表、字符串、numpy生成数组

二、 RDD操作

转换操作

对于RDD而言，每一次转换操作都会产生新的RDD，供给下一个“转换”使用

转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作

操作	含义
filter(func)	筛选出满足函数func的元素，并返回一个新的数据集
map(func)	将每个元素传递到函数func中，并将结果返回为一个新的数据集
flatMap(func)	与map()相似，但每个输入元素都可以映射到0或多个输出结果
groupByKey()	应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
reduceByKey(func)	应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中每个值是将每个key传递到函数func中进行聚合后的结果

filter(func)

显式定义函数

结果不明显，换个关键词
lambda函数

map(func)

字符串分词
- 显式定义函数
- lambda函数
数字加100
- 显式定义函数
- lambda函数
字符串加固定前缀
- 显式定义函数
- lambda函数

flatMap(func)

分词
单词映射成键值对

reduceByKey()

统计词频，累加
乘法规则

groupByKey()

单词分组
查看分组的内容
分组之后做累加 map

sortByKey()

词频统计按单词排序

sortBy()

词频统计按词频排序

行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。

操作	含义
count()	返回数据集中的元素个数
collect()	以数组的形式返回数据集中的所有元素
first()	返回数据集中的第一个元素
take(n)	以数组的形式返回数据集中的前n个元素
foreach(func)	将数据集中的每个元素传递到函数func中运行
reduce(func)	通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

foreach(func)

foreach(print)
foreach(lambda a:print(a.upper())

collect()

count()

take(n)

reduce()

数值型的rdd元素做累加
与reduceByKey区别

reduceByKey(func)应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合后得到的结果

原文地址：https://www.cnblogs.com/DingyLand/archive/2022/03/30/homework_04_.html

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
转载请注明出处: https://daima100.com/5402.html

赞 (0)

0 0

数据插补—拉格朗日插值法 – hjk「建议收藏」

上一篇 2023-05-10

redis缓存穿透,缓存雪崩解决_redis缓存雪崩解决方案

下一篇 2023-05-11

代码基础

DB2 添加catalog[亲测有效]

DB2 添加catalog[亲测有效]db2 catalog tcpip node node别名 remote IP地址 server 50000 db2 catalog db 数据库名称 as 数据库别名 at node node别名…

小小码
2023-03-07
160
代码基础

openapi开发框架_hadoop开源

openapi开发框架_hadoop开源一、前言 ChunJun（原FlinkX）是一个基于 Flink 提供易用、稳定、高效的批流统一的数据集成工具，既可以采集静态的数据，比如 MySQL，HDFS 等，也可以采集实时变化的数据，比如 b

小小码
2023-06-16
151
代码基础

DataOps不是工具，而是帮助企业实现数据价值的最佳实践「终于解决」

DataOps不是工具，而是帮助企业实现数据价值的最佳实践「终于解决」2008年，“大数据”一词在《大数据时代》中被首次提出，距今已有整整14个年头。在这14年中，许多人亲眼见证了数据的力量，以及目睹它如何改变世界。大部分企业的决策者都明白了一个道理：数据才是企业中最有

小小码
2023-05-28
143
代码基础

mysql系列(十二)——慢查询分析工具（mysqldumpslow）「终于解决」

mysql系列(十二)——慢查询分析工具（mysqldumpslow）「终于解决」一、安装

小小码
2023-03-24
151
代码基础

MySQL中varchar(10)和varchar(100)的区别和优缺点[通俗易懂]

MySQL中varchar(10)和varchar(100)的区别和优缺点[通俗易懂]许多使用MySQL的同学都会使用到varchar这个数据类型。初学者刚开始学习varchar时，一定记得varchar是个变长的类型这个知识点，所以很多初学者在设计表时，就会把varchar(X)的长

小小码
2023-05-09
148
代码基础

Python网络爬虫工具

Python网络爬虫工具网络爬虫是一种能够自动访问互联网并采集网页信息的程序，被广泛应用于搜索引擎、价格比较网站和内容聚合网站等领域。随着互联网的快速发展，网络爬虫变得越来越重要。而Python作为一种简单易学、但功能强大的编程语言，其网络爬虫工具也逐渐成为了业内主流。

admin
2024-07-02
51
代码基础

Python os.isdir函数：判断一个路径是否为目录

Python os.isdir函数：判断一个路径是否为目录在编程中，判断一个路径是否是目录是一个非常常见的需求。Python的os模块中的isdir函数就是用来判断指定路径是否是目录的。

admin
2023-12-27
118
代码基础

nvl和ifnull_coalesce和nvl的区别

nvl和ifnull_coalesce和nvl的区别大家都知道的区别： NVL Oracle 专属只支持两个参数 COALESCE SQL 标准支持多个参数但是今天偶然间还发现一个重要差别：滥用 NVL 可能导致额外的计算 NVL 无论前面的参…

小小码
2023-03-19
165

发表回复