代码基础
-
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python) – orion
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python) – orion我们在上一篇博客中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来实现同样的功能。Spark框架也是MapReduce-like模型,采用“分治-聚合”策略来对
-
MySQL的Explain总结「终于解决」
MySQL的Explain总结「终于解决」Explain简介 MySQL优化器在基于成本的计算和基于规则的SQL优化会生成一个所谓的执行计划,我们就可以使用执行计划查看MySQL对该语句具体的执行方式。 介绍这个好啰嗦就是了,我们可以通过这个
-
分布式开源项目_分布式状态服务
分布式开源项目_分布式状态服务一、ZooKeeper概述 Apache ZooKeeper 是一个集中式服务,用于维护配置信息、命名、提供分布式同步和提供组服务,ZooKeeper 致力于开发和维护一个开源服务器,以实现高度可靠的
-
sql 如何对表进行创建,更新和删除操作步骤_sql怎么把查询的数据在新建一个表
sql 如何对表进行创建,更新和删除操作步骤_sql怎么把查询的数据在新建一个表本文介绍如何使用 CREATE DATABASE 语句创建数据库、 CREATE TABLE 语句创建表、ALTER TABLE 语句更新表、DROP TABLE 语句删除表。 一、表的创建 本节要点
-
Hadoop超详细讲解之单节点搭建「终于解决」
Hadoop超详细讲解之单节点搭建「终于解决」1 Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
-
redis 常用五种数据类型编码是什么_redis常用的数据类型
redis 常用五种数据类型编码是什么_redis常用的数据类型转载请注明出处: 目录 Redis 的五种数据结构 Redis 数据结构的内部编码 1.String 1.1 常用命令 1.2 内部编码 1.3 典型使用场景 2. Hash 2.
-
负载均衡之keepalived「终于解决」
负载均衡之keepalived「终于解决」DR实验存在的隐患 DR可能会挂,单点故障 RS可能会挂 解决方案: 解决单点故障 主备:准备多个DR备用机,做好配置,主机挂掉备用机顶上 主主 解决RS会挂的问题 给RS发送请求,如果收到200 o
-
PostgreSQL 和 MySQL 在用途、好处、特性和特点上的异同
PostgreSQL 和 MySQL 在用途、好处、特性和特点上的异同PostgreSQL 和 MySQL 在用途、好处、特性和特点上的异同。 PostgreSQL 和 MySQL 是将数据组织成表的关系数据库。这些表可以根据每个表共有的数据链接或关联。关系数据库使您的
-
陈宏申:浅谈京东电商商品文案挖掘难点与优化实践[亲测有效]
陈宏申:浅谈京东电商商品文案挖掘难点与优化实践[亲测有效]导读: 在电商推荐中,除了推送商品的图片和价格信息外,文案也是商品非常重要的维度。基于编码器解码器范式的序列文本生成模型是文案挖掘的核心,但该种方法面临着两大技术挑战:一是文案生成结果不可靠和生成质量
-
Hadoop: 单词计数(Word Count)的MapReduce实现 – orion「终于解决」
Hadoop: 单词计数(Word Count)的MapReduce实现 – orion「终于解决」首先,Hadoop会把输入数据划分成等长的输入分片(input split) 或分片发送到MapReduce。Hadoop为每个分片创建一个map任务,由它来运行用户自定义的map函数以分析每个分片中
-
kafka datahub_hadoop HA
kafka datahub_hadoop HA一、概述 EFAK(Eagle For Apache Kafka,以前称为 Kafka Eagle)是一款由国内公司开源的Kafka集群监控系统,可以用来监视kafka集群的broker状态、Topi
-
大数据Hadoop之——数据采集存储到HDFS实战(Python版本)
大数据Hadoop之——数据采集存储到HDFS实战(Python版本)要实现这个示例,必须先安装好hadoop和hive环境,环境部署可以参考我之前的文章: 大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce) 大数据Hadoop之——数
-
如何在 Windows 10 中安装 PostgreSQL 和连接设置「建议收藏」
如何在 Windows 10 中安装 PostgreSQL 和连接设置「建议收藏」本文介绍开源数据库 PostgreSQL(版本 9.5.3 1)在 Windows 10 环境下的安装方法。 PostgreSQL 是 1980 年以加利福尼亚大学为中心开发出来的 DBMS,与 My
-
mysql中sql语句优化_优化sql语句执行效率
mysql中sql语句优化_优化sql语句执行效率语句优化 即优化器利用自身的优化器来对我们写的SQL进行优化,然后再将其放入InnoDB引擎中执行。 条件简化 移除不必要的括号 select * from x where ((a = 5)); 上面
-
数据库和 SQL 是什么关系「终于解决」
数据库和 SQL 是什么关系「终于解决」本文介绍数据库的结构和基本理论,以及数据库的实际应用。同时还介绍关系数据库专用的 SQL 语句的书写方法和规则。 一、数据库是什么 本节重点 数据库是将大量数据保存起来,通过计算机加工而成的可以进行高
-
啥叫大数据_hadoop大数据可视化
啥叫大数据_hadoop大数据可视化一、概述 DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、Sql