HDFS产生小文件解决

HDFS产生小文件解决使用flume将数据写到HDFS上,出现大量的不到1kb的小文件。 危害:占用NameNode内存 n*150字节 (采用har归档:hadoop archive -archiveName **.ha

HDFS产生小文件解决

使用flume将数据写到HDFS上,出现大量的不到1kb的小文件。

HDFS产生小文件解决

 

 

危害:占用NameNode内存   n*150字节  (采用har归档:hadoop archive -archiveName  **.har -p  /输入路径  /输出路径)

    增加切片个数  n个maptask

 

产生原因:

                  hdfs.rollInterval  30  默认30s产生下一个文件        (优化配置:3600s)

     或

     hdfs.rollSize 1024    默认1024节大小产生一个文件      (优化配置:134217728)

     或

     hdfs.rollCount  10     默认10条一个文件        (优化配置:0 【禁止】)

 

HDFS产生小文件解决

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/5928.html

(0)
上一篇 2023-04-20 20:30
下一篇 2023-04-21

相关推荐

  • c# hadoop_hadoop 命令

    c# hadoop_hadoop 命令Hive Hive将HiveQL(类sql语言)转为MapReduce,完成数据的查询与分析,减少了编写MapReduce的复杂度。它有以下优点: 学习成本低:熟悉sql就能使用 良好的数据分析:底层

    2023-05-14
    118
  • 简单记录下mysql 主从同步

    简单记录下mysql 主从同步mysql 主从同步 主 读写 -> 从 同步 环境检查 主从数据库版本一致, 此处版本都为 5.5.64-MariaDB 主服务器配置 vi /etc/my.cnf.d/server.cnf # …

    2023-02-27
    102
  • MySQL数据库远程访问权限的两种打开办法

    MySQL数据库远程访问权限的两种打开办法在我们使用mysql数据库时,有时我们的程序与数据库不在同一机器上,这时我们需要远程访问数据库。缺省状态下,mysql的用户没有远程访问的权限。 下面介绍两种方法,解决这一问题。 1、改表法 可能是…

    2023-02-14
    98
  • kubernetes高可用架构_kepler架构

    kubernetes高可用架构_kepler架构数据也有冷热之分,你知道吗? 根据访问的频率的高低可将数据分为热数据和冷数据,访问频率高的则为热数据,低为冷数据。如果热、冷数据不区分,一并存储,显然不科学。将冷数据也存储在昂贵的内存中,那么你想,成

    2023-06-14
    100
  • Python程序中出现“substring not found”错误的解决方法

    Python程序中出现“substring not found”错误的解决方法a href=”https://beian.miit.gov.cn/”苏ICP备2023018380号-1/a Copyright www.python100.com .Some Rights Reserved.

    2024-03-19
    28
  • Oracle 踩坑记

    Oracle 踩坑记
    1、Oracle 用连接工具(Navicat、SQL Developer)创建的用户名的字母要大写,否则无法连接,报ERROR ora-01017:inva…

    2023-04-05
    114
  • Python第三方库大全

    Python第三方库大全Python是一种通用编程语言,应用广泛,可用于Web开发、数据分析、人工智能等等领域。Python的强大在于它的第三方库(也称为模块、包等),为用户提供了大量的功能和工具,大大缩短了开发时间。本文介绍Python第三方库的种类和应用场景,带您深入了解Python丰富的编程生态。

    2024-04-13
    31
  • MySQL中如何选择合适的备份策略和备份工具[通俗易懂]

    MySQL中如何选择合适的备份策略和备份工具[通俗易懂]​数据库备份的重要性毋庸置疑,可以说,它是数据安全的最后一道防线。鉴于此,对于备份,我们通常会做以下要求: 多地部署 对于核心数据库,我们通常有两地三中心的部署要求。对于备份来说,也是如此。 一个备份

    2023-04-25
    98

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注