大家好,我是考100分的小小码 ,祝大家学习进步,加薪顺利呀。今天说一说HDFS产生小文件解决,希望您对编程的造诣更进一步.
使用flume将数据写到HDFS上,出现大量的不到1kb的小文件。
危害:占用NameNode内存 n*150字节 (采用har归档:hadoop archive -archiveName **.har -p /输入路径 /输出路径)
增加切片个数 n个maptask
产生原因:
hdfs.rollInterval 30 默认30s产生下一个文件 (优化配置:3600s)
或
hdfs.rollSize 1024 默认1024节大小产生一个文件 (优化配置:134217728)
或
hdfs.rollCount 10 默认10条一个文件 (优化配置:0 【禁止】)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/5928.html