张士玉小黑屋

一个关注IT技术分享，关注互联网的网站，爱分享网络资源，分享学到的知识，分享生活的乐趣。

当前位置：首页 » 《休闲阅读》 » 正文

Hadoop之生产调优（六）_想当咸鱼的猫

28 人参与 2022年02月10日 09:44 分类 : 《休闲阅读》评论

HDFS小文件优化

1. 小文件弊端

HDFS 上每个文件都要在NameNode 上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode 的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢

小文件过多，在进行MR 计算时，会生成过多切片，需要启动过多的 MapTask。每个
MapTask 处理的数据量小，导致 MapTask 的处理时间比启动时间还小，白白消耗资源

2. 小文件解决方案

2.1 数据源头

在数据采集的时候，就将小文件或小批数据合成大文件再上传 HDFS

2.2 存储方向

Hadoop Archive是一个高效的将小文件放入HDFS 块中的文件存档工具，能够将多个小文件打包成一个HAR文件，HAR文件对内还是一个一个独立文件，对 NameNode 而言却是一个整体，从而达到减少 NameNode的内存使用

归档文件
把/inputs 目录里面的所有文件归档成一个叫 inputs.har 的归档文件，并把归档后文件存储到/output 路径下
```
[codecat@hadoop102 hadoop-3.1.3]$ hadoop archive -archiveName inputs.har -p /inputs /output
```

查看归档

[codecat@hadoop102 hadoop-3.1.3]$ hadoop fs -ls /output/inputs.har
Found 4 items
-rw-r--r--   3 codecat supergroup          0 2021-09-27 19:49 /output/inputs.har/_SUCCESS
-rw-r--r--   3 codecat supergroup        284 2021-09-27 19:49 /output/inputs.har/_index
-rw-r--r--   3 codecat supergroup         23 2021-09-27 19:49 /output/inputs.har/_masterindex
-rw-r--r--   3 codecat supergroup        516 2021-09-27 19:49 /output/inputs.har/part-0

[codecat@hadoop102 hadoop-3.1.3]$ hadoop fs -ls har:///output/inputs.har
Found 3 items
-rw-r--r--   3 codecat supergroup        193 2021-09-27 19:37 har:///output/inputs.har/hello.txt
-rw-r--r--   3 codecat supergroup         80 2021-09-27 19:37 har:///output/inputs.har/kv.txt
-rw-r--r--   3 codecat supergroup        243 2021-09-27 19:37 har:///output/inputs.har/nline.txt

在这里插入图片描述

解归档文件

[codecat@hadoop102 hadoop-3.1.3]$ hadoop fs -cp har:///output/inputs.har/* /

在这里插入图片描述

2.3 计算方向

2.3.1 `CombineTextInputFormat`

CombineTextInputFormat 用于将多个小文件在切片过程中生成一个单独的切片或者少
量的切片。

2.3.2 开启 `uber` 模式，实现 `JVM` 重用

默认情况下，每个 Task 任务都需要启动一个JVM 来运行，如果 Task 任务计算的数据量很小，我们可以让同一个 Job 的多个 Task 运行在一个 JVM 中，不必为每个 Task 都开启一个 JVM

未开启 uber 模式，在/inputs 路径上上传多个小文件并执行 wordcount 程序

[codecat@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /inputs /output

在这里插入图片描述

开启 uber 模式，在 mapred-site.xml 中添加如下配置并分发集群

<!-- 开启 uber 模式，默认关闭 -->
<property>
    <name>mapreduce.job.ubertask.enable</name>
    <value>true</value>
</property>
<!-- uber 模式中最大的 mapTask 数量，可向下修改 -->
<property>
    <name>mapreduce.job.ubertask.maxmaps</name>
    <value>9</value>
</property>
<!-- uber 模式中最大的 reduce 数量，可向下修改 -->
<property>
    <name>mapreduce.job.ubertask.maxreduces</name>
    <value>1</value>
</property>
<!-- uber 模式中最大的输入数据量，默认使用 dfs.blocksize 的值，可向下修
改 -->
<property>
    <name>mapreduce.job.ubertask.maxbytes</name>
    <value></value>
</property>

再次执行 wordcount 程序

[codecat@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /inputs /output1

在这里插入图片描述

点击全文阅读

本文链接：http://m.zhangshiyu.com/post/34455.html

文件数据归档

评论（0）

赞助本站

search zhannei

最新文章
为逼我签字离婚，他给将死的我打肾上腺素（谢宁意路乔年）_为逼我签字离婚，他给将死的我打肾上腺素 为逼我签字离婚，他给将死的我打肾上腺素谢宁意路乔年完本_为逼我签字离婚，他给将死的我打肾上腺素（谢宁意路乔年） 《谭凌云李星颖》小说全集免费免费试读（寻找世间最后的余温） 重生九三不贤惠，谁爱伺候谁伺候大结局在线阅读_岑翦裴时予裴云珂免费阅读 重生后，拒绝我药人血换娶妹妹的丈夫悔疯了小说_《顾承安顾淮安白露》小说全文在线阅读 陈述谭琳真实世界不可能这么颠！！！小说全本在线阅读 爱在雪地里写诗小说全文精彩章节免费试读（方笑笑卢庭轩崔灵月） 《祁汉祁同伟》小说大结局免费阅读_世界融合：开局成为祁同伟的父亲小说全文 《顾云萧文云清》小说全文免费阅读_《顾云萧文云清》最新章节目录 傅苏瑶周宥明_傅苏瑶周宥明 完结文听说我男友的屁股是他的暗器列表_完结文听说我男友的屁股是他的暗器（吴孟华许末生师萱萱） 宿舍求生，我靠睡觉铸造不朽神域全书林清涵许浪在线

关于我们 | 我要投稿 | 免责申明

张士玉小黑屋

当前位置：首页 » 《休闲阅读》 » 正文

Hadoop之生产调优（六）_想当咸鱼的猫

28 人参与 2022年02月10日 09:44 分类 : 《休闲阅读》 评论

HDFS小文件优化

1. 小文件弊端

2. 小文件解决方案

2.1 数据源头

2.2 存储方向

2.3 计算方向

2.3.1 CombineTextInputFormat

2.3.2 开启 uber 模式，实现 JVM 重用

评论（0） 赞助本站

search zhannei

最新文章

28 人参与 2022年02月10日 09:44 分类 : 《休闲阅读》评论

2.3.1 `CombineTextInputFormat`

2.3.2 开启 `uber` 模式，实现 `JVM` 重用

评论（0）

赞助本站