Hadoop框架：HDFS简介与读写机制

一、HDFS基本概述

1、HDFS描述

大数据领域一直面对的两大核心模块：数据存储，数据计算，HDFS作为最重要的大数据存储技术，具有高度的容错能力，稳定而且可靠。HDFS(Hadoop-Distributed-File-System)，它是一个分布式文件系统，用于存储文件，通过目录树来定位文件;设计初衷是管理数成百上千的服务器与磁盘，让应用程序像使用普通文件系统一样存储大规模的文件数据，适合一次写入，多次读出的场景，且不支持文件的修改，适合做数据分析。

2、基础架构

HDFS具有主/从体系结构，有两个核心组件，NameNode与DataNode。

NameNode

负责文件系统的元数据（MetaData）管理，即文件路径名、数据块ID、存储位置等信息，并配置副本策略，处理客户端读写请求。

DataNode

执行文件数据的实际存储和读写操作，每个DataNode存储一部分文件数据块，文件整体分布存储在整个HDFS服务器集群中。

Client

客户端，文件切分上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传;从NameNode获取文件的位置信息;与DataNode通信读取或者写入数据; Client通过一些命令来访问或管理HDFS。

Secondary-NameNode

不是NameNode的热备，但是分担NameNode工作量，比如定期合并Fsimage和Edits，并推送给NameNode;在紧急情况下，可辅助恢复NameNode。

3、高容错性

数据块多份复制存储的示意,文件/users/sameerp/data/part-0，复制备份设置为2，存储的block-ids分别为1、3；文件/users/sameerp/data/part-1，复制备份设置为3，存储的block-ids分别为2、4、5；任何单台服务器宕机后，每个数据块至少还存在一个备份服务存活，不会影响对文件的访问，提高整体容错性。

HDFS中的文件在物理上是分块存储(Block)，块的大小可以通过参数dfs.blocksize来配置，块设置太小，会增加寻址时间；块设置的太大，从磁盘传输数据的时间会很慢，HDFS块的大小设置主要取决于磁盘传输速率。

二、读写机制

1、数据写入

1. 客户端访问NameNode请求上传文件；

2. NameNode检查目标文件和目录是否已经存在；

3. NameNode响应客户端是否可以上传；

4. 客户端请求NameNode文件块Block01上传服务位置；

5. NameNode响应返回3个DataNode节点；

6. 客户端通过输入流建立DataNode01传输通道；

7. DataNode01调用DataNode02，DataNode02调用DataNode03，通信管道建立完成；

8. DataNode01、DataNode02、DataNode03逐级应答客户端。

9. 客户端向DataNode01上传第一个文件块Block；

10. DataNode01接收后传给DataNode02，DataNode02传给DataNode03;

11. Block01传输完成之后，客户端再次请求NameNode上传第二个文件块；

2、数据读取

1. 客户端通过向NameNode请求下载文件；

2. NameNode查询获取文件元数据并返回；

3. 客户端通过元数据信息获取文件DataNode地址；

4. 就近原则选择一台DataNode服务器，请求读取数据；

5. DataNode传输数据返回给客户端；

6. 客户端以本地处理目标文件；

三、机架感知

Hadoop2.7的文档说明

第一个副本和client在一个节点里，如果client不在集群范围内，则这第一个node是随机选取的；第二个副本和第一个副本放在相同的机架上随机选择；第三个副本在不同的机架上随机选择，减少了机架间的写流量，通常可以提高写性能,机架故障的概率远小于节点故障的概率，因此该策略不会影响数据的稳定性。

四、网络拓扑

HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据，基于机架感知，NameNode就可以画出上图所示的datanode网络拓扑图。D1,R1都是交换机，最底层是datanode。

1. Distance(/D1/R1/N1,/D1/R1/N1)=0 相同的节点

2. Distance(/D1/R1/N1,/D1/R1/N2)=2 同一机架下的不同节点

3. Distance(/D1/R1/N1,/D1/R2/N1)=4 同一IDC下的不同datanode

4. Distance(/D1/R1/N1,/D2/R3/N1)=6 不同IDC下的datanode

Hadoop框架：HDFS简介与读写机制

一、HDFS基本概述

二、读写机制

三、机架感知

四、网络拓扑

几千年都没有变过！

中国国航：拟向商飞公司购买100架C919飞机

重磅，美已做好了与俄曹伊契四线同时作战的准备

美国驻华大使馆发布王毅布林肯对谈内容

北约高官称中国为俄提供卫星能力和成像技术中方驳斥

中国金融领域超级大事发生了，会影响所有人的钱，所有人

众生相！湖人0-3陷入绝境，赛后詹姆斯直接离场，主场观众狂嘘

卢麒元停更！他的最大贡献在于唤醒民众，把一些人拉下了神坛

滥发货币是洗劫国民财富，最残酷的方式

有网友总结：在中国，想失业比考北大还要难

丽水拟出让微小宅地：个人可独立或联合建房，建成后可办产证可出售

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

“为大局服务”，到底什么才是大局呢？有网友想到答案！

汽车以旧换新补贴实施细则公布最高补贴1万元

小男孩向美国发言人提问：你们给乌克兰的武器够吗？

距离上次掘路不到一年，上海威海路怎么又开挖翻修了？

广东省卫生健康委原党组书记、主任段宇飞接受审查调查

南京拟放宽落户条件买房可直接落户

主人生病输液狗狗跑4里外医院看望：不再羡慕其他病人有人陪

爬山失联女子丈夫发声：妻子主动发送求救信息，请停止恶意揣测

Hadoop框架：HDFS简介与读写机制

一、HDFS基本概述

二、读写机制

三、机架感知

四、网络拓扑

几千年都没有变过！

中国国航：拟向商飞公司购买100架C919飞机

重磅，美已做好了与俄曹伊契四线同时作战的准备

美国驻华大使馆发布王毅布林肯对谈内容

北约高官称中国为俄提供卫星能力和成像技术 中方驳斥

中国金融领域超级大事发生了，会影响所有人的钱，所有人

众生相！湖人0-3陷入绝境，赛后詹姆斯直接离场，主场观众狂嘘

卢麒元停更！他的最大贡献在于唤醒民众，把一些人拉下了神坛

滥发货币是洗劫国民财富，最残酷的方式

有网友总结：在中国，想失业比考北大还要难

丽水拟出让微小宅地：个人可独立或联合建房，建成后可办产证可出售

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

“为大局服务”，到底什么才是大局呢？有网友想到答案！

汽车以旧换新补贴实施细则公布 最高补贴1万元

小男孩向美国发言人提问：你们给乌克兰的武器够吗？

距离上次掘路不到一年，上海威海路怎么又开挖翻修了？

广东省卫生健康委原党组书记、主任段宇飞接受审查调查

南京拟放宽落户条件 买房可直接落户

主人生病输液狗狗跑4里外医院看望：不再羡慕其他病人有人陪

爬山失联女子丈夫发声：妻子主动发送求救信息，请停止恶意揣测

北约高官称中国为俄提供卫星能力和成像技术中方驳斥

汽车以旧换新补贴实施细则公布最高补贴1万元

南京拟放宽落户条件买房可直接落户