一、HDFS基本概述
1、HDFS描述
大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容错能力,稳定而且可靠。HDFS(Hadoop-Distributed-File-System),它是一个分布式文件系统,用于存储文件,通过目录树来定位文件;设计初衷是管理数成百上千的服务器与磁盘,让应用程序像使用普通文件系统一样存储大规模的文件数据,适合一次写入,多次读出的场景,且不支持文件的修改,适合做数据分析。
2、基础架构
HDFS具有主/从体系结构,有两个核心组件,NameNode与DataNode。
NameNode
负责文件系统的元数据(MetaData)管理,即文件路径名、数据块ID、存储位置等信息,并配置副本策略,处理客户端读写请求。
DataNode
执行文件数据的实际存储和读写操作,每个DataNode存储一部分文件数据块,文件整体分布存储在整个HDFS服务器集群中。
Client
客户端,文件切分上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;从NameNode获取文件的位置信息;与DataNode通信读取或者写入数据; Client通过一些命令来访问或管理HDFS。
Secondary-NameNode
不是NameNode的热备,但是分担NameNode工作量,比如定期合并Fsimage和Edits,并推送给NameNode;在紧急情况下,可辅助恢复NameNode。
3、高容错性
数据块多份复制存储的示意,文件/users/sameerp/data/part-0,复制备份设置为2,存储的block-ids分别为1、3;文件/users/sameerp/data/part-1,复制备份设置为3,存储的block-ids分别为2、4、5;任何单台服务器宕机后,每个数据块至少还存在一个备份服务存活,不会影响对文件的访问,提高整体容错性。
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过参数dfs.blocksize来配置,块设置太小,会增加寻址时间;块设置的太大,从磁盘传输数据的时间会很慢,HDFS块的大小设置主要取决于磁盘传输速率。
二、读写机制
1、数据写入
1. 客户端访问NameNode请求上传文件;
2. NameNode检查目标文件和目录是否已经存在;
3. NameNode响应客户端是否可以上传;
4. 客户端请求NameNode文件块Block01上传服务位置;
5. NameNode响应返回3个DataNode节点;
6. 客户端通过输入流建立DataNode01传输通道;
7. DataNode01调用DataNode02,DataNode02调用DataNode03,通信管道建立完成;
8. DataNode01、DataNode02、DataNode03逐级应答客户端。
9. 客户端向DataNode01上传第一个文件块Block;
10. DataNode01接收后传给DataNode02,DataNode02传给DataNode03;
11. Block01传输完成之后,客户端再次请求NameNode上传第二个文件块;
2、数据读取
1. 客户端通过向NameNode请求下载文件;
2. NameNode查询获取文件元数据并返回;
3. 客户端通过元数据信息获取文件DataNode地址;
4. 就近原则选择一台DataNode服务器,请求读取数据;
5. DataNode传输数据返回给客户端;
6. 客户端以本地处理目标文件;
三、机架感知
Hadoop2.7的文档说明
第一个副本和client在一个节点里,如果client不在集群范围内,则这第一个node是随机选取的;第二个副本和第一个副本放在相同的机架上随机选择;第三个副本在不同的机架上随机选择,减少了机架间的写流量,通常可以提高写性能,机架故障的概率远小于节点故障的概率,因此该策略不会影响数据的稳定性。
四、网络拓扑
HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据,基于机架感知,NameNode就可以画出上图所示的datanode网络拓扑图。D1,R1都是交换机,最底层是datanode。
1. Distance(/D1/R1/N1,/D1/R1/N1)=0 相同的节点
2. Distance(/D1/R1/N1,/D1/R1/N2)=2 同一机架下的不同节点
3. Distance(/D1/R1/N1,/D1/R2/N1)=4 同一IDC下的不同datanode
4. Distance(/D1/R1/N1,/D2/R3/N1)=6 不同IDC下的datanode