网站开发p6,企业网站建设思路,设备建设网站,印花图案设计网站目录 概述架构HDFS副本HDFS数据写入流程NN 工作原理DN 工作原理 结束 概述
官方文档快递
环境#xff1a;hadoop 版本 3.3.6 相关文章速递
架构
HDFS HDFS 架构总结如下#xff1a;
a master/slave architecture 一主多从架构a file is split into one or more blocks a… 目录 概述架构HDFS副本HDFS数据写入流程NN 工作原理DN 工作原理 结束 概述
官方文档快递
环境hadoop 版本 3.3.6 相关文章速递
架构
HDFS HDFS 架构总结如下
a master/slave architecture 一主多从架构a file is split into one or more blocks and these blocks are stored in a set of DataNodes 一个文件会被拆分成1或者多个 block (块)然后存储在 DN 上NameNodeNN file system namespace 文件系统命名空间执行文件系统的命名空间操作打开、关闭、重命名文件或者文件目录记录数据 block (块) 对应的 DN DataNodeDN
HDFS 组件职责
NN 维护和管理文件系统的命名空间副本策略Block 的映射信息处理客户端读写请求 DN 存储 Block真正执行数据块的读写操作 Client 与 NN 交互获取到文件的元数据信息与 DN 交互执行数据块的读写操作管理 HDFS SNNSecondary NameNode 不是 NN 的热备分担一些 NN 工作量定期合并 FsImage Edits 完成后推送到 NN Block hadoop3.x 默认大小 128M
副本 For the common case, when the replication factor is three, HDFS’s placement policy is to put one replica on the local machine if the writer is on a datanode, otherwise on a random datanode in the same rack as that of the writer, another replica on a node in a different (remote) rack, and the last on a different node in the same remote rack. 上述两个机架一个机架三台机器。 通常情况下副本因子为3
第一个副本client 所处的节点上如果 client 在集群外在相同机架上(rack)随机选择一个第二个副本在另外一个机架上随机选择一个节点第三个副本在第二个副本所在机架上随机选择一个节点(与二个副本不在一个节点)
HDFS数据写入流程
先来张图如下
客户端发送请求 put 一个文件由 NN 根据元数据判断文件是否存在是否具备权限根据副本摆放策略返回响应数据给 client 端client 根据响应数据将第一个 block 写入 DN1 , DN1、DN2、DN3 之间会同步数据而不是由 client 执行
NN 工作原理
老规矩上个图易理解 重点总结如下
NN 元数据采取的是 内存磁盘的方式管理 FsImageEdits 每次操作都以追加的方式写入日志完整的元数据信息 FsImage Edits 相关配置 dfs.namenode.checkpoint.txnsdfs.namenode.checkpoint.period
DN 工作原理
老规矩上图
向 NN 发起注册Block 信息汇报 dfs.blockreport.intervalMsec DN 发起心跳 dfs.heartbeat.interval 默认 3秒dfs.namenode.heartbeat.recheck-interval (再次 recheck 默认 5分钟) 超时掉线 10分钟30秒 检测不到心跳直接掉线 timeout 2 * heartbeat.recheck.interval 10 * dfs.heartbeat.interval
结束
至此HDFS 架构 就结束了如有疑问欢迎评论区留言。