HDFS文件系统


传统存储模式

上传和下载耗时

  • 可以加速:对文件分割进行传输
  • 有存储瓶颈

存储瓶颈解决

  • 纵向扩展:加硬盘 内存 (有上限)
  • 横向扩展:加机器 (耗费资金)

文件分割后面临的问题

  • 文件索引合并成本高(读取成本高)
  • 可能出现单点故障

解决方法:文件块备份

HDFS

全称Hadoop Distribute File System
分布式存储的最底层服务
解决文件的大数据存储

设计目标

  • 故障的检测和快速自动恢复(硬盘故障)
  • 数据的高吞吐量
  • 移动数据的代价低
  • 可移植性强
  • 一次写入,多次读取(一种合理的假设,文件写入后不再修改,可追加)

重要特性

  • 一个文件系统,存储文件,靠目录树来定位文件
  • 分布式,多台服务器联合起来实现数据存储
  • master/slave架构,一个NameNode,有限个DataNode
  • 分块存储,文件在物理上分块存储,块的大小可修改配置规定
  • 名字空间,和传统文件系统类似,支持读写文件,NameNode会记录对文件系统的修改
  • NameNode元数据管理,目录结构与分块信息
  • DataNode数据存储,负责向NameNode汇报持有哪些文件块
  • 副本机制,保证容错性,所有文件块均有副本,默认为3份
  • 一次写入,多次读取,不支持文件修改(大部分时间用来查询、存储数据)

声明:楓の街|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - HDFS文件系统


Just For Fun...