Hadoop简介


好久没更新博客了,最近也一直没有时间写文章,下面的内容也是前几天做的思维导图的内容,所以很简短。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop现在最新的发行版本是3.1, 但商业中使用最广泛的是2.7版本, 据说也是目前最稳定的版本,其中Hadoop1.x和Hadoop2.0+的核心组成有较大区别。

Hadoop部署模式

  • 独立模式
  • 伪分布式模式
  • 集群模式

Hadoop2.0+

MapReduce:并行计算与运行软件框架

YARN集群:资源管理系统,管理资源调度

  • ResourceManager:控制整个集群并管理应用程序向基础计算资源的分配
  • NodeManager:管理YARN集群中的每个节点
  • ApplicationMaster:管理在YARN内运行的每个应用程序实例
  • Container:YARN 中的资源抽象,它封装了某个节点上的多维度资源

HDFS集群:数据存储系统

  • NameNode:主节点,管理整个文件系统的元数据
  • DataNode:Slave节点,存储数据,管理用户的文件数据块,干活的奴隶
  • SecondaryDataNode:备份,NameNode的秘书

Hadoop1.0

MapReduce:资源管理,并行计算

HDFS:数据存储

声明:楓の街|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - Hadoop简介


Just For Fun...