manbetx官方网站

Hadoop中的3独nodeNameNode SecondNameNode DataNode ResourceManager NodeManager

十月 11th, 2018  |  足球投注manbetx

1.namenode:

Namenode 管理方文件系统的Namespace。它保护在文件系统树(filesystem
tree)以及文件树被有的文本及文件夹的首任数据(metadata)。管理这些信的文件发出半点单,分别是Namespace
镜像文件(Namespace image)和操作日志文件(edit
log),这些信被Cache在RAM中,当然,这片个文本为会见被持久化存储在地头硬盘。Namenode记录着每个文件被各个块所于的数码节点的职位信息,但是他连无持久化存储这些消息,因为这些消息会当系统启动时起数额节点重建。
Namenode结构图抽象图如下

image.png

1:NameNode

Namenode容错机制:

无Namenode,HDFS就不克工作。事实上,如果运行namenode的机械坏掉的话,系统受到的文本拿会全盘不见,因为无其它办法会将放在不同datanode上的文书块(blocks)重建文件。因此,namenode的容错机制很重大,Hadoop提供了少于栽机制。

首先种植方法凡是将持久化存储在本土硬盘的文件系统元数据备份。Hadoop可以经安排来让Namenode将他的持久化状态文件写及不同之文件系统中。这种写操作是并并且是原子化的。比较泛的部署是当拿持久化状态写照及地面硬盘的以,也写入到一个长距离挂载的网文件系统(NFS)。

次栽艺术凡是运行一个拉扯的Namenode(Secondary Namenode)。
事实上Secondary
Namenode并无可知为看成Namenode它的重中之重作用是期的将Namespace镜像与操作日志文件(edit
log)合并,以防范操作日志文件(edit log)变得过怪。通常,Secondary Namenode
运行在一个单身的物理机上,因为联合操作需要占用大量之CPU时间以及和Namenode相当的内存。辅助Namenode保存着统一后底Namespace镜像的一个备份,万一哪天Namenode宕机了,这个备份就得就此上了。

可是援助Namenode总是落后于主Namenode,所以于Namenode宕机时,数据丢失是不可避免的。在这种场面下,一般的,要成第一种方式被涉及的长距离挂载的网文件系统(NFS)中的Namenode的第一数据文件来利用,把NFS中的Namenode元数据文件,拷贝到扶助Namenode,并拿帮扶Namenode作为主Namenode来运作。

image.png

地方的即刻张图纸显示了NameNode怎么管长数据保存到磁盘上之。这里来有限单不等的文书:

  1. fsimage – 它是当NameNode启动时对合文件系统的快照
  2. edit logs – 它是在NameNode启动后,对文件系统的改观序列
    除非当NameNode重开时,edit
    logs才会合并到fsimage文件中,从而获取一个文件系统的摩登快照。但是以成品集群中NameNode是死少又开的,这也象征当NameNode运行了老大丰富日子后,edit
    logs文件会变换得异常酷。在这种情况下就算会出现下面有题材:
  3. edit logs文件会变的良非常,怎么去管理之文件是一个挑战。
  4. NameNode的重启会花费十分丰富日子,因为起很多转移(在edit
    logs中]要是合并到fsimage文件上)。
    3.
    使NameNode挂掉了,那我们就是不见了广大改成因为此时底fsimage文件非常原始。

从而为克服这个题材,我们要一个轻管理之编制来支援我们减小edit
logs文件的深浅以及沾一个风靡的fsimage文件,这样为会见减弱多少在NameNode上之压力。这同Windows的恢复点是死像的,Windows的死灰复燃点机制允许我们本着OS进行快照,这样当系统有问题时常,我们能够回滚到新型的相同蹩脚恢复点达


2:SecondNameNode

2、Secondary NameNode

它的职责是统一NameNode的edit logs到fsimage文件中。

image.png

上面的图显示了Secondary NameNode是怎么工作之:
首先,它定时到NameNode去取得edit
logs,并更新到fsimage上。[笔者注:Secondary
NameNode自己的fsimage]万一其来了新的fsimage文件,它将该拷贝回NameNode中。NameNode在下次重启时见面使用这个新的fsimage文件,从而减少重复开的工夫。Secondary
NameNode的所有目的是在HDFS中提供一个检查点。它只是NameNode的一个臂膀节点。这为是它们在社区内叫当是检查点节点的来由。它并无是Namenode的一个备份

地方的图形显示了Secondary NameNode是怎工作之:

  1. 第一,它定时到NameNode去得到edit
    logs,并创新到fsimage上。[笔者注:Secondary NameNode自己的fsimage]
  2. 假使她有矣初的fsimage文件,它将那个拷贝回NameNode中。
  3. NameNode在下次重启时见面用这个新的fsimage文件,从而减少重复开的日。
    Secondary
    NameNode的方方面面目的是于HDFS中提供一个检查点。它只是NameNode的一个臂膀节点。这为是它们在社区内吃当是检查点节点的原委。

今昔,我们清楚了Secondary
NameNode所举行的而大凡于文件系统中装置一个检查点来支援NameNode更好之办事。它不是要是代表掉NameNode也不是NameNode的备份。所以从现在起,让咱们养成一个习惯,称呼其吧检查点节点吧。


3:DataNode

3.Datanode

Datanode是文件系统的办事节点,他们基于客户端或者是namenode的调度存储和搜索数据,并且定期为namenode发送他们所蕴藏的块(block)的列表。
汇聚众多被的每个服务器都运作一个DataNode后台程序,这个后台程序负责管HDFS数据块读写及地方的文件系统。当用经过客户端读/写有只
数据时,先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作,然后,客户端直接跟此DataNode服务器上之后台程序进行通
信,并且针对有关的数块进行读/写操作。

4:ResourceManager

5:NodeManager


参考博客:

http://dongxicheng.org/mapreduce-nextgen/nodemanager-architecture/

http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-infrastructure/

http://www.aboutyun.com/thread-7778-1-1.html


1、NameNode介绍

Namenode 管理者文件系统的Namespace。它保护着文件系统树(filesystem
tree)以及文件树被拥有的文书与文书夹的首任数据(metadata)。管理这些消息之公文来三三两两个,分别是Namespace
镜像文件(Namespace image)和操作日志文件(edit
log),这些消息让Cache在RAM中,当然,这有限独文本也会为持久化存储于地头硬盘。Namenode记录在每个文件被相继块所当的多少节点的位置信息,但是他连无持久化存储这些消息,因为这些信息会在系统启动时起数量节点重建。

Namenode结构图课抽象为要图:

opebet平台 1

客户端(client)代表用户和namenode和datanode交互来访问整个文件系统。客户端提供了有列的文件系统接口,因此我们在编程时,几乎不用知道datanode和namenode,即可成功我们所要的功用。

1.1Namenode容错机制

并未Namenode,HDFS就非可知办事。事实上,如果运行namenode的机坏掉的话,系统受之公文拿见面了不见,因为从没另外措施能够以位于不同datanode上的文本块(blocks)重建文件。因此,namenode的容错机制好重要,Hadoop提供了少数种机制。

第一栽艺术是将持久化存储于地头硬盘的文件系统元数据备份。hadoop足由此配备来为Namenode将他的持久化状态文件写到不同之文件系统中。这种写操作是一路并且是原子化的。比较大的部署是以将持久化状态写照到本地硬盘的而,也写入到一个远道挂载的纱文件系统。

第二种植方式是运作一个援手的Namenode(Secondary Namenode)。 事实上Secondary
Namenode并无能够为视作Namenode它的要害意图是期的将Namespace镜像及操作日志文件(edit
log)合并,以预防操作日志文件(edit log)变得喽那个。通常,Secondary Namenode
运行于一个独立的物理机上,因为联合操作需要占用大量的CPU时间与和Namenode相当的内存。辅助Namenode保存着统一后底Namespace镜像的一个备份,万一哪天Namenode宕机了,这个备份就好就此上了。

可援助Namenode总是落后于主Namenode,所以在Namenode宕机时,数据丢失是不可避免的。在这种情形下,一般的,要整合第一栽方式受到干的长距离挂载的网文件系统(NFS)中的Namenode的首数据文件来以,把NFS中的Namenode元数据文件,拷贝到救助Namenode,并将救助Namenode作为主Namenode来运行。

理所当然在hadoop 2.x 中,已经起了新的化解方案,那即便是NameNode
HA(因为Hadoop还包 ResourceManage
HA),hadoop联邦,
Hadoop
HA是恃同时开动两单NameNode,一个高居工作状态,另外一个处于随时待命状态,这样在地处工作状态的NameNode所在的服务器宕机时,可在数码未丢掉的情况下,手工或者电动切换到另外一个NameNode提供劳务。


2、Datanode介绍

Datanode是文件系统的做事节点,他们因客户端或者是namenode的调度存储和摸索数据,并且定期向namenode发送他们所蕴藏的块(block)的列表。

聚拢众多中之每个服务器都运行一个DataNode后台程序,这个后台程序负责管HDFS数据块读写到本地的文件系统。当用经过客户端读/写有只
数据经常,先由NameNode告诉客户端去哪个DataNode进行实际的读/写操作,然后,客户端直接和之DataNode服务器上的后台程序进行通
信,并且对系的数量块进行读/写操作。


3、Secondary NameNode介绍

此外一首关于Secondary NameNode
的博客,描述的吧大鲜明:点击阅读

Secondary  NameNode是一个之所以来监督HDFS状态的援助后台程序。就想NameNode一样,每个集群都来一个Secondary  NameNode,并且安排于一个单身的服务器上。Secondary  NameNode不同于NameNode,它不受或记录任何实时的数目变化,但是,它会与NameNode进行通信,以便定期地保存HDFS元数据的
快照。由于NameNode是只是点之,通过Secondary  NameNode的快照功能,可以拿NameNode的宕机时间和数量损失降至绝小。同时,如果NameNode发生问题,Secondary  NameNode可以即时地看成备用NameNode使用。

3.1NameNode的目结构如下:

${dfs.name.dir}/current/VERSION

/edits

/fsimage

/fstime

3.2Secondary NameNode的目录结构如下:

${fs.checkpoint.dir}/current/VERSION

/edits

/fsimage

/fstime

/previous.checkpoint/VERSION

/edits

/fsimage

/fstime

opebet平台 2

设若齐图,Secondary NameNode主要是开Namespace image和Edit log合并之。

这就是说这半种植文件是召开啊的?当客户端执行写操作,则NameNode会在edit
log记录下来,(我深感这个文件有些像Oracle的online
redo logo file)并当内存中保留一客文件系统的头数据。

Namespace
image(fsimage)文件是文件系统元数据的持久化检查点,不会见在描写操作后就更新,因为fsimage写好缓慢(这个有较像datafile)。

由Edit
log不断提高,在NameNode重开时,会促成长时NameNode处于安全模式,不可用状态,是异常勿符合Hadoop的筹划初衷。所以要是周期性合并Edit
log,但是是工作由NameNode来形成,会占大量资源,这样就算起了Secondary
NameNode,它可拓展image检查点的拍卖工作。步骤如下:

(1)       Secondary NameNode请求NameNode进行edit
log的滚动(即创办一个新的edit log),将新的编纂操作记录及新生成的edit
log文件;

(2)       通过http
get方式,读取NameNode上的fsimage和edits文件,到Secondary NameNode上;

(3)      
读取fsimage到外存中,即加载fsimage到内存,然后实施edits中具备操作(类似OracleDG,应用redo
log),并扭转一个新的fsimage文件,即是检查点被创造;

(4)       通过http post方式,将新的fsimage文件传送至NameNode;

(5)      
NameNode使用初的fsimage替换原来的fsimage文件,让(1)创建的edits替代原先的edits文件;并且更新fsimage文件的检查点时间。

漫天处理过程完成。

Secondary
NameNode的拍卖,是用fsimage和edites文件周期的集合,不见面招nameNode重启时造成长时不足看的图景。


4、ResourceManager介绍

opebet平台 3

ResourceManage
即资源管理,在YARN中,ResourceManager负责集众多被所有资源的合并保管及分配,它接受来自各个节点(NodeManager)的资源汇报信息,并把这些消息以一定的政策分配给各个应用程序(实际上是ApplicationManager)。

RM包括Scheduler(定时调度器)和ApplicationManager(应用管理器)。Schedular负责向应用程序分配资源,它不开监控及应用程序的状态跟踪,并且不保证会重启应用程序本身要硬件出错而行破产的应用程序opebet平台。ApplicationManager负责接受新的天职,协调并提供在ApplicationMaster容器失败时的双重开功能。

此处大概介绍以下ApplicationMaster,每个应用程序的AM负责项Scheduler申请资源,以及跟这些资源的采取状况跟资源调度的监察

重新多关于ResourceManager的牵线参考:点击阅读


5、NodeManager介绍

opebet平台 4

NM是ResourceManager在各个台机器上的代理,负责容器管理,并监控她的资源用状态,以及向ResourceManager/Scheduler提供资源以报告

相关文章

标签:, ,

Your Comments

近期评论

    功能


    网站地图xml地图