Hadoop集群性能优化技术研究

更新时间:2023-07-23 18:17:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题,阐明了Hadoop性能优化技术研究的必然性,并介绍了当前Hadoop优化的三个主要思路:从应用程序角度进行优化、对Hadoop系统参数进行优化和对Hadoop作业调度算法进行优化。Hadoop集群优化对于提高系统性能和执行效率具有重大的意义。

I S 1 0 -3 4 S N 0 9 0 4

E ma: f@ c c e e — i ky c c . t n l j n .ht/www. z .e .n t/ p: dn sn tc Te: 6—5—5 0 3 56 9 4 l+8 51 69 96 90 6

C m ue K o l g n e h o g o p tr n we ea dT c n l y电脑知识与技术 d oVo .,No2 Au u t 01 . 1 7 .2, g s 2 1

Hdo a o p集群性能优化技术研究辛欣.飞大刘(安工业大学,西陕西西安 7 0 3 ) 10 2

摘要: do Ha o p技术已经在 I联网领域得到广泛的应用,时也得到了学术界的普遍关注。文介绍了 Ha o p作为基础数据处理平 -同该 do台仍然存在的问题,明了 Ha o p性能优化技术研究的必然性,介绍了当前 Ha o p优化的三个主要思路:应用程序角度进行阐 do并 do从

优化、 Hao p系统参数进行优化和对 Hao p作业调度算法进行优化。 a op集群优化对于提高系统性能和执行效率具有重大对 do do H do的意义。

关键词: do Hao p集群;能优化:置参数:业调度性配作中图分类号: P 4 T 1文献标识码: A文章编号:0 9 3 4 (0 12— 4 4 0 1 0— 0 4 2 1 )2 5 8— 3

R e e c ofH ad p ror an e Tuni c s ar h oo Pe f m c ng Te hno o y lgX I a i,LI i N D—x n U Fe

( n Teh oo ia Unv ri, n7 0 3, ia xia cn lgcl iesy Xi 1 0 2 Chn) t aAb ta t s r c:H a oo e hnoog d be n w idy u e nd r s ac r und t ntr ta d c de is d p tc l y ha e ll s d a ee r h ao he i e ne n a a m c.The atce itod c he r mi e ril n r u e t e nd d pr b e sofH a oo aa p oc si g pltor nd Il ta Co i r t r m ee si z to he h d p p ror a e t nc e s h y tm o l m d p d t r e sn af m a

l r nf us gu ai paa tr miai n t a oo e f m c O i ra e te s se onpef r a ea d e i inc ro m c n f ce y.

Ke o d: d o ls r p r r a c pi ia o; o f ua o a me r j bsh d l y w r s Ha o p c t; e o n eo t zt n c n g rt np r ts o e u r ue fm m i i i a e; c e h do a o p是隶属于 A a h p c e软件基金会 ( p c eS f aeF u d t n的开源 J V项目,是一个分布式的具有可靠性和可扩展 A ah o w r on a o ) t i A A它性的存储与计算平台。经多年发展, a op社区不断扩大, H d o历 H do而 a op本身也已经演变成为一个拥有众多子项目的项目集合,中其最核心的部分是用于分布式存储 H F ( a o pD s iue i y t文件系统和用于分布式计算的 Ma R d e计算架构, D S H d o i r tdFl S s m) tb e e p e ue除此以外还有 HB s、 i、 i Z o e p r。 ae H v Pg和 o K e e等 e

1Ha o p数据处理平台存在的问题 do随着企业要处理的数据量越来越大, p e u e想越来越受到重视。H d o Ma R d c思 a o p是 Ma R d c p e u e的一个开源实现,由于其良好的

扩展性和容错性,已得到越来越广泛的应用。H do a op作为一个基础数据处理平台,然其应用价值已得到大家认可,仍存在很多虽但问题,要表现在以下儿个方面:主

1 N me o e o t c e单点故障。 H d o ) a n d br k r a a o p采用的是 n s r lv s构,架构管理起来比较简单,存在致命的单点故障和 l t/ae架 a es该但空间容量不足等缺点,已经严重影响了 Ha o p的可扩展性。这 do 2 HD S小文件问题。在 H F ) F D S中,何 bo k文件或者目录在内存中均以对象的形式存储,个对象约占 1 0 y,果有任 l, c每 5b t如 e 1 0 0 0个小文件, 0 00 0每个文件占用一个 bo k则 n me o e需要 2 l, a nd c G

空间。果存储 1个文件, n m n d需要 2 G空间。样如亿则 a e oe 0这 n me o e内存容量严重制约了集群的扩展。 a nd

3jbr kr ) t c e同时进行监控和调度,载过大。为了解决该问题,a o o a负 yh o已经开始着手设计下一代 H do a R d c。他们的主 aopM p eue要思路是将监控和调度分离,独立出一个专门的组件进行监控,而 j t e e只负责总体调度,至于局部调度,交给作业所在的 o r kr bac in。 le t

4数据处理性能。多实验表明,处理性能有很大的提升空间。 a o p类似于数据库, )很其 H do可能需要专门的优化工程师根据实际

的应用需要对 H do aop进行调优,人称之为“ aopPr r ac pi zt n HP )有 H do ef m neO t ai”( O。 o mi o 由于 H d 0 o p平台已经成为了大多数公司的分布式数据处理平台,着数据规模的越来越大,集群的压力也越来越大,群随对集的每个节点负担自然就会加重,而且集群内部的网络带宽有限,据交换吞吐量也在面临考验,数因此也引发了人们对大规模数据处理进行优化的思考。

2从应用程序角度进行优化由于 ma rd e迭代逐行解析数据文件的,样在迭代的情况下,写高效率的应用程序, pe是怎编是一种优化思路。以从以下 7个可

方面来提高 M p e ue的性能:免不必要的 rd c aRdc避 e ue任务、部文件引入、 Jb添加一个 C m ie、用 Wra l型、用外为 o o bnr重 i be类 t使Sr g uf而不是 S ig和调试程序跟踪程序的瓶颈。 tnB fr i e tn r

收稿日期: 0 1 6 1 2 1 -0 -2

作者简介:大欣 ( 9 6 )男,西西安人,安工业大学副教授,士,要研究方向为计算机体系结构;飞 ( 9 7,,北荆辛 16,陕西硕主刘 1 8一)男湖 州人, - z业大学硕士生在读,读专业是计算机软件与理论,要研究方向为基于云计算的分布式存储系统的研究西 ̄: c就主与应用。

5 8 4 4

计算机工程应用技术

t

栏目责任编辑:书梁

本文来源:https://www.bwwdw.com/article/ivsm.html

Top