基于分布式文件存储的个人信息融合系统的研究与实践

更新时间:2023-08-08 07:50:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

密级:保密期限:

站右却童天肇

硕士研究生学位论文

题目:一基王坌查式塞.鲑查篮数仝△篮息一

融金丕统的婴窒墨塞践.

学号:QZ量墨墨垄

姓名:值趋

专业:让篡扭科堂生撞盔

导师:韭置

学院:让簋扭堂院2010年2月14日

lIIIIrIITIIIIIIIIl

\1758692

独创性(或创新性)声明

本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰一写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材●

^料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论本人签名:关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本日期:2口£口.占:12日期:

●7

基于分布式文件存储的个人信息融合系统的研究与实践

摘要

随着信息化进程的推进,多个企业问及企业内部各信息系统进行

产数据交换、整合的需求愈加强烈。但由于信息系统开发的阶段性,许芦多企业内部的数据库应用系统都是分布、独立、异构的系统,在各自

的局域网内形成信息孤岛,无法实现数据共享。这就使得数据集成成为数据库应用领域的一个重要研究课题。于此同时,数字信息量激增,海量数据的产生需要与之相匹配的高效计算能力来处理数据,这使得传统的单机数据集成模式不堪重负。云计算作为一个新型的面向服务的计算模式,很好的适应了数据集成的需求。

本文研究了在云计算环境下,以高效的数据存储管理以及高性能的数据处理为出发点,基于分布式文件存储构建多源异构数据的企业级数据集成应用系统的问题。

在高效数据存储管理方面,提出了一种基于容器的分布式文件存储系统。给出了基于容器的存储模型,定义了模型中文件、容器、存储节点、主节点等基本概念,并描述了集群体系架构;介绍了元数据维护方案、文件标识及文件的访问算法。

在高性能数据处理方面,面对数据集成过程中数据清洗所要求的计算规模与单机的运算能力间存在的巨大差距,针对大数据量小文件的现状,在上述基于容器的分布式文件存储系统的数据管理模式的基础上,研究并设计Yd,文件运用Map/Reduce并行计算模型的解决方

案,将运算分布在集群环境中。

最后,依据上述两点研究设计了多源异构的个人信息数据集成,完成了个人信息融合系统构建,并详细介绍了各模块的功能和工作原理,结合项目真实数据进行了验证。

~.,关键词:分布式文件存储数据集成并行计算Map/Reduce1

RESEARCHONPERSONALINFORN衄ONFUSIONSYSTEM

BASEDONDISTRIBUTEDFILESTORAGE

ABSTRA(了r

◆Followingcompetitionglobalization,thelevelofEnterprise.J

,j

,InformationalizationhasbeenoneofkeyfactorswhichinfluencetheDevelopmentofEnterprises.But,thefeaturesofmanycompaniesandgovernmentdepartments’thedatabaseapplicationsystemsaredistributed,independentandheterogeneoussystems,formedinformationsilosintheirrespectivelocalareanetwork.Thisbecausethedevelopmentoftheseinformationsystemsisphasedcompleted.Inordertosharethevaluableinformation,thedatabetweenvariousinformationsystemsneedtobeexchangedandintegratedwhichmakesdataintegrationanimportantresearchtopicinthefieldofdatabaseapplications.Inthecontextofthemassiveamountsofdata,whichisgrowingatageometricmultiplesspeed,therequirementofdatamanagementanddataprocessinghasbeyondthecapabilityoftraditionalfilesystemlocatedonasinglecomputer.Cloudcomputing,asaservice-orientedcomputingmodel,isa

goodadaptionofdataintegrationneeds.

Inthispaper,bylearninganddrawingonsomeexcellentdistributedfilesystem,IProposedadistributedfilestoragemodelbasedoncontainerto

thelargedatasetswhichcomposedofhugenumberofsmallfiles.manage

Makingthecontainerthebasicunitofreplicationandpositioning,canreducethemeta-databurringsystemrunning,increasesystemscalability;theotherhand,storingdataclusteredcanoptimizethediskstructure.Secondly,facingthegapbetweenthecalculationabilityrequiredbythedatacleaningpr。cessandthecomputingpowero£陀redbythesinglecomputer,Iuse气Map/Reducetodistributethecalculationintheclustercomputingenvironment.

Finally,accordingtotheabovetwofactorsIdesignthepersonalinformationfusionsystemdealingwiththeintegrationofmulti—sourceandheterogeneousdata.Andgivethedetaileddescriptionofthefunctionsandworkingprincipleofeachmodule.

KEYWORDS:DistributedFileStorage,DataIntegration,ParallelComputing、Map/Reduce

目录

第一章绪论…………………………………………………………………………………….1

1.1研究背景……………………………………………………………………………。1

1.1.1数据集成……………………………………………………………………。1

1.1.2分布式文件系统……………………………………………………………….2

1.2研究意义与目的………………………………………………………….:………….21.3研究内容………………………………………………………………………………31.4论文组织结构………………………………………………………………………..3

第二章相关技术……………………………………………………………………………..5

2.1数据集成………………………………………………………………………………5

2.1.1联邦式的数据集成模型……………………………………………………。5

2.1.2基于中间件的数据集成模型………………………………….:……………6

2.1.3数据仓库数据集成模型……………………………………………………。7

2.1.4数据集成模型比较…………………………………………………………。8

2.2分布式文件系统……………………………………………………………………。9

2.2.1NFS…………………………………………………………………………………………………….9

2.2.2AFS…………………………………………………………………………………………………。10”2.2.3Coda………………………………………………………………………………………………….10

2.2.4)‘!FS…………………………………………………………………………………………………..11

2.2.5Lustre………………………………………………………………………………………………..11

2.2.6GoogleFS…………………………………………………………………………………………..12

2.3Map/Reduce并行计算模型…………………………………………………………142.4小结…………………………………………………………………………………………………………….15,

第三章BoC.DFS:基于容器的分布式文件存储系统……………………………………16

3.1BoC.DFS分布式文件存储系统的设计目标………………………………………163.2基于容器的分布式文件系统体系架构……………………………………………16

3.2.1主节点NameNode………………………………………………………….17

3.2.2存储节点DataNode…………………………………………………………18

3.2.3节点间通信………………………………………………………………….18

3.3容器的设计……………………………………………………………………………19

3.3.1容器的来由………………………………………………………………….19

3.3.2容器的定义…………………………………………………………………20

3.3.3容器大小的设定…………………………………………………………….21

3.4文件的标识与两段锁……………………………………………………………….213.5文件的操作方法……………………………………………………………………22

3.5.1读取文件…………………………………………………………………….22

3.5.2更新文件……………………………………………………………………23

3.5.3新建文件……………………………………………………………………。24

3.5.4删除文件…………………………………………………………………….25

3.6本章小结……………………………………………………………………………。25

第四章小文件应用Map/Reduce并行计算模型的解决方案……………………………。264.1数据集成应用系统中原始数据的特点……………………………………………26

4.2

4.3

4.4

4.5文件规模与Map/Reduce效率……………‘………………………………………26现用方案与存在的问题……………………………………………………………。28利用SequenceFile解决方案………………………………………………………。29本章小结……………………………………………………………………………30

基于分布式文件存储的个人信息融合系统………………………………………31

个人信息融合系统介绍……………………………………………………………..31

系统的总体需求………………………………………………………………………31

信息系统数据集成中的难点与要点………………………………………………32

多源异构的个人信息数据集成……………………………………………………33

5.4.1

5.4.2

5.4.3^第五章5.15.25.35.4个人信息数据集成介绍……………………………………………………33个体识别算法………………………………………………………………..33集成目标数据模型…………………………………………………………35~气

5.5

5.6

5.7个人信息融合系统的系统流程……………………………………………………36系统的总体架构……………………………………………………………………37系统各层次功能模块………………………………………………………………。38

5.7.1

5.7.2

5.7.3

5.7.4系统应用层部分……………………………………………………………38系统核心业务层部分………………………………………………………39数据访问服务层部分………………………………………………………40数据存储及管理层部分……………………………………………………40

BoC.DFS类图…………………………………………………………………………………。41

文件的读操作……………………………………………………………….43

文件的写操作………………………………………………………………。44

并行计算部署流程………………………………………………………….46

仓0j塞SequenceFile……………………………………………………………………………..475.8分布式文件管理模块………………………………………………………………415.8.15.8.25.8.35.9并行处理模块………………………………………………………………………465.9.15.9.2

5.9.3

5.9.4

5.9.5

5.9.6读取SequenceFile……………………………………………………………………………..49SequenceFile的输入格式化……………………………………………….51文件类型与InputFormat类图……………………………………………。52Map/Reduce计算Job部署…………………………………………………53

5.10本章小结…………………………………………………………………………54

系统的部署与验证………………………………………………………………….55

现系统结构与原系统结构的比较…………………………………………………55

基于分布式文件存储的个人信息融合系统部署…………………………………56

系统的实验环境……………………………………………………………………57

6.3.1

6.3.2第六章6.16.26.3硬件环境…………………………………………………………………….57软件环境…………………………………………………………………….57

SSH配置…………………………………………………………………………………………。586.4Map/Reduce并行计算环境——.hadoop的配置……………………………………586.4.1

6.4.2

6.4.3Slaves与Master配置………………………………………………………..58NameNode与数据节点的配置……………………………………………。58

6.5

6.6运用并行计算的执行效率对比…………………………………………………….59应用系统展示……………………………………………………………………….59

6.6.1分布式文件系统BoC-DFS………………………………………………….59

6.6.2个人信息融合系统…………………………………………………………61

第七章总结与展望…………………………………………………………………………“参考文献……………………………………………………………………………………………66致谢…………………………………………………………………………………………………………………………….68攻读学位期间发表的学术论文…………………………………………………………………70

图表目录

图2.1联邦数据库系统的体系结构………………………………………………………。5图2-2基于中间件模式数据集成的体系结构……………………………………………..7图2.3数据仓库数据集成模型的体系结构………………………………………………。8图24GFs总体框架图……………………………………………………………………13图2-5Map/Reduce并行计算模型………………………………………………………14图3.1分布式文件系统的体系架构………………………………………………………。17图3.2节点之间的通信……………………………………………………………………18图3.3基于容器的分布式存储模型………………………………………………………20图3_4文件的读取过程…………………………………………………………………….22图3.5文件的更新过程…………………………………………………………………….23图3-6文件的创建过程…………………………………………………………………….24图4.1InputSplit与Block的边界…………………………………………………………………………。27图4.2文件预处理流程……………………………………………………………………28图4—3多源异构小文件应用Map/Reduce解决方案……………………………………29图5-1个人信息融合系统的基本工作流程………………………………………………32图5.2个体识别过程………………………………………………………………………34图5.3目标数据模型图……………………………………………………………………35图5.4个人信息融合系统的系统流程图…………………………………………………36图5.5个人信息融合系统整体架构………………………………………………………。37图5石BoC.DFS类图…………………………………………………………………………………………….41图5-7BoC-DFS中文件读取操作序列图……………………………………………….43图5.8BoC.DFS中文件的写操作序列图………………………………………………。44图5-9Map/Reduce的Job组成………………………………………………………………………………..46图5.10多个小文件合并为SequenceFile的相关类图…………………………………。47表格4.2WholeFileRecordReader类的数据成员属性…………………………………48表格4.3WholeFileRecordReader类的操作方法……………………………………….48表格4—1SmaUFilesToSquenceFileConvert类的操作方法……………………………….49图5.1llnputFormat类图…………………………………………………………………………………………52图5.12Map/Reduce并行计算类图………………………………………………………..53图6.1原个人信息融合系统体系结构……………………………………………………55图6.2基于分布式文件存储的个人信息融合系统体系结构…………………………….55图6-3系统部署图……………………………………………………………………………………………….56表格6-1并行计算与单机环境数据处理时间消耗对比…………………………………59图6_4分布式文件管理主界面…………………………………………………………….60图6-5文件操作下拉菜单………………………………………………………………….60图6-6上传本地文件至分布式文件系统…………………………………………………。61图6—7下载分布式文件系统中文件至本地的系统截图………………………………….61图6-8删除指定目录下的选定文件……………………………………………………….61图6-9个人信息融合系统主界面…………………………………………………………62图6.10个人信息融合系统各功能模块界面展示………………………………………..63

北京邮电大学硕士学位论文基于分布式文件存储的个人信息融合系统的研究与实践

第一章绪论

1.1研究背景

随着计算机在各企业领域的应用,企业、政府建立了各式各样的信息系统,主要以部门级应用为主。各部门、子公司各自负责自己单位的信息系统选型、建设和维护。系统种类繁多,所用的数据库也五花八门。信息孤岛【1】现象随处可见,业务流程支离破碎。如何在浩如烟海的信息数据中获取全面的并且有价值的信息是信息科学在不断发展过程中必须解决的问题。数据集成的任务很明确,首先就是要消除信息孤岛,实现企业层面的统一管理和业务流程的贯通。有效组织如此庞大数据量的文件存储与管理,并在此基础上进行数据挖掘,成为为企业发展提供信息导向的关键。

各式各样的信息系统长期以来运转的最直接后果就是海量数据的产生,发展而来的是数据的泛滥和信息的匮乏。随着信息社会的发展,越来越多的信息被数字化,尤其是伴随着Intemet的发展、Web2.0的广泛应用及社群网络的繁荣,数据呈爆炸式增长,使得企业在进行数据集成过程中面临空前的海量数据管理与处理难题。云计算技术的产生与迅速发展为应对上述难题提供了良好的契机。

在云计算环境下完成数据集成,系统需要解决两大问题:1)提供高效的海量数据存储管理;2)设计应用于云计算平台上的高效并行计算模型。下面论文将从数据集成以及分布式文件系统两个方面介绍研究背景,有关并行计算模型的讨论将在第二章相关技术中进行讨论。

1.1.1数据集成

近几十年来,计算机科学的迅猛发展和信息进程的推进,使得人类社会所积累的信息数据量已经超过了过去5000年的总和。数据的采集、存储、处理和传播的要求也与日俱增。为了使更多的人群更加充分的使用已有的数据资源、减少资料收集、数据采集等的重复劳动与成本消耗,企业迫切的需要实现数据共享。但是,在实施数据共享的过程中,由于不同的用户提供的数据来源与各自不同的途径,其数据内容、数据格式和数据质量千差万别,甚至会出现数据格式无法转变或者格式转变而信息丢失的现象,这使得数据在各部门间的流动与共享。

同时,由于数据的不确定性和动态性以及集成系统在实现技术和物理数据上的紧耦合关系,使得应用要求或者数据物理位置的变化必然导致整个系统的修

北京邮电大学硕士学位论文基于分布式文件存储的个人信息融合系统的研究与实践改。因此,在进行数据集成的过程,我们需要面临如何适应现代社会发展的复杂需求、灵活扩展应用领域、分离实现技术与应用需求,充分描述各种数据源格式以及发布和进行数据交换等严峻问题。

1.1.2分布式文件系统

‘对于各类信息管理系统上所存储的文件,文件大小又基本是比较小的,这是由于系统一般定义某种长度的时间段,将在这区间内的产生的信息存储于一个文件中。大量的文件、大量的输出,对于传统的文件系统来说,意味着带宽、共享性、可用性、可恢复性的诸多问题,本地文件系统由于单个节点本身的局限性,已经很难满足海量数据存取的需要了,所以才有了对分布式文件系统的迫切需求。

早期的分布式文件系统一般以提供标准接口的远程文件访问为目的,在受网络环境,本地磁盘、处理器速度等方面限制的情况下,更多的关注访问的性能和数据的可靠性。这一时期以AFStl5】(Andrew文件系统)、NFSll2】【13】以及在AFS基础上发展而来的Codall9】【刎文件系统为代表。

进入九十年代后,随着互联网和多媒体技术的迅猛发展,对多媒体数据的数据传输的实时性要求越来越迫切;同时大规模的并行计算技术的发展与数据挖掘技术的应用也迫切的学要一种既能支持大容量又可满足高效访问的分布式存储系统。这也促成了xFS文件系统的产生。

网络技术的发展和普及应用极大地推动了网络存储技术的发展,这也促进了分布式文件系统继续向前发展越来越趋于成熟,基于光纤通道的存储区域网络(StorageAreaNetwork)技术和网络附连存储(NetworkAttachedStorage)技术口得到了广泛应用。在这个阶段,单位存储的成本大幅降低。而数据总线带宽、磁盘速度的增长无法满足应用对数据带宽的需求,存储子系统成为计算机系统发展的瓶颈。

1.2研究意义与目的

当今是信息化的时代,谁能够获取最有价值的信息谁就可能够抢占先机击败竞争对手。正因为如此企业的信息化要求越来越迫切,其中很重要的方面是就是企业数据的集成。

本文在云计算环境下,为企业在数据集成中所面临的海量数据存储管理、单机计算效率瓶颈的问题提出了解决途径。基于容器的分布式文件系统,不仅提供了高效的海量数据存储管理服务,而且减少了系统维护代价,提高了系统可伸缩2

北京邮电大学硕士学位论文基于分布式文件存储的个人信息融合系统的研究与实践性。在此基础上,研究并设计了小文件应用通过运用Map/Reduce并行计算模型的解决方案,并将其运用于海量数据集成中的ETL处理。

本文所构建的数据集成系统,不仅可以为企业内部的各种数据资源提供有效的存储管理,还可以高效的完成信息整合进行网络可视化分析,为企业的决策提供支持。

1.3研究内容

本文研究了在分布式文件存储的基础上,构建多源异构的共享个人信息融合的问题。‘

首先,通过对国内外优秀的分布式文件系统的学习借鉴,以高效的文件管理为目的提出了一种基于容器的分布式文件存储模型以及文件的访问方法。

其次,面对数据集成过程中数据清洗所要求的计算规模与单机的运算能力间存在的巨大差距,运用Map/Reduce并行计算模型将运算分布在集群环境中。主要针对大数据量小文件的现状,分析Map/Reduce不适用于小文件的原因,最终在以容器为基本单位存储管理的基础上提出合理的解决方案。

最后,依据上述两点设计并实现了个人信息融合系统的多源异构数据集成模式,完成了该系统构建,详细介绍了各模块的功能和工作原理,用较大的篇幅描述了个人信息融合系统中分布式文件存储、访问方法以及并行计算模型对ETL

处理的支持,最后结合项目真实数据进行了验证。

1.4论文组织结构

本论文的篇章组织结构为:

第一章:绪论。介绍论文的研究背景:研究的意义与目的以及论文的组织结构。

第二章:相关技术介绍。围绕论文的主题分别就三个方面的相关技术进行了介绍:

1)主流的数据集成技术,并对其进行了比较;

2)分布式文件存储技术的发展过程,教具影响力的分布式文件系统;

3)以提高数据集成效率、解决系统瓶颈为目,引出了Map/Reduce并行计算模型的介绍。

第三章:BoC--DFS分布式文件存储模型。以提高分布式文件系统的性能、降低系统消耗为目的,提出了基于容器的分布式文件存储模型。

1)定义了基于容器的分布式文件存储模型;3

北京邮电大学硕士学位论文基于分布式文件存储的个人信息融合系统的研究与实践

2)文件的操作算法;。

3)元数据的维护;

4)容器存储容量的选择。

第四章:小文件应用Map/Reduce并行计算模型的解决方案。为了解决数据集成过程中的计算规模与单机处理能力之间的巨大差距,提出了该计算模型。本章节包含:

1)数据集成应用系统中集成源数据的特点;

2)小文件为何不适宜运用Map/Reduce模型;

3)现今采用的小文件的预处理工作流程;

4)提出了小文件的应用Map/Reduce的解决方案。

第五章:基于分布式文件存储的个人信息融合系统。本章在以上两个章节介绍的基础上,详细介绍了个人融合系统的构建。

1)系统的设计目标;

2)提出了多源异构数据集成算法;

3)系统的总体架构;

4)各功能模块的介绍;

5)着重介绍了分布式文件存储模块已经应用Map/Reduce的并行计算模块。

第六章:系统的部署与验证。

第七章:结束语。对本论文的主要内容做出总结,提出下一步的研究方向。4

北京邮电大学硕士学位论文基于分布式文件存储的个人信息融合系统的研究与实践

第二章相关技术

2.1数据集成

数据集成是把不同来源、格式、特点性质的数据在逻辑上或者物理上有机地集中,从而为企业创建一个具有更加全面的数据共享,更多功能企业应用的过程,是应用集成的关键和基础。这其中包含有两层含义:一为交互,二为集成【勿。“交互"的含义是实现多个异构信息系统间基于消息处理的数据交互;而从“集成”的角度而言,这就要求将来源不同、格式特点不同数据在物理上或者逻辑上有机的集中,为系统存储多形式的面向不同主题的、集成的、相对稳定的、反应历史变数的数据集合,为系统提供全面的数据共享。

2.1.1联邦式的数据集成模型

联邦数据库【231(FDBS)技术是在维持局部成员数据库自治的前提下,在数据集成层次对异构的成员数据库进行部分集成,提供对异构成员数据库的共享、透明访问。联邦的概念是:用户可以像对待一个数据源那样对待多个数据源实施查询和处理【矧。这些数据源可能是同构亦可为异构的数据源,既可是集中的也可以是分散的数据源。

I包

l装

SQL—八\联邦数据库睦

API——_、/

y服务器陋

I装

l器

t主。一o

后台数据源数据词典数据

图2-1联邦数据库系统的体系结构

本文来源:https://www.bwwdw.com/article/ej0j.html

Top