大数据时代数据存储的选择

更新时间:2023-12-30 05:39:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

大数据时代数据存储的选择

摘要:随着科学技术的不断发展与更新,互联网正以高速发展的姿态为人们的日常生活带来极大的改变。在信息技术时代下,各种网络随之兴起,各类型数据以几何级数增长着,数据的规模以及种类、存储形式等正以令人惊叹的速度发展着,这就标志着大数据时代的到来。面对海量数据,如何做好数据存储工作成为数据时代下人们最关心的议题。

关键词:数据时代 数据存储 选择与方法 中图分类号:TP399 文献标识码:A 文章编号:1007-9416(2015)07-0000-00

在上世纪90年代起,互联网高速发展,为信息的传播带来了新的途径,使信息传播速度加快,也创新了信息的存在形式。互联网产物之一的社交网站的兴起,为数据提供发散、共享、收集、传送的平台,使得人们每天都面临着海量的声音、图像、文字等数据,企业每天处理成千上万的统计数据、科学数据、客户数据、市场数据等,各行各业、各行从业人员都需进行数据选择和处理,人们正式迎来大数据时代。

所谓大数据,指的是海量的资料、信息,它所涵盖的资料、信息量规模巨大以致无法使用目前存在的软件在较短时

间内进行提取、处理、分析和输出等环节,但这些资料对个人、企业和行业的发展都有科学、客观的参考价值。 1大数据时代下数据存储的挑战

由于大数据具有规模庞大、增长速度极快、种类繁多等特点,使得大数据的存储成为数据管理的重要挑战。比如著名社交网站Facebook在2007年时的数据存储量达到15TB,但3年后,该网站每天处理压缩过的数据量比过去3年的数据总量还要多,并且在那个时候的行业数据库基本不超过100个节点以上。而如今搜索网站雅虎的Hadoop集群早已在4000个节点以上,Facebook的仓库节点也已经远远超过2700个节点。由此可见,增长速度极快的大数据存储方式的选择成为急需解决的问题。 2 云计算

生活中以几何速度增长的数据实际上像人的身体一样,需要依靠大脑才得以发展,而云计算就是大数据的大脑,通过云计算技术使得数据在存储、备份和分析上才有价值。面对海量增长的网络数据,著名科技公司Google公司在2006年首次提出“云计算”概念,并且通过发表论文等形式将其自行研发的云计算技术、工具和技术演化过程向世人公开,大大地促进了云计算技术的发展,使得GFS、MApReduce、Bigtable等大数据处理技术得到广泛的应用,同时也为大数据的存储提供了更加坚实的技术支持和理论指导。

3大数据时代下数据存储方式的选择 3.1采用高性能的SAN技术存储

面临海量的数据并且这些数据以几何级数在增长,因此进行数据存储和备份首先方式是分布式集群。传统的集群指的是利用物理相邻的两台或几台计算机作为一个整体主机进行操作。而随着光通道技术的不断发展,如今的集群定义已脱离空间的限制,使得计算机能够在更广泛的位置上利用网络技术进行连接。而Storage Area Network技术(简称SAN)是采用分布式集群,与传统的存储方式存在较大的差异。SAN技术是通过光纤通道等高速接口将存储设备和磁盘阵列直接与网络连接起来,并且独自形成一个存储的局域网,而不仅仅是作为服务器或主机的一部分而是成为一个网络。SAN技术能够使得数据的管理更加集中,存储速度更快、更灵活和数据恢复更快,因此SAN技术具有高的数据存储能力、长的数据间的连接、能够共享的存储资源等优势。 3.2利用高操作性的远程数据镜像技术

随着经济的腾飞,金融行业也迎来高速发展的黄金时期,为应对日益增长的业务量,金融证券行业对业务应用系统的要求越来越苛刻。传统的镜像技术和备份技术存在着时空局限性,不能很好地保证快速增长的关键业务的正常和稳定运行,因此需要有更高性能的技术对关键业务的数据进行存储。

进入90年代后,互联网技术得到长足的发展,磁盘阵列和通讯技术在不断地创新中,为解决业务系统提供了很好的技术支持,在此背景下人们把目光放在数据远程镜像备份与恢复技术上。数据远程镜像备份与恢复技术是通过本地与远程控制的磁盘子系统的高智能化进行操作,并借助磁盘阵列技术的发展使得磁盘镜像处理器的符合转移到智能磁盘控制器上。数据远程镜像备份与恢复技术能够很好地实现灾难环境下数据仍能童工远程实时操作进行恢复,减少时间、精力与财力的耗费。一方面,这种技术能够实现异地数据高速、稳定传送,并且使得数据的恢复控制在几分钟内,实现数据零丢失。另一方面,远程数据镜像技术不受空间的影响,在不同空间、不同距离下都能实现数据恢复。 3.3跨平台Push技术存储

目前许多企业都使用多个工作交流平台,而工作平台的使用增加了数据存储和备份的难度。在过去,传统的备份是通过Pull方式的备份软件或是应用系统中自带的备份功能只能实现单机或单一平台主机的数据备份,不能进行跨平台的数据存储和备份,这使得数据难以实现及时的共享与传送。 但随着互联网计算机技术的不断发展,Push技术腾空出世,即通过有机协调不同的平台上的客户端代理程序与备份主机,使相互间的数据Push到备份主机里,从而使得不同平台上的数据实现跨平台存储和集中处理,有效地节省了存储

时间、提高数据的备份效率。

实质上,Push技术是利用客户端代理程序执行网络管理员下达的备份指令,当备份主机接收到管理的指令时,便自动对指令中所需数据进行筛选,再将筛选过后的数据打包好,而客户端同时也对打包好的数据进行再次的过来封包,最后将打包好的资料Push到备份主机上实现跨平台的数据存储。为更好地实现跨平台的数据存储,许多企业推出切实可行的备份软件,如CA公司的ARCserve软件、Legato公司的NetWorker 软件、Seagate公司的Backup Exce软件等. 4结语

在云计算、物联网发展的推动下,数据呈现出爆炸式、几何式的增长态势,人们每天都被海量的数据包围,都需进行大量的数据选择、存储和分析工作,这表明大数据时代已到来,并且大数据正深刻地影响着各行各业的发展、影响着人们的日常生活,对数据的存储带来了极大的挑战。因此,大数据大时代下应积极发展各种数据存储技术、使得海量的数据得到妥善的存储和备份。 参考文献

[1]赵晶.云计算以及云数据管理技术研究[J].电子世界,2013(07).

[2]覃雄派,王会举,李芙蓉,李翠平,陈红,周?@,杜小勇,王珊.数据管理技术的新格局[J].软件学报,2013(02).

[3]Hubert Yoshida.大数据存储平台必须具有弹性[J].微电脑世界,2012(10). 收稿日期:2015-05-19

作者简介:陈士俊(1985―),男,汉族,江苏新沂人,助教,本科,研究方向:信息化建设。

本文来源:https://www.bwwdw.com/article/6f4x.html

Top