阿里巴巴集团去IOE运动的思考与总结

更新时间:2024-01-16 20:26:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

在采用云计算技术之前,运维人员会认为一切尽在掌控之中,可以如数家珍地讲述系统A运行在第X排Y列机柜里的Z主机上,设备已经纳入备采用云计算技术后,运维人员很难讲清楚A系统具体运行在哪个主机上,因为全部采用了设备虚拟化管理,A系统在不同时刻可能处在不同主机份管理,最近设备运行正常,安全上只允许B上。运维人员从静态管理到动态管理的转变。引网段的主机访问。 入了云计算之后,运维的重点将不仅仅是原来管理的设备运行正常,网络畅通,还将关注资源的主动供给、自动配置、可持续性、可追踪的实时配置管理。 传统的运维管理中,为了保证可靠性和伸缩性,云计算环境中运维人员一部分负责物理设备运不仅需要在部署阶段进行支持,而且还需要随时监视应用的运行状态,判断是否存在节点失效或者负载过高等情况。 一旦发生异常,管理员根据事先制定好的工作流程来启动备用的服务器,运行相应的管理脚本来对新的服务器进行配置和初始化等。 转,一部分负责应用相关的监控和管理。定位系统故障不再只是依靠传统的网管手段,需要更深入地通过云计算管理平台以及虚拟设备管理平台,来分析系统的运行效率和故障原因。 在云计算环境中,虚拟机虚拟镜像磁盘文件把基本操作系统、客户需要使用的应用及运行应用所需的中间件等组件一并打包在内,免去了传统环境下为用户进行复杂安装配置的过程,做到开箱即用,实际上成为了企业的虚拟资产。 在云计算实践之前,数据中心的绝大多数应用服云计算技术以后,人们采用新的虚拟化的辅助技务都部署在物理机上,随着物理设备逐渐老化,术(P2V)能够把应用服务与操作系统一起从物理性能逐渐下降,所运行的应用软件的稳定性和可靠性都受到了极大的影响。要把服务迁移到新的系统上会面临很大的风险:一方面是因为开发人员的流动性,当需要迁移服务时,难以找到原开发团队的相关人员;另一方面是软件对新运行环境的兼容性问题,软件所依赖的特定接口或者函数库在新的系统里并不一定兼容。 服务器上迁移到虚拟环境中,管理员不再需要触及与系统紧密整合的应用的相关代码,大大提高了系统迁移的可行性和成功率。 迁移后的服务器,不仅可在一个统一的界面中进行管理,而且借助虚拟机化管理软件,在这些服务器因故障停机时,可以自动切换到网络中其他可替代的虚拟服务器中,从而达到不中断业务的目的。 1

“去IOE”究竟是人为的推动?还是产业发展的必然?

作者: 来源:CNET科技资讯网 时间:2014-04-04 18:34:35 关键字:去IOE

4年前,阿里集团为解决业务快速发展而给IT系统带来的巨大挑战,启动“去IOE”战略时,肯定不会想到,如今“去IOE”在国内已经演变成为一场轰轰烈烈的运动。 所谓的“IOE”,指的是以IBM 、Oracle、EMC为代表的小型机、集中式数据库和高端存储所组成的IT技术架构。其中 I指IBM p系列小型机;O指的是Oracle的数据库(RDBMS);E指的是EMC的中高端 SAN 存储。

而“去IOE”,指的是在企业IT建设中,以开源的数据库软件来替代Oracle的数据库系统,以PC Server替代EMC的存储设备、IBM的小型机,以达到降低成本、使IT架构更加灵活的目的。

可以看到,“去IOE”无非是一种新的IT技术架构和建设思路。对于用户而言,根据自身的业务和IT应用需求,可以选择“去IOE”这一技术架构,也可以采用“IOE”来进行自身IT系统的建设。这本没有是非对错之分,只是看哪一种方式更加适合自己的需求。

不过,从2013年开始,“去IOE”开始逐渐在国内升温,并有逐渐演变为一场“运动”的趋势。在“棱镜门事件”爆发后,“去IOE”更是被一些人上升到国家信息安全层面,认为“去IOE”是保证我国信息安全的一个重要措施,并呼吁用国产IT设备、系统全面取代国外产品。 那么,事实果真如此吗?

“去IOE”的本质究竟是什么?去掉“IOE”之后,是否就真正的实现了信息安全?在“去IOE”运动的背后,又隐含着哪些利益的驱动和推手? 阿里集团的“去IOE”之旅

阿里集团的“去IOE”之旅,始于2009年年底。

2

图 阿里集团去“去IOE”之旅

沃趣科技CEO陈栋,当时曾任阿里集团DBA团队资深经理,可以说亲历了阿里集团“去IOE”的整个过程。在陈栋看来,阿里集团的IT建设似乎经历了一个轮回,“三国演义的卷首有一段经典的话:话说天下大势,分久必合,合久必分。我觉得这段话同样适合IT行业的发展轨迹。”

据陈栋回忆,在2004年时,阿里集团采用的还是PC服务器,但随着企业业务的高速增长,PC服务器所面临的压力越来越大,系统宕机的现象越来越多,此时,PC服务器已经对企业的业务发展带来了影响。

因此,在2005年时,中国互联网界第一台IBM小型机在阿里集团落户,从此阿里数据库都逐渐变成了IBM+Oracle+EMC 的技术架构。之后两年,虽然业务发展很快,但“IOE”架构的稳定性确实得到了很好的体现,系统基本上没有遇到什么问题。 时间到了2008年,突飞猛进的业务压力,使得小型机和高端存储不断扩容,成本压力巨大。“这时我们突然意识到,被绑架了。”陈栋说。

当时,阿里集团正处于业务的高速发展期,特别是淘宝业务的爆炸式增长,对于企业IT系统的计算和存储能力提出了很高的要求。在此之前,阿里集团在IT建设方面采用的是Oracle的数据库、IBM的小型机、EMC的存储设备。众所周知,这些IT产品在价格方面都比较昂贵,如果按照高速增长的计算需求来购买相应的设备和产品,那将是一笔巨大的投入。

另外,像阿里集团这样处于高速成长中的互联网企业,对于IT系统和架构的灵活性要求很高,而“IOE”的产品在产品体系方面相对比较封闭,这就限制了阿里集团自身技术潜力的发挥。

“出任何问题都要找原厂,做一些数据收集或者是开发也只能照原厂。曾经有一次,

3

系统出现了问题,整整一下午我们都束手无策,什么都做不了。”陈栋说道。 而一旦在业务高峰期出现这样的问题,对于阿里集团的影响显然是十分巨大的。 “比如说在双11时,会出现非常极端的一些问题。而这种问题如果要求助于那些厂商,厂商也要拿具体业务数据做定制化的开发,这中间来来回回的时间成本是我们难以承受的。例如阿里双十一凌晨那一瞬间可能几个亿的交易就过去了,而此时如果出现问题,在?IOE?的架构下,我们的工程师到最后除了等待,什么都不能做。所以说?IOE?确实让我们当时的技术面临失控的风险。”阿里技术保障部DBA负责人周宝方曾在演讲中这样介绍道。

周宝方表示,当时阿里集团之所以启“去IOE”战略,主要有几大因素:集中式的严重制约(集中式强大单点远远满足不了阿里特别是当时淘宝爆炸式业务增长应用的模式,这里可分为三个方面,稳定性、跨IDC容灾切换、快速扩容);技术面临失控,创新潜力受限;专用设备规模化场景下诸多限制;成本;安全。

在这种情况下,如何解决这些难题显然就成为阿里集团技术团队的工作重心之一。而在2009年时,随着硬件还是软件都逐步成熟。特别是PC服务器处理能力和性能的提升、开源数据库软件,以及存储技术(MySQL/OceanBase/RDS)、分布式数据处理技术、数据流技术等的成熟,使得阿里集团技术团队认为,可以用开源数据库加PC服务器来代替“IOE”的产品。软硬件技术成熟为“去IOE”奠定基础。

PC服务器CPU计算能力的提升,使得?去IOE?成为可能。2008年1月,英特尔公司发布的Nehalem架构CPU,对于阿里集团实施“去IOE”有着重要的推动作用。“当时,Nehalem架构CPU的单核计算能力已经POWER5处理器相差无几。如果再能够把PC服务器的稳定性控制在可控范围内,那么取代小型机还是有很大的操作性的。”个人计算机每个CPU芯片的处理能力是200MIPS,就是每秒种执行200M也就是两亿次指令, Yahoo!公司报道他们已经实现了有一万个节点(node)就是一万台PC计算机连接的分布式系统,总的处理能力是 2,000,000MIPS,最快的芯片也达不到这个速度,超级计算机所谓的TOP500,达到每秒几百万亿次指令执行,都是采用分布式设计的,世界第一的IBM BlueGene超级计算机采用了32部机架,每部机架部署有768个PowerPC440 CPU。TOP500基本都是使用Linux操作系统

4

的!现在社会和家庭拥有的个人计算机就是PC,只有30%的计算能力被利用,甚至更低,而其余70%的实际上是被闲置的,这些闲置的计算机资源和计算能力只有通过分布式系统才能得到有效的利用,这样可以大大提高一个国家的计算能力,而计算能力是衡量一个国家国力和科学研究能力的指标,这一点现在还没有被国人充分认识到。一个国家和地区的计算能力现在已经成为一种重要的战略资源,不亚于石油和其他战略物资的重要性。

磁盘技术SSD(固态硬盘)的发展,也给“去IOE”提供了很好的支撑。“尤其是Flash技术的出现,我认为在数据库环节上,是一个革命性的发展。同传统的高端存储设备相比,Flash在吞吐速度方面大幅提升,而成本方面却大大降低。”陈栋分析道。丁香园网站CTO冯大辉认为,硬件的进步给技术体系的变迁做好了铺垫。最主要的关键词是SSD(固态硬盘)。而如果没有SSD的技术成熟以及在商业应用上被普遍接受,“去 IOE”几乎是不可能做到的。“要知道机械硬盘存储的性能数十年几乎没得到什么大的改进。但 SSD 相比机械硬盘来说,则是质的飞跃。每年做 I/O 容量规划的时候都会发愁,因为即使已经使用上了很高端的 EMC 存储设备,但实际上只要应用层 I/O 没有命中到存储内存,直接打到后面的磁盘上,几乎没什么抵抗能力。比如当时一个硬盘极限能撑 100 多个 I/O,100 块硬盘也不过是万把个 I/O 就不行了。 但这样的 I/O?打击?对 SSD 来说,则不是什么大问题。SSD 给解决IOE体系最大的瓶颈 – I/O 能力提供了硬件先决条件。”

开源软件MySQL的迅速成熟也给“去IOE”提供了有力的保障。最近几年MySQL体系的软件进步是相当惊人的,各种经过验证的解决方案成熟。不少知名互联网公司(比如 Facebook)在使用MySQL的同时也将其技术改进回馈给技术社区,把技术方案分享给业界,业界在吸收这些技术的同时再次回馈给技术社区,形成正向的反馈,极大地提升了开源软件在商业领域的竞争力。

2010年1月开始阿里集团启动了“去IOE”战略。是逐步尝试和替代的过程。

5

最初的尝试是从淘宝开始的,首先是实现商品库Oracle数据库的读写分离,“从2009年开始,我们就尝试把一些不重要的业务迁移到MySQL上,核心业务开始梳理接口,为未来迁移到MySQL做到分库分表做准备,同时培养MySQL 人才 。”

之后是尝试去掉小型机,到2011年7月,在启动“去IOE”战略一年多之后,淘宝的商品库实现了“去IOE”。“2011年时,淘宝最核心的用户中心、商品完成从集中式到分布式的迁移,连交易系统也开始向MySQL迁移。”陈栋说。之后3年多时间,阿里集团开始在内部全面推行“去IOE”。

2013年5月,阿里集团最后一台IBM小机在支付宝下线。两个月之后,淘宝重中之重的广告系统使用的Oracle数据库下线,这是淘宝最后一个Oracle数据库。 “现在,整个阿里集团全面去掉了小型机和高端存储,数据库全部运行在PC服务器上,配置SSD或者PCIe Flash 。除了支付宝核心账务系统依然使用Oracle数据库,其他所有核心在线业务全部使用分布式MySQL 数据库。”陈栋介绍说。

而在周宝方看来,通过“去IOE”,阿里集团获得了很多的收益。比如,真正的技术团队会为此成长起来,另外成本可以控制在很低。系统和应用的架构可以做得足够开放灵活,能应对足够大的挑战。这样,阿里的很多技术都能积累起来,整体的框架和技术更多是自主可控的,不需要被很多技术左右。同时,在安全层面也可以相对有所提高。事实上,自阿里“去IOE”以来,目前已逐渐形成了自己的一个MySQL分支,做了深度的虚拟化,已有近万台服务器,而且还在疯狂增长,而由于目前多数核心数据存储在MySQL上,一些核心的数据和应用也正在往OceanBase迁移。这代表阿里基本具备不被任何商业技术绑架的能力。

表1 Oracle数据库与MySQL数据库对比

6

“去IOE”与国家信息安全

从技术层面还是从经济层面来衡量,阿里集团的“去IOE”都是十分成功的。也正是因为阿里集团的成功,使得“去IOE”被越来越多的人提起,很多行业用户也开始将目光聚焦于“去IOE”上。此时绝大多数用户对于“去IOE”的关注点还主要集中在技术路线和成本、灵活性等方面。

2013年6月,“棱镜门”事件爆发后,各国政府对于信息安全高度重视,而此时,“去IOE”也似乎又有了新的内涵。有人将“去IOE”上升到国家信息安全层面,认为采用“IOE”产品,会给国家信息安全带来很大的隐患。因此,应该用国内厂商的产品来全面取代“IOE”产品。

北京汇金科技股份有限公司副总裁 王舜林:“应该细分析,?去IOE?的本质是什么?对国内用户、IT服务商,乃至国内IT产业的发展都有很大的价值。”

“在一些关键行业和领域,例如银行、电信、政府、电力等,应该全面推行?去IOE?,用国产软硬件产品来替代?IOE?产品。”一位国内IT企业负责人如是说道。在他看来,“去IOE”应该被视为是一项国家战略,“因为,国家安全高于一切。” 那么,“去IOE”和保卫国家信息安全是否有直接的关系呢?

在陈栋看来,这绝对是个伪命题。“?去IOE?和国家信息安全根本就没有直接的联系。去了?IOE?就意味着安全吗?未必如此。”

事实上,即便是全面实现了“去IOE”,使用国产的产品来代替。但实际上,底层的芯片和技术仍然不是中国自己的。因此从某种程度上而言,所谓的通过“去IOE”来保卫国家信息安全,只是“换汤不换药”而已。

对于“去IOE”这样一个口号,苏州悦果互动信息技术有限公司执行董事王甲佳就表示了明确的反对。在他看来,目前这种逐渐向运动演变的趋势是很危险的,也带有很多情绪化的色彩。“我们更应该从商业需求的角度出发来看待?去IOE?,而不是凭着感觉或情绪,来进行判断。”

7

南瑞集团公司信通项目管理中心副主任杨华飞也认为,对于“去IOE”,应该理性看,不是单纯的将?IOE?妖魔化,走向一个极端。“要从用户的需求出发,看看为什么要?去IOE???去IOE?究竟能够给企业带来哪些好处和价值?这是在谈?去IOE?时应该做的。”

在冯大辉看来,在出现阿里这个成功案例之后,技术圈很是震动,曾经一度讨论热烈,随后则是国内产业界对此出现了一些跟风的倾向,不少公司则打着国产软件的旗号出来蒙人,这是值得警惕的。而且,去掉 Oracle 不意味着就要采用国产的数据库,因为 MySQL 以及衍生的各种分支数据库才是最佳选择。同样,不用 IBM 的小型机也不意味着国产服务器就迎来新机会,在用户那里,适合的解决方案才是最重要的。“去 IOE”不应该成为一个噱头。应该以自己的实际需求为前提,不能本末倒置。 “去IOE”源自于企业需求

“去IOE”的本质到底是什么?“是否?去IOE?,其实就是两种不同的IT体系架构和建设思路。”中科软科技股份有限公司总裁左春说。

左春所说的两种IT体系架构,其实指的就是:Scale-Up(纵向扩展)和Scale-Out(横向扩展)。在传统的IT建设模式下,用户更关注单机的性能和稳定性,尤其是在运行一些核心和关键应用时,对于性能和稳定性的要求更高,所以企业会花大价钱,购买功能最强、运行最稳定的设备和软件。这种模式,通常称之为集中式的单点系统架构,即Scale-Up架构。而阿里集团所推行的“去IOE”,实际上就是通过云计算技术,将多台PC服务器形成集群,并加之以开源数据库、分布式存储,来实现计算、存储能力的扩展。而这种模式,也被称之为分布式的并行集群架构,即Scale-Out架构。

可以看到,这是两种不同的IT建设思路和模式。事实上,从技术上而言,可能有新旧,但从需求角度而言,并没有对错之分。因此,“去IOE”的本质其实就是企业按照自身的需求,对不同IT技术架构的一种选择。

在王舜林看来,这两种建设思路和技术路线并非是指谁取代谁,而是用户出于自身发展需求而做出的选择。

8

表2 高端存储VS Flash技术 “去IOE”:不仅仅是降低成本

在谈到去IOE时,是无法和企业的需求割裂开来的。那么,“去IOE”究竟能给企业带来怎样的好处?

在大多数人看来,“去IOE”带来的最直接的好处无疑是成本上的节省。确实,成本上的节省是最能够直接看到的。从购买成本上而言,“去IOE”带来的节省确实是十分巨大的。

陈栋给记者算了一笔账,他们曾经为上海的一家企业做过“去IOE”方面的服务。在?去IO?之前,该企业采用的是Oracle的数据库、小型机和高端存储设备,系统、设备成本大约在一千八百万人民币左右,再加上厂商收取的每年20%的维保费,成本大约在两千万人民币左右。而如果采用了分布式的架构,去“IO”之后,只要一、两百万人民币的费用就能让系统运转起来,在性能方面至少提升5倍以上。

成本的节省并不是阿里集团开展“去IOE”的最根本原因。如果考虑到系统迁移后的总体成本,包括:新硬件成本、开发人员成本、运维成本、时间成本等等,整体计算下来,未必能有太多的节省。

“去IOE”给阿里集团带来的最大价值在于不仅避免了厂商的技术绑定,同时也让企业对于自身的技术发展和应用有了更强的把控力。这对于如阿里集团这类业务发展十分快速的互联网企业而言,显然具有很重要的意义,即企业可以根据自身业务发展的需求,随时对IT系统进行灵活地扩展和开发,而且通过不断地技术积累和储备,保持自身在技术方面的领先性。

9

阿里巴巴集团首席技术官、阿里云总裁王坚就曾坦言,其最怕将“去IOE”的原因归结到两个极端:一是单纯变为企业成本问题,二是简单地变成一个是否用国外产品和技术的问题去讨论,“成本降低是?去IOE?最先能够看到的,但最根本的原因是在互联网时代,不只是互联网企业,绝大部分企业对计算需求难以通过IOE提供的技术来满足了,?IOE?约束了企业长远的发展;技术路径上依赖于专用的硬件设备比较危险,随处可以买到的Commodity PC的架构长远来讲对于阿里和大多数企业则是最安全的。对于成本,我想说今天所有讲的开源技术只解决了软件使用成本的问题,而忽略了开源软件的升级和维护成本。”

“去?IOE?整个架构体系赋予了阿里非常灵活的技术架构,类似像在双11这样非常残酷的业务促销时,现在我们都能很淡定地做业务的扩容。”周宝方曾如是说。 随着企业对于IT技术的依赖性越来越强,企业在IT应用和技术方面的领先,很多时候会转化成为市场和业务竞争方面的优势。这也是为什么阿里集团“去IOE”成功后,很多企业用户也想效仿的重要原因之一。 “去IOE”升温

“2014年,会有更多的企业开始?去IOE?。”冯大辉曾这样写道。对于这一点,陈栋则有着更为直接的感受,“去年很多企业是在谈?去IOE?,但并没有太多的实际动作。而今年则有很大改变,很多企业已经开始立项,并且找一两个合适的场景来进行尝试。”对于陈栋和其所在的沃趣科技而言,每年的1月份一般是业务的淡季。但2014年1月,由于“去IOE”的升温,让他们比平时更加忙碌。

杨华飞看来,“去IOE”确实是目前企业IT建设的一个方向。“主要是为了让企业的IT应用更加自主可控。”

确实,以Oracle的数据库为例,很多国内大型企业用户采用的都是Oracke的数据库。一位行业用户IT负责人告诉记者,今年在询问数据库产品的招标价格时,Oracle数据库的价格一下提升了60%,而且是一口价,“如果购买的话,觉得价格提升这么多,不甘心。不买的话,企业的应用都是在Oracle数据库的基础上开发的。这让我们很不舒服,感觉就像吃了苍蝇一样。”该负责人介绍,现在他们已经在开始尝试“去

10

IOE”了,“新开发的系统完全不允许再绑定数据库开发,一定要基于统一平台,另外在数据库方面,今年也会购买一些国产的数据库系统。”可以看到,“去IOE”已经成为一种趋势。不过,企业在尝试“去IOE”时,仍需认识到“去IOE”并非万能。 “去IOE”并非万能

周宝方就曾表示,“去IOE”水很深风险很大,并非所有企业都适合“去IOE”,“现在网上有很多人说开源如何的好,在我们看来开源只是解决了你入水的时候零成本的问题,当后期要驾驭它的时候,会面临很高的运维以及发展成本。这需要很强的技术团队才能帮助你完成,如果你没有做好准备之前,不要轻易的?去IOE?。”

在“去IOE”的过程中,会面临很多技术上的难题。阿里集团有一个庞大的技术团队作为支撑。“仅DBA团队就有超过100名的技术人员,而整个IT技术团队更是达到5000人以上。”陈栋介绍说。

在“去IOE”过程中,阿里集团仍遇到了很多的技术挑战,例如在数据迁移方面:包括异构数据迁移,全量怎么迁移?增量怎么迁移?怎样才能无缝升级?数据路由方面:如何屏蔽分表给应用带来的复杂性?如何解决多维度查询?如何解决跨分表查询?数据同步方面:搜索、数据仓库、其他业务方都有数据导出需求,如何实现实时同步,并且只同步一次?在分布式事务方面,一个事务涉及到两张不同纬度的表该怎么办?一个事务涉及到两个分库该怎么办?另外,在规模化运维方面,如跨库数据订正怎么解决?DDL的问题怎么处理等这类日常运维工作,如何应对从一台到几千台的运维量变,监控、告警怎么搞?如何应对更多的业务需求变化?开发能否对DB的操作实现自助?

绝大多数企业如果遇到这些技术挑战,结局都不会太好。因此,“去IOE”对于企业而言,必须要有一定的技术积累和储备,否则很难取得良好的效果。

在“去IOE”过程中,开源软件的应用时十分重要的标志之一。开源软件与商业软件之间的一个重要区别是:开源软件是一个基本上不成熟的框架,后期需要企业与相关业务去磨合,如果碰到缺陷更没有厂商对技术提供支持。

如果没有强有力的技术团队作为支撑,冒然采用开源软件,在使用初期确实能够节省

11

大量成本,但随着企业业务的发展,一旦需要进行升级或技术更新时,企业将面临非常大的风险。在“去IOE”开展初期,阿里集团就曾多次尝试从Oracle数据库迁移到MySQL,都失败了,原因就是懂MySQL DBA技术的人才极少。以阿里集团的实力会遇到这样的问题,其他用户“去IOE”的难度之大可想而知。

企业在“去IOE”过程中,还需要注意的是:并非所有的业务场景都适合“去IOE”,企业要对自己的业务需求进行仔细的分析。

“互联网企业的业务场景相对比较简单,比较适合?去IOE?的体系架构,但很多传统行业的业务场景十分复杂,这时就不太适合?去IOE?。除非能够找到一些类似互联网业务的应用场景,否则传统行业用户不要轻易的?去IOE?。”陈栋说,沃趣科技和一些用户交流时,经常会遇到类似的情况。“在和某金融行业用户交流时,用户认为所有的业务都可以?去IOE?。但经过我们的分析后,用户知道了哪些业务场景适合?去IOE?。例如,该用户开展的网上车险业务,就与互联网公司的业务场景十分类似,很适合?去IOE?。核心业务场景是属于实时交易类的,就不太适合?去IOE?。因此,企业?去IOE?要从业务需求出发,看看适不适合做,做到什么程度?”

在陈栋看来,对于传统行业用户而言,目前“去IE”相对容易实现,但“去O”还是有很大难度的。

以金融行业为例,目前国内就难以找到让客户满意又能替代Oracle的产品。原因其实很简单,传统企业IT基础架构不是很完善,缺乏最佳实践,还经常面临捉襟见肘的局面,如果冒然替换,起不到成本降低的要求,低效的工作会让自己的用户无法满足。另外一个问题,Oracle集成体系在传统行业已经根深蒂固,几乎渗透到金融业、运输业、电信业、连锁业等等,客户也是在这个过程中形成了一种依赖。 “去IOE”带来发展契机

“去IOE”背后,折射出国内IT厂商的一种无奈。当问及如果全面推行“去IOE”,国产IT厂商是否准备好了?国产IT产品是否能够替代“IOE”的产品?最终得到的答案几乎惊人的一致,大家都认为还没有准备好。西安一家企业的CIO是国产IT产品的坚定支持者,在企业内也采用了很多的国产IT产品,但最后的结果令他十分失望,“经

12

常出现各种问题,没办法,我们只好不断地重启系统:防火墙重启、交换机重启、业务系统重启。我很希望国产IT产品能顶上来。”

即便是全面推行“去IOE”,市场出现了新的机会,但如果国产的IT产品自身实力方面达不到要求,那么也只能看着机会从身边流失。对于国内IT企业而言,现阶段最重要的不是想着如何鼓吹“去IOE”、如何从“去IOE”中获取更多的利益,而应该是从如何提升自身实力入手,不断增强企业的核心竞争力。

“通过?去IOE?,可以给国内IT厂商提供一个发展的契机。一些企业看到了“去IOE”带来的机会,沃趣科技由原阿里集团DBA/SA团队的几位技术骨干创立而成,2012年,陈栋捕捉到了国内用户对于“去IOE”的迫切需求,认为这将是一个快速增长的市场,因此在当年6月成立了沃趣科技。“围绕着用户?去IOE?的每个阶段,提供相应的产品和服务支持。”陈栋介绍道。

沃趣科技已经为国内一些大型企业提供了“去IOE方面的服务。沃趣科技还推出了QData数据库一体机。这是一款基于X86硬件架构下的高性能数据库整体解决方案,通过将Oracle数据库、PC Server、Flash技术整合在一起,提供高可用、高性能、可扩展的数据库服务,适用于OLTP和OLAP各种应用场景。“QData所有的硬件都是开放的,服务器、Infiniband交换机、Flash高性能存储卡,客户都可以自己选购,并且可以根据自身的需求对计算性能和存储容量进行规划配置,也可以交给沃趣科技进行统一集成。”陈栋介绍说,QData的核心是其中的QLink,这是完全由沃趣科技自主研发的一款管理软件,可以帮助客户解决使用中遇到的任何问题,“所以QData的优势在于,以50%的成本提供5到10倍于传统架构的性能,提供100%的稳定性以及120%的整体服务。”

除了针对Oracle数据库的一体机之外,沃趣科技还将计划推出针对MySQL的一体机QData for MySQL。陈栋透露,QData for MySQL目前已经完成了技术原型,下一步将在自动化方面进行完善。

“这个产品的初衷,主要是为了解决MySQL用户担心的主备数据不一致问题,也解决了一主多从架构主库的单点问题。主备库可自动完成故障判断与切换。对于一主多从架构,主库切换后对所有从库透明可继续复制。另外,可嵌入Flash硬件技术提升

13

性能,做到高可用和高性能的平衡。”陈栋表示,QData for MySQL特别适合对数据安全性有较高要求的MySQL用户,或者初次尝试使用MySQL的用户,可以帮助他们降低很多风险,争取更多时间积累经验。

可以预见在未来相当一段时间内,“去IOE”将会成为国内用户在进行IT建设时十分重要的一个选择。从封闭走向开放,也是整个IT产业发展的大势所趋。即便是“去IOE”的主要对象:IBM的小型机,在最近几年里,也正在积极与开源结合,逐步走向开放。因此,对于国内IT企业和用户而言,不要将目光仅放在“去IOE”这个名字上,也不要纠缠于抵制哪些国外厂商的产品和方案,而是要从自身的需求出发,融合新的IT技术和趋势,为自己的发展提供更有力的技术支撑和驱动,这才是“去IOE”的真正价值所在。

斯诺登事件,只是去IOE化的导火索之一

2013年6月,前中情局(CIA)职员爱德华?斯诺登将两份绝密资料交给英国《卫报》和美国《华盛顿邮报》,披露了令举世震惊的“棱镜”项目。信息安全成为任何国家和组织都异常关注的问题,而摆脱国际巨头的控制——去IOE化成为一种时髦的提法。

从概念上来讲,去IOE指的是去掉IBM的小型机、Oracle数据库、EMC存储设备,代之以自己在开源软件基础上开发的系统,实际上就是指硬件和操作系统的进一步标准化。

但进一步,IT基础设施不仅包括服务器、数据库和存储,还包括网络设备、安全设备等,这些设备也在逐渐走向标准化,SDN的概念已经热遍整个行业,思科和瞻博(Juniper)等网络设备巨头也面临着被颠覆的危险。

14

去IOE化的概念从去年斯诺登事件以后,以国家信息安全的名义在国内迅速发酵,但显然这个原因不能回答整个行业变化的全部,毕竟在美国这个趋势更加明显,去年轰动业界的IBM在CIA的合同竞标中败于亚马逊一案,可算是一个标志性的事件,美国政府机构也开始使用云服务,传统IT巨头提供整体解决方案的模式逐渐走向没落。于是我们开始探究去IOE化的驱动力究竟在哪里?

准确理解“去IOE”

腾讯云平台部总经理陈磊对这个热炒的概念有自己的看法:“实际上,去IOE化更多的只是一个概念和口号,而采用分布式云计算是一个真实的潮流。同时,我们可以看到IOE正在主动变革转型,推出基于云的软件服务,特别是SaaS服务,这样就能够有效地解决客户的很多业务问题。IOE和云本质上是不矛盾的,IBM的小型机、Oracle数据库、EMC存储设备对于很多企业有着明确的价值。”

阿里云计算业务总经理陈金培表示,他最怕的是将去IOE理解为两个极端,一是单纯变为企业的成本问题,二是简单地变成一个是否用国外产品和技术的问题去讨论。他认为,降低成本是去IOE最先能够看到的,但根本的原因是在互联网时代,不只是互联网企业,绝大部分的企业对计算的需求难以通过IOE提供的技术来满足,IOE约束了企业的长远发展,12306是一个典型的例子,而且在技术路径上依赖于专用的硬件设备也比较危险。

“IOE是软件时代或是?买计算机?时代的产物,到云计算时代,则变成了买?计算?的时代,去IOE最好的解决方案是采用云计算,而不是去买一台新的机器替代掉原来的机器。而且还要警惕私有云的提法,因为?私有云?实际上就是传统虚拟化解决方案改头换面,新瓶装旧酒,就是为了卖产品和方案给企业,只有公有云是真正意义上的云计算,而云计算的本质是用互联网。”作为国内云平台的鼓吹者,阿里云总经理陈金培观点异常鲜明。

按照陈金培的意思,云计算不单单是降低成本,提高计算性能那么简单,而是一种思维方式的剧变。显然,去IOE化就是以互联网的服务模式来颠覆原有IT厂商的商业模式。互联网厂商从来都是服务提供商,而不是销售具体的软硬件产品,用卖服务的方式把原有销售解决方案的模式颠覆掉,会给整个行业带来巨大的变化。所以我们看

15

到国内外提供云计算服务的服务商几乎都是互联网巨头,而传统IT巨头则显得态度暧昧,即使推出云计算平台,也是私有云为主,而微软则大力推混合云概念。

说到此,我们可以下定论:去IOE化运动就是互联网企业颠覆传统IT解决方案供应商的一种体现。

国内云计算市场的现状与主要角色

现在国内市场上有七类企业在这个市场上竞争:1、国内互联网巨头,以BAT为代表。2、原有的IDC厂商,比如世纪互联。3、电信运营商,也就是移动联通电信那三家了。4、国内的软件厂商,比如金蝶、用友。5、国内硬件设备厂商,比如华为、浪潮。6、国际厂商,现在进来的就亚马逊和微软。7、国内的创业公司,以UCloud和青云为代表。

按照业内人士的说法,2、3、4类厂商可以认为是打酱油的,他们根本没有技术能力来提供云计算服务。硬件厂商是被颠覆的对象,在推广云计算服务过程中会异常矛盾,所以他们也不会有前途。国际巨头亚马逊和微软来势汹汹,技术和资源绝对没问题,但云计算服务也是典型的服务行业,他们对于国内市场的特殊情况根本没有什么了解;由于技术研发人员主要在国外,而对国内客户个性需求的响应也会比较慢;而且由于是和国内合作伙伴技术合作的方式落地国内市场,合作中的摩擦和扯皮也是无法避免的,所以业内一致不看好他们在国内市场的前景。业内资深人士UCloud CEO季昕华认为:“他们会和其他国外互联网巨头一样在中国市场边缘化,但他们对国内市场带来的明星示范效应对云计算市场的发展会非常有益。”

被部分人士认为有机会在国内市场做起来的只有国内互联网巨头和国内创业公司,这与国外成熟市场的情况类似。只不过美国的市场集中度已经非常高,创业公司成为行业巨头的机会已经基本没有了,被巨头收购成为最好的归宿,比如去年IBM 用20亿美元收购了公有云服务商Softlayer。国内由于市场的特殊性,创业公司或许还有机会,近期UCloud和青云都获得了规模较大的早期风险投资。显然资本市场对他们的前景还是比较看好,即使他们无法成长为这个市场的巨头,也可以被行业巨头所收购而获得巨大的投资回报,国外的案例已经比比皆是。

16

现在国内云计算市场最大的供应商当然是阿里云,在客户数量和客户类型,以及整体收入方面都遥遥领先于国内的竞争对手。阿里巴巴作为国内电子商务的巨头同时也成为云计算市场的领头羊,似乎与亚马逊有异曲同工之妙。关于这个巧合,季昕华认为这个与他们的商业模式类似是有关的,因为电子商务本身的毛利很低,而峰谷间的业务数量会有巨大落差,造成了计算能力的巨大富余,这是亚马逊大力进军云计算市场的动力。阿里巴巴也是做电子商务出身,业务利润相对也不高,所以有动力去做云计算服务,而国内另外两个巨头百度和腾讯原有的业务毛利都很高,云计算服务的利润率对他们没有太大的吸引力,所以在业务推进方面没有阿里巴巴那么积极,再加上阿里巴巴超强的市场宣传能力,给人的感觉似乎是阿里云一家独大。

但云计算市场今后会成为战略市场,另外两个互联网巨头百度和腾讯肯定也不会忽视这个有巨大前景的市场。当然他们的市场策略和技术策略都会有很大不同。

首先说说百度,它以搜索起家,提供PaaS服务,他们称为BAE,而针对现在最热门的移动应用,他们还提供非常新潮的移动Baas(后端作为服务)服务Frontia,给移动应用开发人员带来极大的便利,所以现在百度开放云服务主要针对的客户是中小开发者,可以为创业团队提供全流程化的服务与资源支持。但是谷歌的PaaS服务相比亚马逊的IaaS服务不那么成功,主要还是IaaS的自由度更大,如果公司成长到一定规模还是希望能够自己掌控自己的应用平台,所以最近谷歌的Google Compute Engine(谷歌计算引擎,即GCE)正式展开商用。作为一种IaaS服务,GCE将直接向亚马逊的AWS、微软的Windows Azure以及IBM的SoftLayer发起挑战。百度没有透露他们是否也会推出IaaS服务,但显然只提供PaaS服务是不够的。

腾讯云服务的特点是与他们本身的业务紧密结合——开发和部署了微信云和游戏云。微信云主要为使用公众账号的企业服务,也算是一种PaaS服务,可以让传统企业很容易得使用公众账号服务客户,还向使用微信云的企业提供大数据分析能力。目前腾讯自身的游戏业务正在逐步转移进入游戏云。而且企业加入游戏云后,除了运维层面可以享受到腾讯在游戏业务中的分析服务,还可以获取渠道资源方面的诸多倾斜。主攻游戏云市场显然是个高明的决定,因为这些企业对后台技术的渴求度以及支付能力都是互联网行业中最强的,同时腾讯原来就自己运营游戏,对游戏本身的需求会理解比较深,比如IO速度要求较高等。而与腾讯渊源颇深的UCloud也将主要精力放在游戏云市场,和巨头相比,初创企业只能选择差异化竞争。

17

单单看后台的基础和能力,腾讯的优势是实时和可靠的在线服务。腾讯QQ和微信立足通讯,理论上都需要电信级别的健壮。腾讯自称QQ和微信可以做到服务永远不中断,健壮、容灾、负载能力就是他们的优势。百度的技术优势则是分布式计算能力,不论是扒取海量内容还是响应并发请求。而阿里基于电商的技术特长则是并发事务的处理,对事务状态的控制、交易安全的控制等。这些在其提供的云服务矩阵中也有所体现。正是由于各自出身业务类型不同,三家在技术上各有所长。

从以上的分析可以看出这三家的云服务的客户主要针对的是信息化能力相对较弱的传统企业和没有能力大规模投入基础设施建设的初创企业,他们对低成本高效益的云计算模式是需求最旺盛的。比如最近的阿里云和美的的战略合作,就让美的这家传统家电企业通过使用云平台服务瞬间变身成为智能家电供应商,而美的这样的传统制造型企业本身是无法提供智能家居物联网服务所需大数据处理能力的。

云计算可以让一家传统公司变成一家互联网公司,也可以让小公司具备与大公司竞争的实力。这样的案例不胜枚举,几已成互联网创业常识。从投资效率来计算,云计算模式肯定完胜传统购买软硬件系统模式。所以现在很多投资人已经开始和阿里云合作,一方面确认所投资公司使用云服务以降低投资成本,同时经过标的企业授权还可以获得真实的运营数据,避免被欺骗的风险。云服务不仅降低了成本,还提高了企业信息的透明度。

云计算平台走向开源

开源的概念在中国并不普及,但是开源软件实际上已经成为整个互联网的基础,我们享受到所有的互联网服务都离不开开源软件的支持,现在使用的移动设备其实绝大部分也是基于开源的操作系统(IOS的内核也是开源的)。而更加代表互联网精神的云计算显然也必然会走开源的道路。

谈到开源系统和商用系统的优缺点比较,陈磊认为:“目前OpenStack、CloudStack、Eucalyptus、OpenNebula四大开源云平台在云市场里确实很受关注。总体来看,所有的开源IaaS云平台在分层上做得都比较好;在SOA/组件化/解耦,框架和插件的设计和开发上,目前也在逐步完善,我们已经能够看到开发人员可以很容易地参与多个组

18

件的开发。但和商业化系统相比,开源云平台还需要时间来证明其在持续运营中可用性、稳定性和易用性方面的能力。开源软件的运营规模与亚马逊等商用云还有差距;在海量应用环境下的性能和稳定性还有待考察;另外,开源软件解决不了一些基础架构的问题,比如互联网网络的联通性和性能。但必须承认的是,云平台的软件开源是大势所趋。”

国际巨头微软此前对开源的态度摇摆不明,但对Windows Azure开源的措施则态度明朗,而且最近微软专门成立了名字为“开放”的子公司,致力于在微软和非微软技术之间搭建桥梁。Windows Azure对开源的支持主要体现在两个方面:第一,在Windows Azure上可以部署和运行虚拟机,支持开源操作系统,也支持在Windows和开源操作系统上运行各类开源软件以及开源数据库等。第二,Windows Azure对开源的支持体现在对于开源开发的支持,目前支持流行的开源编程语言如Java、Node.js、Ruby、Python。Windows Azure SDK自身也是开源的,而且Windows Azure内部也用到了一些开源产品。显然,原本对待开源软件态度最强硬的微软也已经低下了高贵的头,开始拥抱开源,这是具有里程碑意义的事件。

由于腾讯的风格一向比较低调,他们极少在外面透露他们的内部系统细节,但据了解他们也曾经咨询过OpenStack相关技术问题,希望能够用于搭建自己的云平台,只是限于当时对于OpenStack的了解和掌握有限,相比腾讯内部规模来说也是一个不小的挑战,所以不了了之,但随着开源系统的不断成熟,从陈磊的回答中可以看出他们肯定还会考虑开源系统的。

据介绍,针对外部需求的特点,百度把一些很常用、很好用的开源服务引入到百度的云平台,比如各种开源的Web Server、MySQL、MongoDB、Redis等。现在BAE3.0是国内第一个采用开源Linux容器引擎Docker为基础的PaaS平台。所以,实际上百度云的PaaS系统就是构建于开源系统建立的。

阿里云最早也是采用甲骨文数据库的,现在他们已经完全迁移到开源数据库My SQL上,今年他们希望迁移到阿里自己研发的关系数据库OceanBase上。而根据网上爆出的消息,阿里云梯1(国内最大Hadoop集群)下线已经进入倒计时,取而代之的是阿里云自己开发的飞天系统为基础的云梯2系统,云梯2用C++重写并改良hadoop,

19

在性能上超出云梯1,而且拥有更多的自主知识产权。阿里云似乎在去IOE化以后又开始去开源化,这个似乎与世界的潮流不符啊!

据业内人士透露,阿里确实深受现有Hadoop版本之苦,由于不是Hadoop项目管理委员会的成员,Hadoop开源社区的发展并不受阿里的控制和影响,这使得阿里不能很好地定制Hadoop,在研发上受制颇多。于是阿里选择了完全自己重新开发系统而不是跟着开源社区玩。一方面显示了阿里开发能力足够强,但也暴露了中国企业在参与开源社区开发过程中的经验匮乏。

OpenStack基金会目前唯一的一位华人董事、中国OpenStack用户组管理员杜玉杰认为:“相对二十年前的开源项目来说,如今的很多大型开源项目背后都是以企业为主导的一种社会化研发方式,而国内企业在参与社区和主导开源项目开发方面仍在不断尝试中。一方面很多开源项目背后都是由国外企业所主导,而另一方面国内开源社区的生态尚不成熟,影响或限制了国内厂商通过开源社区的方式研发此类系统。”据他介绍,其实现在开源社区早就不再是个人英雄主义时代,企业也越来越意识到参与社区的重要性,所以各类技术企业都在以自己的方式影响和参与社区的发展,比如说通过成为基金会的会员等方式来参与和主导社区发展,从某种意义上来说各种开源基金会已经成为企业之间互相博弈协商的场所。国内的硬件巨头华为已经正式加入了OpenStack基金会,成为OpenStack基金会黄金会员,但由于进入比较晚,提升自己在社区中的贡献度和影响力还需要时间。

比如当年IBM等传统IT巨头对Linux的大力支持使Linux真正能够进入企业级市场,进而对整个操作系统市场产生了决定性的影响,借助开源系统的反击,大大延缓了微软进攻的步伐。今天这一幕重新上演了,IBM 现在对jQuery、Cloud Foundry、OpenStack等开源组织都大力支持;甲骨文是最大的数据库供应商,却通过收购Sun而获得了MySQL的控制权;EMC和它的控股子公司VMware都已经加入OpenStack基金会,而VMware还是开源PaaS平台Cloud Foundry的主导厂商;EMC、IBM、HP、Pivotal、VMware、SAP等传统IT巨头都是Cloud Foundry基金会的白金赞助商。连最喜欢采用专有标准的思科也已经加入OpenStack基金会,并提出了NaaS(网络作为服务)概念。

20

去IOE化的表面看上去是要抛弃传统的IT巨头,但通过上面的分析我们可以看出:传统IT巨头通过主导开源云计算平台的方式也在进入云服务市场,只不过以后不是依靠直接卖软硬件产品来获利,他们可以通过技术咨询和技术服务的方式来获得收益,也就是说传统IT巨头也在逐渐革自己的命,使自己从软硬件产品和方案供应商彻底转变为服务供应商,这个过程是极端痛苦的,甚至大部分厂商会死去。

由此我们可以归纳出一个结论:去IOE化并不是去掉IOE这几个厂商,而是去掉传统的产品模式,变成彻底的互联网服务模式。今天我们在一些终端产品上热火朝天地讨论所谓“互联网思维”有多厉害,但很多人没意识到,IT的底层架构,才是被互联网思维改造的一大对象。

阿里王坚:去IOE不是技术升级 而是时代变化

2014年02月19日 20:49 来源:计世网

2013年“双十一”,天猫成交额达350亿,支付宝成交笔数1.88亿,阿里巴巴

再一次赚足眼球。在阿里巴巴“去IOE”成功的大背景下,王坚的观点是:“去IOE”不是简单改变软件和硬件本身,而是用新的互联网技术和架构取代传统的IT技术和架构。

2012年起,阿里集团闪电般地拆分成7家公司、25个分支机构,并在金融业肆意扩张,在移动互联网领域大举收购……马云构建的阿里生态圈,正在从城邦成长为“帝国”。在这一系列高调动作的背后,实则与一位低调的人有关,他就是王坚。

21

加入阿里后,带着技术基因和学者风范的王坚就在阿里巴巴集团提出了“去IOE”(在IT建设过程中,去除IBM小型机、Oracle数据库及EMC存储设备)的想法,并开始把云计算植入阿里的IT基因。阿里巴巴的“去IOE”运动引发了大型企业IT底层建设的新思潮,也使IBM、Oracle等国外大型厂商倍感压力。

随着“去IOE”的实施,阿里IT发展策略逐渐从依赖“商业软件”、到拥抱“开源软件”最终演变为自主技术和云计算服务能力,更为2009年“阿里云计算有限公司”的成立埋下伏笔。

2011年7月28日,阿里云自主研发的“飞天”云计算平台开始以公共云服务的方式对外提供云计算服务。IT支撑起阿里集团的业务闪变,并在淘宝、支付宝等核心业务之外,勾勒出了新的盈利模式——云服务。2013年8月15日,阿里巴巴“飞天”云计算平台的单集群服务器规模达到了5000台,这是中国互联网公司首次公布单集群规模达到了5000台。

新的IT格局支撑起阿里集团“平台、金融和数据”三大业务的发展;“阿里云”则成为阿里巴巴延伸向更多中小企业的重要触角。带着对阿里IT布局的探究,《商业价值》出版人刘湘明携CIO提问与阿里巴巴首席技术官王坚展开对话。

云计算是“去IOE”最好方法

阿里巴巴的成功经验表明原来依赖IBM、Oracle和EMC的系统是可以构建在Commodity PC上,这为大多数企业基于云计算平台搭建IT系统扫清了障碍,让他们可以彻底拥抱互联网。

从2008年11月加盟阿里集团开始,王坚在集团首席技术官和阿里云总裁角色之间不断转换。办公室里整墙贴满“云OS”效果图,与团队在“钟馗道-争端解决室”开会到深夜已成常态。王坚有着产品经理敏感执著的特质,他认为:“?去IOE?最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。”“去IOE”的实施,使阿里IT发展策略逐渐从依赖“商业软件”、到拥抱“开源软件”最终演变为自主技术和云计算服务能力。这一过程的本质是分布化,让随处可以买到的Commodity PC架构成为可能,这提供了云计算落地的首要条件。

22

Q 博士伦中国公司 IT总监汪华:为什么“IOE”对互联网企业的发展是—个问题?“去IOE”和开源对IT团队的技术储备有多高要求?

A 在互联网时代,绝大部分企业,包括互联网企业,对计算需求难以通过IOE提供的技术满足,技术路径上依赖于专用的硬件设备比较危险。随处可以买到的Commodity PC架构对于阿里和大多数企业来说是最安全的,成本节约是“去IOE”最先显效的部分。

理论上只要计算能力够,“IOE”就一定能去掉!实际上“去IOE”这件事有技术挑战和风险,不是简单改变软硬件本身,它是“买计算”时代的产物,最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。开源技术只解决了软件使用成本的问题,而忽略了开源软件的升级和维护成本。

Q 宁波方太厨具有限公司CIO 邴:是否有一天企业都采用开源,而且没有软件供应商只有服务供应商时,IT建设的一些困难才能够解决?

A 阿里最早依赖商业软件,从拥有20多个节点的Oracle RAC数据库集群(当时是亚洲最大),到成为开发使用开源软件MySQL最好的企业之一,到研发自己的关系数据库OceanBase用于不同的业务场景。这样的演变路径也表明:商业软件、开源软件跟自有技术永远是搭档,对于不同企业来说只是百分比的问题。对大的互联网企业来说自有技术变得非常重要,未来“云计算平台+自有技术+开源技术”会变得越来越重要。

Q 中国南方航空公司技术总监龙庚:阿里云、天猫和淘宝的技术体系是怎样的?在“去IOE”过程中,他们是如何协同?阿里下一步发展对技术会提出什么样的要求?

A 支付宝、天猫和淘宝,阿里云的实际技术应用确实有所不同,但阿里巴巴整个技术体系是协同在一起的。阿里整体技术的协同效率可以用几个关键的事例来说明:第一是在“去IOE”过程中逐渐建立起对技术方向的认同和协作,淘宝的业务拓展如果没有技术、产品和业务等各团队的相互协同,是一件不可能的事;第二是在2011年,阿里集团所有的技术后台运维和运营部门都集中在首席技术官下面,成立统一的技术保障部,从工具到理念都在融合,这适应了集团业务的快速发展和变化,并成功驾驭

23

了大型互联网企业的技术挑战;第三则是业务驱动的技术协同,淘宝“聚石塔”、支付宝“聚宝盆”等业务,都是在业务驱使下运行在阿里云“飞天”平台上,它是一种自然协同的结果。

今天我们看到的互联网只是冰山一角,等到量子计算出来以前,我们在相当长的时间里要受现在计算框架的局限,云计算也是阶段性的产物,未来如果没有像量子互联网公司的发展也是会有很大的瓶颈。从这个角度讲,互联网经济对计算的依赖就像传统的工业对石油跟煤的依赖一样。量子计算不突破,互联网经济会有很大障碍,这是我们一定会面对的事情。

阿里巴巴如何“去IOE”

“去IOE” 最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。2013年5月17日,阿里集团最后一台IBM小机在支付宝下线。这是自2009年“去IOE”战略透露以来里程碑式的一个节点,阿里集团只剩下部分Oracle数据库和EMC存储。7月10日,淘宝广告系统使用的Oracle数据库下线,淘宝彻底告别Oracle数据库。

作为整个集团的首席技术官,王坚负责每年集团IT预算和规划,他意识到对于传统IT厂商的依赖使得相关技术及其维护已不在阿里自己管理的范围之内,例如,大存储对客户而言基本就是“黑盒子”,客户都不能自行进行重要的维护,“去IOE”解决了影响淘宝和支付宝长远发展的问题。

在阿里巴巴“去IOE”成功的大背景下,王坚的观点是:“去IOE”不是简单改变软件和硬件本身,而是用新的互联网技术和架构取代传统的IT技术和架构。

王坚认为阿里“去IOE”的成功原因有三:一是企业的战略决心足够强大;二是能够坚持到底,并愿意承担技术上、组织上的各种风险;三是要有使命感的人和团队去完成一件看起来不可能的事。

Q 阿里巴巴为什么要做“去IOE”这件事?“去IOE”经历了怎样的过程?

24

A 2008~2009年,我在做整个集团的预算时,第一次提出了“去IOE”这件事。我负责整个集团技术预算拟定,当看到阿里巴巴对计算需求成指数级增长,并跟业务增长不成比例时,就意识到如果没有技术的进步,一定会影响到公司长远的发展。

做预算不仅仅是“钱”的问题,而是考虑集团未来如何发展的问题,也是思考技术战略的机会。“去IOE”不是一个人的决定,你需要分析企业业务情况,哪些业务适合尝试“去IOE”。阿里当时淘宝的技术团队愿意创新,愿意去尝试“去IOE”这件事,并最早承担这件事的技术和业务风险。“去IOE”的过程也是技术发展的过程,比如以淘宝为基础形成了优秀的Mysql数据库团队,也建立了自己开发数据库Oceanbase的团队。现在的团队来自各事业部,双管齐下,这是一个极大的长期投入,不磨五年是磨不出来的。当支付宝最后一台IBM小机下线时,整个技术团队非常自豪。

当时我们考虑“去IOE”并不仅仅出于对成本的考量,最重要的是要满足企业未来长期发展的需要,传统IT架构的软硬件已经无法满足企业拥抱互联网方面的发展。阿里巴巴的成功经验表明原来依赖IBM、Oracle和EMC的系统是可以构建在Commodity PC上的,这为大多数企业基于云计算平台搭建IT系统扫清了障碍,让他们可以彻底拥抱互联网。

这一过程最痛苦的是要伤害天天跟你在一起工作的人,你身边的同事可能学的就是这个技能,突然告诉他你的技能没有用了,这是非常痛苦的事情。云计算让我们跨越了技术上的一些门槛,但是我想可能很多公司会过不了我前面说的坎。

Q 传统企业“去IOE”的可能性有多大?哪些企业具备“去IOE”的条件和动力?

A 如果对云计算带来的冲击认识足够,就会明白“去IOE”不是一次技术升级。云计算对传统IT和开源软件都是有冲击的,这是时代的变化,而不是一个技术策略的选择。

从硬件和软件底层着手“去IOE”,这件事情不该每个企业都做。如果要说一个很直截了当的答案,我会表明一个观点:如果企业觉得已有的云计算服务不能满足IT需求,那么它适合自己完成“去IOE”,我认为大部分传统企业都是没有可能和必要自己实现“去IOE”。

25

“去IOE”既有技术挑战,也受市场条件的约束,有机会成本问题,也受人才资源的限制。所以帮助大多数传统企业解决“去IOE”的最好途径是云计算,对企业来讲这是一个好的可以长期发展的路径。

对传统企业来讲,“去IOE”是在做一个选择,是在选择是否信任云计算是一种公共服务,就像企业信任国家电网供电一样。 “IOE”本身是软件时代或者说买计算机时代留下的产物,而到了云计算时代,实际上变成一个买“计算”的时代,不是买“计算机”的时代,所以IOE应该用服务的方式去掉。这个过程中的挑战是,你心里是否接受云计算,而不只是技术上接受。

Q 您怎样看待“去IOE”的人才培养过程?

A 阿里巴巴的技术积累超出很多人的想象。我们真的有很多很好的人才,他们不仅熟悉业务,对技术的理解也不是一般人可比,更重要的是他愿意“革自己的命”,绝不担心“去IOE“会让自己原来的技能没有用。这时候理想变得比什么都重要。

大多数严重依赖IOE的企业在技术人才培养上有点“拿自己的钱给别人交学费,但却给自己戴了手铐”,中国企业对技术的需求旺盛超过世界上任何国家和地区,所以技术上面临的挑战也超过了他们,正是我们对国外IT企业的软硬件的依赖而导致我们失去了很多自己发展的机会,而且国外的技术未必能解决中国企业的问题。“去IOE”的经验表明,现在我们有一次机会把我们的需求和钱用来发展适合长远发展的技术,让IT围绕自己的产品来发展。

对于我们自己的人才选择,阿里很谨慎,很多在国外厂商干过的顶级人才,并没有轻松地收到聘书,这是因为在企业中跟着别人做事,和在阿里用使命感开闯出一片天空有很大不同。“去IOE”需要极其合适的人才,才能带出一支像样的队伍,团队里每一个人的潜力也是逐渐被激发出来的。

揭秘阿里巴巴“双十一”IT部署

“双十一”时每个商家承担比平时大十倍、百倍甚至千倍的容量,这些因素加起来是让云计算变成唯一可以解决这个问题的方法。2012年的“双十一”,阿里巴巴创造了

26

191亿的日交易额神话,其中有20%商家的订单都通过阿里云的平台来处理,在流量剧增的情况下实现了系统零故障、订单零遗漏。2013年“双十一”,支付宝销售额达350.18亿元,提升了75%。

2013年阿里云开发者大会上,阿里云业务总经理陈金培透露:很多商家将O2O以及其他线上线下业务搬到“聚石塔”平台上,同时阿里云也针对银行推出了“聚宝盆”业务,解决银行支付贯通的问题。8月15日,阿里巴巴飞天云计算平台的单集群服务器规模达到5000台,服务淘宝的数据开放平台以及阿里金融的数据处理业务都成功地转移到这一平台上。

Q 2013年“双十一”阿里云是怎么帮助天猫、淘宝度过这么大一个“洪峰”的?

A 阿里云支持“双十一”主要是从三个角度:支付问题、淘宝自身和来自客户的挑战。支付的难点在银行,2012年淘宝和天猫的总交易额有191亿,交易笔数是1.028亿笔。结算笔数非常重要,因为在银行承担不了的前提下,支付宝的技术能力决定了系统的承载能力。以前,交易量过大时支付宝就会对交易进行排队,延迟交易。但“双十一”的交易量太大,延迟时间太长会产生很大的用户体验问题,所以支付宝提前鼓励用户先充值进支付宝,这笔钱的规模当时达到了几十亿,把对银行系统的压力直接转嫁到了支付宝系统上,使得“双十一”当天的交易顺利进行。并且在2013年,中国的中小银行系统也可以跟支付宝对接了。

淘宝自身的挑战在于面对突然出现的并发流量和意外情况时,如何保持系统的稳定性并完成天文数字的交易量。在意外情况下,淘宝无法预测用户行为,任何一个局部的问题都有可能演变为一个全局的问题。“双十一”当天阿里集团近千名技术和业务人员坐在一起,用一个指挥体系处理问题,准备了几百种预案。

解决淘宝客户的问题主要依靠阿里自身的技术力量,比如 “聚石塔”项目将天猫和淘宝卖家的全部交易流程都部署在阿里云平台上,保证交易系统的稳定性才能保证交易顺利完成。把卖家的ERP系统完全架设在云上,这件事的难度和意义比只解决网站流量扩容要大,因为从发票打印到发货都要通过这个系统,不同的ISV(独立软件开发商)也在其中起了关键的作用,让人们体会到一个生态的价值。2013年,淘宝的目标是让75%的交易在云上完成。

27

Q 为什么商家在云上跟在本地部署会有这么大的区别呢?

A 首先,现在中国的IT不像大家想象的那么好,很多小企业的IT建设不仅受制于成本,还受制于人才,云计算可以帮这类商家把业务搬到互联网上来处理。其次,一笔交易从一个数据中心转到另一个数据中心,这当中有很大的不确定性,因此互联网基础设施非常重要,云技术可以帮助大家解决互联网基础设施问题,“双十一”时每个商家承担比平时大十倍、百倍甚至千倍的容量,这些因素加起来是让云计算变成唯一可以解决这个问题的方法。

Q 我记得2012年您大概为“双十一”准备了几百个预案,2013年有没有什么不同的准备?2013年的“双十一”跟上年的“双十一”有什么不同?

A 2013年“双十一”时整个系统的成熟度更高。上年花了大概37分钟支付宝里有了第10亿销售额,2013年大概只花了6分钟就到了10亿。对云计算最有挑战的不是在下单那一刹那,是第二天要发货打单,所有东西都要上云,有的商家最后会因为打发票机器数不够发不出货。

阿里巴巴集团去IOE运动的思考与总结

【导读】

预计2012年5月7日,阿里巴巴集团将正式公布技术团队合并的事情,涉及的部门:阿里巴巴运维团队、阿里巴巴DBA团队、阿里巴巴平台技术部、大淘宝运维团队、大淘宝DBA团队、大淘宝核心系统部、阿里云计算运维团队、阿里云计算DBA团队和阿里巴巴集团安全团队,上述技术团队合并之后,从一些可以猜测到的信息分析,大淘宝的员工成为相关技术团队的掌舵者,以及去IOE政治运动是阿里巴巴集团首席架构师某博士主导的,阿里巴巴和淘宝的技术团队内部非常有影响力的XX负责执行,那么阿里巴巴集团内部所有子公司去IOE运动将继续深化,就淘宝、阿里巴巴和支付宝去IOE事件,以局外人的角度进行利弊分析,希望能达到给明白真相和不明白真相的群众一个合情合理中立的分析。

淘宝和阿里巴巴去Oracle化事件 引发数据库技术人员大讨论一文,只是把对阿里巴巴、淘宝等子公司内部非常熟悉的人士观点和建议分别整理出来,以及还有部分外部人士的猜测和分析,本篇文章我们从几个不同的角度综合分析阐述去IOE事件对阿里

28

巴巴、淘宝等公司的内部DBA团队价值和意义,对阿里巴巴、淘宝等公司的业务和成本影响,对互联网行业的DBA从业者的影响?

(一) 去IOE事件中的IOE名词解释

(1).IOE事件中的I是代表IBM的缩写,也即去IBM的存储设备和小型机,主要是小型机,阿里巴巴、淘宝和支付宝主要是使用了IBM的小型机,IBM存储设备相对较少; (2).IOE事件中的O是代表Oracle的缩写,也即去处Oracle数据库,采用MySQL和Hadoop替代的解决方案,Oracle RAC将会被Hadoop集群替代,其阿里巴巴B2B使用的GreenPlum集群也将会在阿里巴巴集团完成运维团队和DBA团队合并之后,采用Hadoop集群解决方案替代;

(3).IOE事件中的E是代表EMC2,阿里巴巴B2B、淘宝和支付宝都是用大量EMC2的存储设备,也有少量DELL的存储设备,主要是EMC2,的存储设备性价比非常高;

(4).阿里巴巴集团内部最早进行MySQL数据库替代Oracle数据库支持数据服务的子公司,是阿里巴巴B2B用PC Server替代EMC2,存储设备,替代IBM小型机,替换节凑是被控制的,因多方面的原因内部也没有那么雄壮的决心。后续,淘宝也开始进行MySQL数据库的应用摸索和推广,并且高调宣传去IOE事件,最后造成网络上满城风雨;

(二) 去IOE对淘宝、阿里巴巴B2B和支付宝等公司的价值

阿里巴巴集团与甲骨文公司购买的Oracle数据库是三年无限制的Licens,总销价是三年X千万人民币(备注:不能告诉大家具体多少钱,属于商业机密,望理解!),这部分的开销对整个阿里巴巴集团而言并不算什么,花费最大地方是Oracle数据库的座驾,也即主要是IBM小型机和EMC2,存储设备的购买费用和保修费用。

随着淘宝、支付宝和阿里巴巴B2B的注册用户数激增,用户产生的数据也越来越多,即使采用冷热隔离的方式也解决不了大容量数据且大并发的难题,淘宝启用了全亚洲最大的Oracle RAC集群,阿里巴巴B2B中文站的数据量也因数据量大和业务要求,

29

每年早上08:00—09:30之间CPU保持98%的使用率,LOAD也超高,即使更换存储设备不久也会再次出现这样的状况。互联网行业公司迅速发展非常快,集中式数据库系统会逐渐成为业务的瓶颈,不得不面临又喜又忧的事情花费重金升级硬件,这在企业高速崛起的时候,可能不太会在意成本,若是企业占有市场份额足够大、步入平稳发展阶段或企业资金出现问题的时候,就不得不考虑企业的成本, 那么就不得不考虑采用满足企业业务发展需求,企业只需要合理地投入资金,就不得不考虑更加省钱的数据库软硬件解决方案。

大淘宝、阿里巴巴B2B和支付宝等公司,98%以上的软件系统和业务都是采用Oracle数据库提供数据服务,电子商务领域阿里巴巴集团旗下公司拥有的总数据量和用户量是其他任何公司无法比喻的,DBA团队面临的压力盒挑战也是其他公司无法比喻的,肯定要比联网其他公司更早关注此方面的资金需求和业务双重压力。

阿里巴巴集团使用License最多的子公司是大淘宝,2010年及之前,还高调地要部署更多的Oracle RAC数据库集群,但是在阿里巴巴B2B将中文站压力和数据容量最大的Offer数据库,成功从Oracle数据库+IBM小型机+EMC2,存储设备,迁移到MySQL数据库+PC Server的模式,以及大淘宝核心系统部门招聘到@淘宝褚霸、@淘宝丁奇等能修改MySQL源码和Hbase源码,其他产品线使用MySQL数据库提供服务,也使大淘宝的MySQL DBA的经验和技术大幅提高,大淘宝也就有能力把产品线的Oracle数据库迁移到MySQL数据库提供服务,采用Oracle数据库支持的数据分析业务则采用Hadoop集群替代,这是给核心系统部和DBA团队建功立业的大好时机,同时能解决大淘宝业务系统的压力和瓶颈,也能帮助大淘宝降低资金投入。搭配开发完善的自动化系统,可以大大简化数据库的管理成本,也能减小DBA团队的工作量。

阿里巴巴、淘宝和支付宝都曾尝试,将Oracle数据库的AIX系统+ IBM小型机+EMC2,迁移到Linux系统+PC Server的模式。若是对Oracle数据库不拆分的话,PC Server根本无法承受这样的负载;若是对Oracle数据库拆分,将需要增加购买大量的License;故不得不考虑将业务系统的Oracle数据库迁移到开源MySQL数据库和Hadoop平台上(。

30

1. 集中式的严重制约:集中式强大单点远远满足不了阿里特别是当时淘宝爆炸式业务增长应用的模式,这里可分为三个方面,稳定性、跨IDC容灾切换、快速扩容;

2. 技术面临失控,创新潜力受限; 3. 专用设备规模化场景下诸多限制; 4. 成本:这应该是整体最次的因素; 5. 安全。

除掉以上核心因素,他还跟大家分享了当时的内外部环境、去IOE核心技术、需要克服的技术难点及“去IOE”里程碑。 (1)内外部环境

内部环境,主要源于2009年11月份的预算报告初稿,当时决定阿里以后不再购买小型机。外部环境主要包括:PC服务器处理能力增强、以及Flash技术的出现。

36

阿里”去IOE“后整体架构

(2)去IOE核心技术:

? ? ? ?

存储技术(MySQL/OceanBase/RDS); 分布式数据处理技术; 数据流;

规模化运维体系和研发支撑体系。

(3)“去IOE”需要克服的技术难点:

? ? ?

功能:Oracle到MySQL功能上落差大、存储过程、join操作; 高可用:小型机、存储高冗余机制、PC怎么做;

数据一致性:Oracle物理级别的一致、MySQL有没有问题。

对以上技术详细进行拆分,还可分为:

? ? ? ? ? ? ?

如何去存储过程; 如何无缝数据迁移; 如何分库分表分事务; 如何数据路由; 如何异构数据实时同步; 如何数据安全; 如何面对规模运维。

在克服掉以上这些困难后, (4)“去IOE”里程碑

时间 2010年1月 2010年7月 2011年7月 2011年9月 37

关键事件 三淘核心系统”去IOE“启动 完成商品库\去I“ 完成商品库\去OE\ 完成交易库\去IOE“ 2012年12月 2012年6月 2013年4月26日 2013年5月21日 2013年6月4日 完成三淘\去IOE“ B2B/阿里金融启动 CBU/ICBU完成\去I\ 支付宝完成\去IE“ 阿里最大的现金流结算系统\去O\ 2010年1月份启动,大概2011年7月份完成商品库的“去IOE”,这也为后期交易的“去IOE”奠定了坚实的技术基础,这期间主要经历了三个阶段:

1. 16套读写分离Oracle,后来压力太大,根据卖家查询的部分,从数据库移至实时搜索;

2. 2010年7月,商品去小机;

3. 201年7月,商品KOE项目,使用Flashcache和PCIE-SSD。 心得体会

在完成”去IOE“后,周宝方感触很深,他表示,”去IOE“首先赋予了阿里非常灵活的技术架构,支撑业务的快速发展,比如双十一,阿里可以很淡定地做业务扩展;其次是阿里掌握了技术自主可控操作;另外还包括基础工程技术和人才的积累、技术的沉淀、成本、安全性的提升等等。

最后他还跟我们分享了一些心得体会:

对I、O、E们客观上造成误伤,本质是以自主可控的分布式Commodity PC架构替代集中专用的IOE架构,并非为了做而做,也并非纯粹为了成本或纯粹为了不用外国技术,更不是用某些国产PC/RDBMS/存储作为替代技术;

个人的技术成长方向有必要和企业发展所需的方向契合,甚至推动变革; 很高的技术门槛、较大技术风险、水很深;

开源只是在入手时零成本,而后(对传统企业)会是极高的维持和发展成本,这并不为很多人所意识到;

并非所有企业都适合“去IOE”,但规模型的企业需要考虑;

38

“去IOE”技术难以复制,对接“去IOE”技术的云计算平台更合适“去IOE”; 需要信念,才能走的下去。

恒拓开源陈操谈去IOE方案的普及对独立开发商的机遇与挑战

2013-11-05 15:30| 分享到:

阿里巴巴在国内互联网领域是去IOE的强力推动者。今年5月17日,支付宝最

后一台IBM型机下线,整个阿里集团告别IBM小机;7月10日,淘宝广告系统的Oracle数据库下线,淘宝告别Oracle。10月,阿里正式启动“聚宝盆”项目,针对金融行业软件开发商和广大中小金融企业推出云迁移服务,把原来采用IOE的技术方案改造成基于阿里云技术的方案,并通过金融软件开发商把金融业务迁移到阿里云。

在传统企业软件领域,也有很多开发商在致力于开源解决方案的输出。在2013年10月的阿里云开发者大会上,恒拓开源作为阿里云行业合作伙伴之一亮相,主持了一个开源技术分论坛。在航空领域,恒拓开源已经积累了不少客户和项目经验。在下面跟恒拓开源技术副总监陈操的对话中,我们将对整个行业的去IOE普及的状态进行一个概述,请陈操分享一下他们推广开源方案的经验,并聊聊独立开发商在这样的一个环境变化中将面对哪些机遇与挑战等话题。

嘉宾简介:

39

陈操,恒拓开源架构顾问/技术副总监,专注于企业级开源解决方案,在企业级Java开发领域有十多年的经验。积累了丰富的ESB、SOA、JBoss、Drools、分布式计算、高并发高访问量系统架构经验。参与主导了大量中大型企业级信息系统架构设计,具有丰富的实战经验。曾在中国数码集团任职,于2010年加入恒拓开源,目前负责恒拓开源深圳分公司的团队与业务。

InfoQ:能否根据你们目前接触到的客户的情况,描述一下整个行业对去IOE这个概念的接受情况,以及实际实施的进展状态?

陈操:在近几年,我们接触的这些行业形势比之前已经好了非常多,大家对“去IOE”、尤其是对开源的认识,跟过去相比已有显著提高。虽然,能够在实践中真正敢于去尝试的企业为数不多,但是大部分已经有这样的一些规划了,南航算是其中敢于吃螃蟹并获得成功的。我们接触的客户,有航协、航信、东航、国航、中信信托、长安汽车,还有我们在深圳所接触到的深交所、深圳证券通讯有限公司、前海股权交易中心等,我们很高兴看到这些航空行业,制造行业,金融行业的企业纷纷开始想尝试和探索“去IOE”。

目前在航空行业,我们算是走得比较前。对于绝大多数客户,我们目前正在尝试着用开源的解决方案去替换掉IBM的小机和中间件,Oracle的数据库,用我们的分布式存储方案去替换掉EMC的存储设备等等。许多项目都正在接洽或已经在实施,这相比前几年来讲已经是很大的进步和提升。

InfoQ:能否以某个场景为例,简单估算一下去IOE之前的硬件-软件License-服务运维团队方面的成本总和和比例,以及去IOE之后的成本比例?

陈操:举例来说,在没有“去IOE”之前,很多企业,像我们接触到的一些国企,硬件主要是IBM的小型机或者大机,现在给他们换成几万块钱一台的刀片组成的小集群,用普通的PC硬盘或者磁盘阵列替换EMC存储设备作为大数据的存储方案。仅这一块节省的资金就十分可观。

40

软件方面,从操作系统、负载均衡、Web服务器、JavaEE容器、消息中间件、到ESB服务器,到工作流,规则引擎,分布式计算等基础设施和框架,均有开源的解决方案且几乎完全免费。我们从2010年开始为我们其中一个大客户服务,2011年到2012年之间,一共为其节省了将近四千万软件License费用。从今年之后,我们的客户已经开始尝试替换商业数据库,我相信数据库存储这块的替换能够带来更多的成本节省。

服务运维这块,如果客户之前用的IBM或Oracle,基本上只能找原厂的工程师或他们的合作伙伴去运维;“去IOE”之后,目前的市面上,熟悉开源技术的工程师越来越多,生态环境越来越好,服务运维较之前更容易,且获得更多的选择。 总体说来,“去IOE”之前,成本这块硬件占据大头,软件居中,其次才是服务,当然也有少量较昂贵的。“去IOE”之后,软件几乎没有成本,硬件占据小头,相比之下服务运维——包括定制开发——的比例会稍微高一些,而且服务运维的性价比更优于原厂服务。当然,这也要视项目的具体情形而定。

InfoQ:去IOE的过程,客户那边有没有来自内部的阻力,或者其他阻力?是如何解决这些阻力的?

陈操:这么多年来我们一直在国内市场推广开源,期间确实遇到了非常多的阻力。

我们接触到的企业大多数都是国企和政府。对于大型国企来讲,第一个阻力来自于是观念上的,因为这些企业里面的大部分员工对开源技术了解的不多,虽然比起前几年来说已经有了一个很大的改变,但我们还是要面对他们对开源和商业的一个不要钱、一个要钱的观念上的转换问题。

第二个是学习阻力:对于那些已经有一定的技术背景的客户来讲,他们之前因为被IBM、Oracle已经洗脑了多年,所以如果要他们转换过来,对他们来说会有很大的成本。比如我们接触到的汽车制造企业,他们的技术专家在Oracle方面已经积累了差不多有10年的经验,这个时候让他去转换成开源,自身的挑战和牺牲很大。

41

第三个阻力是政治阻力,政治阻力主要源于央企和国企,这类企业的中层普遍认为自身没有必要去冒风险尝试开源。他们会认为,无论什么原因导致项目失败,只要是有国际上的知名商业厂商,可以借此免责,但如果用的是开源,那么要承担的责任就大了,严重的还可能影响政治前途。 最后一个比较大的阻力就是来自于利益上的,这个就属于不在阳光下的那一部分了。

至于怎么去解决这些阻力,我们最开始尝试的是自下而上的策略去推行“去IOE”,比如说我们去接触对方的项目经理,或者是技术层面的人,同他们宣讲开源和“去IOE”,虽然他们经过这么多年已经非常认可开源,但是你说让他们在自己的企业里面主导实践这个过程,是非常困难的,风险非常大。所以之后我们改变了策略,觉得这个要推广还是应该从高层,甚至从政府的层面去做一些宣传,让我们的央企、国企的高管们有意识去往下推行“去IOE”这样一个理念,下面的人才会容易在项目中真正进行实践。

改变了这个策略之后,我们确实收到了不错的效果,比如我们的一个客户,他们的领导非常重视,直接把“去IOE”放到他们下面员工的KPI当中,接下来的工作开展的就比较顺利了。

除了自上而下的策略以外,我们还会去加强我们的培训,和对“去IOE”这块的宣讲。你也知道,前一阵子的棱镜门引起了包括政府在内很多大企业的重视,这也是我们用来推广“去IOE”的一个很有说服力的案例。

InfoQ:跟阿里云这边的合作具体包括哪些?

陈操:我们很早之前就开始跟阿里云合作。现在企业内部的两个技术型的产品,考拉跟变色龙,以及我们的行业产品——运价魔方都已经迁移到了阿里云上面。我们购买了他们的主机、带宽、存储,其中光我们的运价魔方这一个产品就买了阿里云十多台主机进行运营。

42

除了这几款产品以外,我们内部的持续交付平台、持续集成平台,全部都已经搭建在了阿里云上。我们的开源中国社区,前不久和阿里一起推出了中国源,主要提供代码托管、Maven仓库管理以及开源软件镜像下载功能,也已经上线了。

InfoQ:有没有客户提出要将应用迁移到阿里云上的需求?你们在这一块上目前提供哪些服务?

陈操:我们接触到的很多客户,尤其是一些政府的客户经常会找到我们,因为阿里云同政府的关系非常不错,政府也有一些意愿去把他们的一些系统从他们原来的机房迁移到阿里云上,以寻求更安全、更高效、更廉价的服务。不少的客户跟我们提起过这些需求,说是不是可以把他们的应用和系统迁移到阿里云上去,我们给他们提供系统迁移和改造服务。这也正是目前我们可以提供服务,即:熟悉业务系统的流程,数据结构,系统架构和设计,以及部署等方面的内容,基于这些,提供迁移方案甚至实施服务。

我们之前已经跟阿里合作把PHP从Windows环境迁移到Linux上。另外我们在一些政府的核心系统迁移上,开始和阿里有这种合作的意向。

InfoQ:就你们的观察,现在云计算的普及、基于x86和Linux架构的主流化,对 独立开发商而言,都有哪些机遇和挑战?

陈操:机遇和挑战是并存的。机遇的话,就目前来讲,现在云计算的普及以及开源化,x86结构的主流化,首先能够帮助我们的独立开发商以更低廉的成本去实施他们的项目,以获取更多的利润,进而能承接更多的项目,提升自身的技术能力。如果这些开发商原来是跟IOE紧密合作的,这样也可以帮助他们摆脱大厂商的控制,增强自己的独立性。另外,借助云计算,使得独立软件开发商不用关注基础设施搭建,能够帮助他们更加专注在自己擅长的领域。这些都是机遇。

挑战的话则是,如果摆脱了大厂商,真正脱离了IOE,对于这些独立开发商来讲,就没有了品牌的支持,这是一个比较大的风险。对他们自身而言,可能需要去培养自

43

己的技术力量,甚至在业务上要更加具有专业性;此外这种改变还有可能对自身的技术体系有一定的冲击,甚至运营模式也可能会随之进行转变,这些我觉得是对软件开发商的挑战。

银监会39号文另类解读:去IOE关键是运维水平

作者: 高端存储知识 | 发表时间: 2014-10-15 00:31:51

大家周二好。

昨天西瓜哥刚聊了一点技术问题

今天本来还想聊聊技术问题,但突然在网上看到了银监会的一个月前的具体发文,就仔细学习了一下文件的精神,也从外行的角度谈谈我个人的看法。

一个多月前,银监会发出了39号文,我看网上有很多转发和评论,直接来看一篇原文。

------------------------------------

中国银行业监督管理委员会(银监发[2014]39号)

《关于应用安全可控信息技术加强银行业网络安全和信息化建设的指导意见》

为进一步贯彻落实创新驱动发展战略,提升银行业网络安全保障能力和信息化建设水平,推动银行业深化改革、发展转型,促进战略新兴产业发展,现就应用安全可控信息技术加强银行业网络安全和信息化建设提出以下指导意见。 一、总体目标

建立银行业应用安全可控信息技术的长效机制,制定配套政策,建立推进平台,大力

44

推广使用能够满足银行业信息安全需求,技术风险、外包风险和供应链风险可控的信息技术。到2019年,掌握银行业信息化的核心知识和关键技术;实现银行业关键网络和信息基础设施的合理分布,关键设施和服务的集中度风险得到有效缓解;安全可控信息技术在银行业总体达到75%左右的使用率,银行业网络安全保障能力不断加强;信息化建设水平稳步提升,更好地保护消费者权益,维护经济社会安全稳定。 二、指导原则

(一)坚持开放合作。兼容并蓄,凝聚各方智慧和力量,优先应用开放性强、透明度高、适用面广的技术和解决方案,优先选择愿意在核心知识和关键技术领域进行合作的机构,避免对单一产品或技术的依赖。

(二)鼓励自主创新。充分认识创新驱动发展战略的重要意义,鼓励原始创新、集成创新和引进消化吸收再创新,构建高效稳健的共性关键技术供给体系,掌握银行业信息化核心知识和关键技术。

(三)发挥市场作用。加快建立高效的创新体系,激发各类创新主体的积极性,以银行业信息化需求培育和带动市场,以信息产业发展促进银行业发展转型,主动把握新兴技术发展机遇,推动银行业信息化创新发展,促进信息产业做大做强。

(四)加强协同合作。统筹规划,加强政、产、学、研协同合作,营造安全可控信息技术研究、发展和应用的良性互动环境,形成“需求拉动、产业推动、科研驱动”的良性循环。 三、任务要求

(一)完善信息科技治理机制。银行业金融机构应将提升网络安全保障能力和信息化建设能力纳入战略目标,将安全可控信息技术应用纳入战略规划;建立以安全可控、自主创新为导向的制度体系,明确目标、策略与职责分工;加强创新组织建设和人才培养,保障创新资源;有序推进整体架构自主设计、核心应用自主研发、核心知识自主掌握、关键技术自主应用等重点工作。

(二)优化信息系统架构。银行业金融机构要建立安全、可靠、高效、开放、弹性的信息系统总体架构,在架构规划和设计过程中应充分考虑安全可控;掌握关键技术的

45

选择权,摆脱在关键信息和网络基础设施领域对单一技术和产品的依赖。从战略角度规划和建设业务连续性系统架构,应当至少有一种基于安全可控信息技术架构的数据级或应用级存储、备份、归档和容灾等一体化的业务连续性方案。

(三)优先应用安全可控信息技术。银行业金融机构应客观评估自身信息化需求和信息科技风险情况,开展差距分析,按年度制定应用推进计划;建立科学合理的信息技术和产品选型理念,选择与本单位信息化需求相匹配的技术与产品,避免一味求大求全。在涉及客户敏感数据的信息处理环节,应优先使用安全可靠、风险可控的信息技术和服务,当前重点在网络设备、存储、中低端服务器、信息安全、运维服务、文字处理软件等领域积极推进,在操作系统、数据库等领域要加大探索和尝试力度;从2015年起,各银行业金融机构对安全可控信息技术的应用以不低于15%的比例逐年增加,直至2019年达到不低于75%的总体占比(2014年应用的技术和产品可纳入2015年度计算)。

(四)积极推动信息技术自主创新。银行业金融机构应积极尝试应用安全可靠、自主创新的信息技术,通过应用提出改进需求,增强创新技术的适应性和健壮性;探索通过统一标准、统筹产品、联合攻关、试点示范等,加快自主创新信息技术应用磨合适配及系统性优化。在技术选型中,如存在安全可靠的自主创新产品和技术,应至少引入一家此类产品或技术进行选型和测试;对提供专用设备或集成解决方案的供应商,应要求其方案使用的硬件和软件至少能够各应用一项安全可靠的自主创新产品或技术。

(五)积极参与安全可控信息技术研发。银行业金融机构应加强与产业机构、大学和科研机构的合作,联合开展关键技术的研发和生产,围绕安全可控信息技术在银行业应用的关键问题,开展技术合作,实施技术转移,形成高质量、具有行业推广价值的科技成果;在核心应用基础架构、操作系统、数据库、中间件和银行业专用设备等领域加大研究力度,集中突破制约安全可控发展的关键技术。2015年起,银行业金融机构应安排不低于5%的年度信息化预算,专门用于支持本机构围绕安全可控信息系统开展前瞻性、创新性和规划性研究,支持本机构掌握信息化核心知识和技能。

46

(六)加强知识产权保护与标准规范建设。银行业金融机构应加强知识产权保护意识,对各项研究成果及时申请技术专利保护;应积极参与各类技术标准的研究和制定工作,推进安全可控信息技术的标准化、专利化。 四、主要措施

(一)建立银行业信息安全审查和风险评估制度。依据国家网络安全审查相关政策,建立与银行业信息安全需求相适应的配套政策,建立银行业网络安全审查标准,加强银行业专用信息技术和产品的安全检测;建立常态化的风险评估制度,建立信息技术在银行业应用过程中的风险识别、评估和控制机制,加强功能测试、性能测试和安全性测试;密切跟踪安全可控信息技术的应用情况,建立缺陷库和风险库,结合行业应用不断促进技术的完善。

(二)建立银行业安全可控信息技术落地推进平台。组建银行业安全可控信息技术创新战略联盟,创建技术实验室和国家工程实验室,研究挖掘银行业应用安全可控信息技术的机会和需求,协调银行业金融机构、信息技术企业、大学和研究机构等共同推进安全可控信息技术的研究和推广。

(三)组织开展银行业应用安全可控信息技术示范项目。结合国家信息安全专项、国家有关科技计划和国家财政支持的其他项目,组织开展安全可控信息技术在银行业的应用示范,组织推动银行业开展安全可控前瞻性研究;加强部门间协作,加强政策协同,加大力度支持银行业应用安全可控信息技术,以银行业应用不断完善安全可控信息技术,为安全可控信息技术创造市场空间。

(四)制定银行业应用安全可控信息技术推进指南。依托银行业安全可控信息技术创新战略联盟和技术实验室、国家工程实验室,分析银行业应用需求,解决共性问题,逐年制定推进指南,对推进领域、重点信息技术和产品以及推进方案予以细化。各级工业和信息化主管部门应做好适用技术、产品、服务及典型解决方案推介,推动需求对接。

47

(五)持续监督和评价。建立银行业金融机构应用安全可控信息技术工作情况的监督评价机制,通过安全可控信息技术应用率、重要系统自主掌控率、自主创新信息技术试用情况等指标评估安全可控能力成熟度;逐年对银行业金融机构应用安全可控信息技术情况进行考核,对纳入监管评级体系的机构,考核结果并入机构信息科技监管评级。

------------------------ 好,看完原文,谈谈我的解读。

这篇发文其实只是一个指导,操作性不强。最大的问题就是没有定义什么是“安全可控”。也许大家说,国产化就是安全可控。问题什么是国产化?软件还可以查软件著作权,硬件呢?比如我拿超微的服务器贴上西瓜哥的标签,你认为西瓜哥牌服务器算安全可控产品吗?西瓜哥再找Infotrend,把他们的存储贴上西瓜哥的标签,你觉得这个西瓜哥牌存储也是安全可控的吗?这个问题不解决,其他的考核指标其实都是废话。据说银监会以后会有操作细则出台。

大方向是“中进洋退”,对国产厂商确实是一个利好。5年后,75%的安全可控目标,看来还是比较具体的。但从字面看,安全可控不仅仅是国产化,如果国外厂商愿意公开核心技术,应该也算。比如IBM说,我把大型机技术开放给你中国政府,ORACLE说我把源码也开放给中国政府,EMC说我把存储技术也开放给中国政府,政府可以审查安全问题,但其他企业不能利用我的专利技术。这样应该也算安全可控吧。从发文看,应该是学习高铁拿市场换技术的思路,逼IOE这些厂商输出自己的技术,而不是产品。关键是IT技术变化太快了,输出给我们,我们刚消化完就过时了。这是和高铁技术最大的不同。

从发文看,网络设备国产化的优先级最高,这块华为目前看应该机会最大(H3C还不算纯粹的国产厂商,但CEC收购后就不同了,据说CEC收购后2年内要运作上市的);其次存储排在第二,这块也应该华为最有实力,但目前国内存储都不支持大型机,因此这部分不可能完全国产化。第三优先级是中低端服务器,这块华为和浪潮、特别是收购了IBM X系统的联想,都是有力的竞争者。大家注意到了没有,没有提高端服务器,因为大型机没有国产,小型机只有浪潮一家,形不成竞争。这块技术要破,只能从架构上。比如建行信息技术管理部总经理金磐石在《金融电子化》的文章里说,建行逐步落实“用X86 应用集群替代小型机”的策略,此举降低了40% 的小型机使用比率。也就是架构上要减少对高端服务器的依赖。其他数据库和操作系统,国内的产

48

品成熟度更低,国产化难度最大。

从发文看,以后入围产品品类里面,必须有安全可控产品。应用的集成商,也必须集成安全可控产品。也就是说,100%洋品牌的项目应该越来越少了。

2019年,75%的总体占比目标其实也很难考核。银行的应用和产品条目众多,这些条目不知道银监会有没有规范。如果没有,能国产化的条目分类细一点,问题就解决了。不能国产化的,只列一个条目:比如核心系统就可以了,O(∩_∩)O哈!这样一来,90%目标都有可能达成。西瓜哥建议按照投资占比来算比较合理,75%的IT投资用来购买安全可控产品。

最后,谈一点去IOE的看法。这些看法主要针对银监会,希望银监会不要封杀我。 监管指标应拉开差距。很多金融IT主管说,从监管角度来看,金融机构的业务连续性要求高,常规金融业务区域性半个小时服务停止是容忍的底线,证券期货类业务要求更为严格,业务停止5 分钟就需上报监管机构,上述要求不会因为使用国产设备而降低。因此,如果真要支持国产化,应该在这个监管指标上给国产设备放宽。国外IT产品发展这么多年,肯定比国内成熟,这是一个事实。你不能无视这个事实,不给IT主管一点宽容,没有人愿意采用国产设备。如果你认为这个标准不能减低,那么就提高洋品牌的指标。比如如果全是洋品牌,指标就是15分钟和2.5分钟,国产设备可以是半小时和5分钟,反正你得有差距。

学习电力系统,关键业务要求搞两套系统并行。估计到2019年,四大行的账务系统(也就是动钱的部分)应该还是IBM的专有大型机方案。小行基本不用大机,切换还快些。但这部分不安全可控也不行啊,总是一块心病吧。因此,能不能学习电力D5000调度系统一样,从现在起就并行建设一套全国产化的账务系统?两套系统并行跑几年,等国产系统成熟了,就可以代替IBM的专有解决方案了,否则,国产系统(包括软硬件)一直没有真实环境下的应用,其很难有机会稳定下来。要不,阿里巴巴的市值那么高,国资委注资,联合阿里把IBM收购得了。

大力招聘高水平运维人员。好像银监会要求IT人员占3%,但没有要求具体的运维人员数量。从最近几次银行出的事故看,运维的事故问题最大,比如今年的某商业银行长时间断网,表面上是由于性能问题,断掉数据库的复制造成数据库损坏;还有某行ATM不能用,据说也是运维人员在生产窗口做归档操作;可以举很多很多的例子,运维人员的水平绝对是去IOE最大的障碍。几乎所有的国产设备,在可运维特性,文档方面,自动化工具,运维工具等和国外产品都有差距。因为国产设备首先要在性能和

49

功能这些关键的地方追上国外设备,但往往忽视可维护性。每个设备都有自己的特点,你越了解这个设备,你就越能用好它。因此,国产设备稳定性和可维护性的欠缺,其实需要大量高水平的运维人员来弥补。因此,各个银行应该加大对运维人员的招聘,数量上和质量上都要加强。要采用国产设备,就要投入人员去学习和培训,去掌握它。我相信,国产设备有较好的性价比,肯定有做得好的地方,你了解这个产品,就只发挥它的长项,做的不太好的特性就不要用了,或者提前做好预防。天生我材必有用,用好其优点就足够了。但如果你不了解,可能操作不当,可能使用不当,如果是国外产品,其容错性或者稳定性比较高,可能不一定出问题,但国产设备就不一定了。我举一个栗子,国外的产品就像男人,情绪比较稳定,可预测,国产产品更像一个女人,情感比较丰富,不可预测,需要哄,哄高兴了,照样能顶半边天。

说白了,还是钱的问题,效率的问题。IT本来是用来提高效率的,但是,你现在为了国家安全,必须要国产化,那么你需要付出一些临时的成本,这些成本如果没有国家的补贴,可能让这个银行在国际竞争中失去优势,好在中国的金融还没有完全开放,主要的竞争还是在国内市场,因此,银监会有条件引领这个去IOE的浪潮,否则,上有政策下有对策,别到时候看似目标完成了,其实真正的核心技术还是掌握在IOE手里。

50

本文来源:https://www.bwwdw.com/article/zdfo.html

Top