编者按
“总编访谈”是InfoQ推出的一个高端访谈栏目,由总编辑崔康主持,致力于深入采访国外内顶尖技术力量,报道最前沿、最有深度的内容,分享干货和经验。
本次受访嘉宾是UnitedStack创始人程辉,就云计算市场的现状、发展趋势,以及UnitedStack在业务方面的战略调整给出了自己的解读。
InfoQ:为什么UOS1.0是做发行版,而从2.0开始做公有云和托管云了?
程辉:公司2013年成立,在当年10月份的时候发布UOS1.0,当时的想法很简单,很多厂商都推出高度产品化、定制化或者优化过的OpenStack发行版,然后通过外围的一些服务挣钱。我们也想解决OpenStack的一些痛点,比如自动化部署、运维等,并针对国内用户的使用习惯进行了改进,最终发布了UOS1.0。产品本身是比较酷的,把U盘做成了一个产品,交付给任何一家IT公司或者个人用户,在服务器上插上U盘,过一会就搭建出一个云环境。
但我一直在反思。用户拿到了UOS1.0之后,整个安装过程非常快捷,但是用户拿UOS 1.0来提供7x24小时持续的云服务还是很遥远。我们只是解决了从无到有的问题,而这只是万里长征第一步,接下来还需要提供对外服务,保证产品不宕机可扩展,而当时我们并没有解决这个问题。
所以,公司做了重大的业务转型。把UOS 1.0中的的核心技术包括分布式存储、高性能网络、优化的主机调度等,应用到自己的公有云上,开放给公众使用。当时还没有考虑商业模式的事情,只是觉得我们应当把这些有价值的技术和产品开放出去,让别人受益,公司就自然就有价值了。说做就做,我们拿出了公司剩余的大部分钱在北京租了机房,买了一批设备,从核心技术到计费平台、说明文档、注册系统、自动化运维等,花了近半年的时候做公有云。
InfoQ:公有云发布之后遇到了哪些挑战?
程辉:主要有三个挑战:
第一,如何在坚持OpenStack开放标准的同时满足国内客户定制化的需求。UnitedStack云服务完全基于OpenStack开放API构建,但是OpenStack开放API并不能完全满足客户需求,因此这里需要与社区做足够的沟通工作,将这些差异化的需求提交给社区,同时我们还在保证100%兼容的目标的情况下对OpenStack API进行扩展。这对于团队对于OpenStack开发能力有足够的自信才能做到。
第二,平衡OpenStack社区开发与生产运营的差异。社区开发时,我们只需要完成功能开发和测试,但当我们要生产运营一个OpenStack云平台时,这时需要考虑平台运营过程中可能出现的各种事件,比如物理服务器宕机,存储扩容、缩容,磁盘故障,网络抖动和攻击等,需要为每一种异常或者失效准备预案,及自动化运维措施,并及时响应。
第三,获得客户信任。作为一个新兴公有云平台,获得客户信任是一个漫长的过程,任何一次异常或者故障都会导致客户信心的丢失,客户几乎不能容忍一次故障,这是最大的挑战。平台每天都会有更新和升级,也不能中断客户业务。
InfoQ:UnitedStack为什么提供托管云业务,出于什么考虑?
程辉:有句话说“出来混总是要还的”,刚开始创业的时候,我们没想商业模式,从发行版到公有云,都没想好怎么赚钱。我们知道现在很多公有云都是巨头在做,几十亿的资本投进去才可以做好。作为一个小的创业公司做公有云,你确实有机会,但是相比资本的力量,这是上百倍的差距,你在市场上可能有竞争力,但是很难做的比他们更好。
我开始思考如何进一步商品化整个公司的品牌和技术,在国内,有一批大客户,对云的需求量更大,而且没有哪一家公有云可以服务好他们。大到什么程度呢?大到用公有云已经很不划算了。比如对弹性计算要求极高的新兴的移动互联网公司、游戏公司,还有对云扩展性和安全性要求高的银行和互联网金融公司等,他们的业务量规模大且比较需求量比较固定,而且对于安全性、数据主权等要求极高,因此这些客户不太放心将这些业务放到公有云上。
所以,我们推出了托管私有云(Managed Private Cloud),可以理解成独享的公有云。我们的核心价值在哪里?我经常把云建设的投入分为三个部分,一是IDC资源,包括电力、带宽、机位等,这是一个高度市场化的领域,比较成熟,这块交给客户去解决,因为价格已经市场化了;二是服务器设备,更加市场化的领域,发展了几十年,我们没有必要做;三是独立的技术平台和运维,这才是我们应该做的事情,帮客户做好管理、维护以及后续的升级,甚至新功能的研发、监控等。
事实上,如果把托管云三部分的投入成本和同样资源的公有云费用做比较,就会发现,托管云的整体成本只有公有云的1/3-1/5,看起来不可思议,但事实如此。目前,已经有10个托管云的大客户上线,机房12个,分布在北京、广东、上海和东北地区。
我可以随口算一下,做一个云计算环境,需要的人包括虚拟化工程师、存储工程师、网络工程师、监控工程师、UI设计师、运维工程师等等,每一个岗位都需要花很大价钱。托管云可以让客户节省大量的钱,关注自己的业务。在UnitedStack平台,托管云的系统平台和公有云是一样的,有什么更新,都会同步升级。
InfoQ:既然托管云商业模式比较好,为什么还要做公有云,据我所知国内的其他公有云市场盈利艰难。
程辉:这是个好问题,很多人都不理解。在没有公有云之前,我们去向客户推销技术平台时,客户经常会觉得你说的这个好东西没有经过验证,没有看到实际的生产案例,没有看到实际的用户,后来,我们上线了公有云,让大家看到我们的高性能、用户体验、运维、持续更新等能力,通过这些方式,客户才开始接受我们的托管云。另外,不同企业,在不同的阶段,对云的需求是不一样的,比如,互联网创业公司,肯定初期倾向于公有云,待业务规模足够大而且稳定的时候,这时采用第三方服务的私有云可能是一个更好的解决方案,他们需要不同的云服务模式去支撑他们当前的业务。因此,总结一下,公有云一方面满足部分客户的需求,另一方面,方便客户构建其混合云体系。因此,这里公有云也是我们商业模式的一部分。
InfoQ:关于托管云服务,用户自己找机房和数据中心,那么在搭建和维护云服务过程中,是不是偶尔需要你们派工程师去现场?
程辉:我们现在落地了10个大规模的托管云,几乎没有上门服务过!前期,我们会和客户商量好,需要采购哪些设备,如果配置,发给他们一个表单,购买之后,我们的工程师会告诉他们如何关联这些设备,还是一个清单搞定。最后是打通VPN隧道,一旦完成,我们就可以通过远程方式部署第一台种子机器,剩下的其他机器就会逐渐配置完毕。我们最快的客户案例是从确定合同到托管云正式上线用了不到一个月的时间。我认为,以云计算为中心的上下产业链配合的很好,IDC提供电力、机柜和带宽服务,硬件厂商提供基础设施,我们提供云平台技术,上面的PaaS或者SaaS厂商提供相应服务,云生态和谐共存。
InfoQ:如果部署在客户那里的托管云平台系统需要升级,对客户的服务是透明的吗?
程辉:保证部署在客户数据中心的托管私有云无中断地平滑升级是我们的核心能力之一。面向大规模业务的互联网分布式IT基础架构一个最重要的特点是不允许中断。以微信为例,用户基数很大,几乎每分每秒都有人用,微信从上线到现在,几乎每天都有很多变更,但不能中断服务。云计算也是这个道理,客户把服务交给我来管理,我需要既保持稳定又要不断的改进、变更和升级。为了保障无中断升级,我们推出了很多举措,比如,我们在升级的时候,会给客户的业务做热迁移,保障业务连续性,用户几乎感觉不到服务中断。通过这些手段,每次OpenStack推出新版本时,我们都能及时跟进,现在我们公有云和所有的托管云客户都是运行在最新的OpenStack Juno版本上的,我们为客户提供托管的OpenStack有一年多了,都是从早期的G版本一路升级过来的。既然我们做托管云,也需要按照最严格的公有云标准来要求自己。
InfoQ:分享下你在开源方面的心得吧。
程辉:这需要从我在新浪工作时说起,当时我没有做开源,接手的任务是把公司的云平台尽快上线。我招了一批在校实习生,让他们两个月之内不参与任何公司的内部工作,只在社区中做,找bug,然后尝试修补。如果提交的补丁不规范,就会被社区退回来,有人曾经被打回20多次,通过这个过程,社区帮我很好的培养了这些人。在新人成熟之后,云平台只用了一个月时间就上线了。 后来,我们被邀请去国外分享经验,我也有了创业的原始动力。后来就成立了UnitedStack,即使在资本很紧缺的情况下,我也会安排工程师全职在社区当中做。正因为如此,我们的系统稳定性才会很高。
另外,社区的架构设计和文档对我们很有借鉴意义。比如,某一个开源的账号体系,开始我们觉得特别复杂,设计了几十个新的概念,不可思议。但是,后来我们在设计云平台的账号系统时,才发现人家的设计是多么好。如果没有社区经验,是很难设计出来的。 通过社区让我们知道了这些东西,让云服务产品更加有竞争力。
InfoQ:你认为UnitedStack的核心竞争力是什么?
程辉:刚才我已经说了一些。第一个是开源,目前在中国市场主流的云当中,我们算是唯一一个完全基于开源来构建的商业的生产的云,我们目前云系统采用的两大开源平台,OpenStack和Ceph,不仅开源平台为我们提供了源源不断的动力,我们还有一批非常懂开源的工程师,保证我们团队在开源业界的领先水平。第二个是互联网精神,既要变又要稳。公司核心团队基本上来自于互联网公司,因此我们有能力将互联网的基础设施和运维管理经验带到客户的数据中心。第三个优势,商业模式的创新,我们是国内第一家旗帜鲜明地提出托管云理念。如果对明年或者后年的云市场做一个预测的话,托管云会成为一个不可小觑的云计算细分市场。
InfoQ:你对目前云计算的发展现状有什么样的看法?
程辉:中国云计算市场现在还没有清晰的市场区分,总体发展还处于初创和混沌期。具体表现在,目前主流的云服务产商均采用的是自研的私有技术、私有API,云平台之间没有统一的互通接口,缺少统一标准,无法通过标准参数来衡量一个云服务的优劣。
基础设施云计算技术,不论是IaaS还是PaaS,大约未来3~5年左右时间会成为高度商品化的技术,商品化意味着花钱就可以买来,有市场有技术,而且市场和技术可以交易和转换,到那个时间,云计算市场竞争将从技术竞争真正转变为资源和服务的竞争。
比如,我们提出的托管云服务其实对应国外的是Managed Private Cloud,这在国外是一种主流的私有云交付方式,不论厂商、企业用户还是媒体都非常清楚。
InfoQ:云计算市场有哪些细分领域和玩家?他们分别有何特点?
程辉:我就按大家最常见的理解分为公有云和私有云两大体系。公有云市场按平台技术类型来看有两大类:
第一大类是基于自研的私有技术的公有云,比如阿里、腾讯等互联网巨头提供的云平台、外资的云(如AWS,Azure)、Ucloud,青云为代表的创业公司的云 ;
第二大类:基于开源技术构建的公有云:如京东云、金山云,UnitedStack、还有电信、联通等运营商的云平台,都是基于开源的OpenStack平台构建;
云计算和其他行业一样,顺应从闭源技术到开源技术的发展趋势,我们看到,2014年之后新成立的云平台,基本上都属于大二大类,基于开源构建。
云计算是可以OEM的,透露一下,到目前为止,国内已经有接近10家IDC、互联网公司公有云厂商的底层是Powered By UnitedStack的,即我们团队为其提供完整的公有云平台、技术还有运维服务,初步实现了IaaS云平台的商品化。
私有云有目前非常明显两大体系:
一类是商业VMware生态,目前私有云市场占有率非常高,尤其是在传统行业,但是目前大量只解决了虚拟化的问题,分布式存储、SDN网络等云计算核心技术还很难应用起来。
第二类还是OpenStack开源私有云生态,目前OpenStack开源私有云模式已经被广泛接受,在VMware最稳定的、市场占用率最高的金融和政企行业也可以看到越来越多的应用案例。UnitedStack的OpenStack私有云方案已经帮若干家金融和银行公司替换掉了VMware解决方案。
InfoQ:按照以前的IT规模,可能是市场成熟之后,有两三个比较大的卖家。你觉得云计算这个市场,会遇到这个问题吗?
程辉:不会例外,也会是这样的,大者恒大,因此,我们在未来两年必须变得强大起来,否则就会被淘汰出局。
InfoQ:UnitedStack在未来几年的路线图是什么?
程辉:技术路线上,我们会坚持开源,投入更多资源将开源项目产品化。在基础设施服务层面,高性能SDN网络和高性能统一存储将持续是我们的重点。SDN网络在开源界也是最近两三年才开始逐渐被关注和被应用起来,目前已经初步实现了SDN网络的构想,但其性能和稳定性还有进一步提升空间,在我们的计划中,未来1年,SDN网络的性能还有3到5倍的提升,并且会新增更多企业级安全特性,进一步满足严肃的企业级应用。
高性能统一存储的目标很简单,不仅要完美的替代传统的SAN企业级块存储,还能够为大数据、对象存储等业务提供底层支撑。性能优化方面,目前我们的分布式存储读写IO延迟已经突破了1毫秒,几乎接近分布式块存储的极限。在提供极高性能的同时,我们还在数据安全性方面下了很大努力。今年会继续在存储多样化上下努力,比如,刚刚上线的NAS存储服务和虚拟SAN功能,在行业内也是独一无二的。
基于扎实的基础设施架构,我们还将在PaaS层构建更多服务。
首先是容器技术的大规模商用。UnitedStack是国内第一家提供容器服务的云服务厂商,今年将在Docker存储和网络方面做一些功能优化,解决目前阻碍Docker容器服务商用的问题;
其次,将大数据与统一存储做整合,将OpenStack云平台和Hadoop大数据平台两大开源体系全二为一,真正实现我们内部早年提出的“一个底层,多个平台”的构想;
第三,将持续引入更多的开源的和商用的PaaS层服务,比如MySQL,MongoDB,Oracle数据库服务,Redis, Memcache等缓存服务,让开发和运维变得更简单。
本文转载自infoQ