在2020年中国高性能计算机性能Top100的排行榜中,部署在国家超算中心(无锡)的「神威·太湖之光」依然稳居第一,国家超算中心(广州)的「天河二号升级系统」位列第二,而荣登榜眼的,却是此前名不见经传的北京超级云计算中心A分区。
这一排名,让许多此前并不知道北京超级云计算中心的朋友大吃一惊:「超级云计算」是什么?北京超级云计算中心的「A分区」究竟实力何在?
尽管大家对A分区的研制厂商戴尔(DELL)多有耳闻,但对A分区所部属的北京超级云计算中心却几乎一无所知,顾名思义,更容易将其与国家超算中心混淆。
这座超算中心成立于2011年,虽由中国科学院计算机网络信息中心孵化、北京怀柔区政府支持成立,但却不在国家的8个超算中心之列。
众所周知,我国第一个国家超算中心成立于2009年,由天津滨海新区与国防科技大学合作共建,斥资6亿。此后,国家又陆续在多个东部城市建立了超算中心:济南、深圳、广州、长沙、无锡、郑州、昆山……
其「政府+高校」的合作模式虽与国家超算相似,但自创立之初,北京超级云计算中心的核心理念便注定了它的不同。
从2011年到2020年,北京超级云计算中心何以从一个籍籍无名的超算中心,成为跻身于中国高性能计算机Top100榜单一员、并仅次于两个国家超算中心的明星超算呢?
在中国高性能计算盛会CCF HPC China 2021中,我们有幸见到了北京超级云计算中心的CTO郭宇,与他一同探究该中心的「成名之路」。
从建设的模式来看,北京超级云计算中心与国家超算中心有许多不同之处,其中,最大的不同便是:国家超算中心注重科研支持,而北京超级云计算中心的核心理念是超算商业化。
按照郭宇的话说,是「像设计产品一样设计超算。」
被誉为「国之重器」的超级计算机,向来是大国之间的必争之地。长久以来,这也形成了国家超算独当一面、民间超算不为人知的局势。然而,任一行业的发展,必然是多方势力的融合与交汇,百花齐放,从而共同推进领域的前进。
那么,在中国的超算领域内,北京超级云计算中心的位置在哪里?优势是什么?
1、超算市场的形成
回顾2011年北京超级云计算中心的成立节点,除了两个国家超算中心(天津与济南)的成立所带来的信号,超算市场的爆发早在过去的五年便有了行业的铺垫与基础:
2005年以前,CPU处理器处于「单核时代」,一个CPU只有一个核心。如果一台服务器上有两个CPU,那么,搭建一个1024核的CPU则需要512个节点,12个机柜,因为一个机柜最多只能装满42U。而每个机柜的宽度为60公分,12个机柜则是7.2米,相当于一个普通教室的宽度。更重要的是,仅依靠提高主频来提高计算效率的方法,
但从2006年开始,CPU处理器开始进入了「双核」、并逐步拓展到「多核」时代。双核处理器的出现,也奠定了基于x86的计算架构,英特尔与AMD在CPU帝国中的主导地位也就此形成:
2006年年中,AMD率先推出AM2平台。两个月后,英特尔发布Conroe,性能直接提高40%,与此同时,功耗也降低了40%。但英特尔并不「就此罢休」,同年11月又直接推出全新的四核处理器Kentsfield,直接把CPU推进了「多核时代」。
与单核的CPU相比,多核CPU的并行处理能力更强、计算密度也更高,并大大减少了散热与功耗。后来,CPU出现了8核、12核、16核……目前一个CPU最高已能达到64核。对于许多关注高性能计算的行业从事人员来说,他们认为,多核CPU必然会带来计算与任务的并行化,也就是说,超算市场在未来会迎来爆发。
因此,回顾超算市场的发展历史,在CPU进入「多核时代」后,北京超级云计算中心的成立,是卡在了爆发的起点。但当时,北京超级云计算中心还未正式开始商业化的探索,前期工作也主要以维护中科院计算机网络信息中心的超算集群,支持科研项目为主。
除了技术的加持,国家超算中心的陆续成立,也逐渐在国内孵化了一个算力的市场。
据北京超级云计算中心CTO郭宇介绍,国家超算中心的建设模式是:科技部与地方政府各出一部分资金建设好国家超算中心后,在运营阶段,超算中心的部分运营费用由地方政府的财政补贴,同时,向部分高校科研人员开放课题申请,由高校科研人员从课题经费中支出部分资金、到国家超算中心去采购计算资源。
在这样的模式下,国内逐渐形成了一个商业循环的算力市场。随着国家超算中心的出现,科研院所与高校逐渐缩减自建超算的规模,增加对外部超算资源的采购。如此一来,超算市场的用户越来越多,对超算的需求也不断增加。当市场扩大到一定的程度,必然会出现分化,分为高端市场、中端市场与低端市场。
对于国家超算中心来说,服务如此分化明显的市场并不是一件易事,且国家超算中心存在的目的主要是支持国家大课题(如航空、宇宙、气象等)、推进科研进步。这就造成了超算市场的服务缝隙:部分需要超算资源的小课题用户在提出需求时,并不能得到满足。
正是看到超算市场的这一缝隙,2018年,北京超级云计算中心开始了计算商业化的探索,希望能够提供「随需扩容」的计算服务,满足尖端超算以外的大规模通用超算市场。
2、探索计算的商业化
中国高性能计算机Top100的榜单排名由计算机的计算能力决定,而计算能力主要由计算机的单节点性能与集群规模构成。
北京超级云计算A分区的Linpack测试性能达3.743PFlops,计算峰值性能达7.035PFlops,CPU核数达到192000,几乎是第四名往后的计算机的三倍及以上。
据郭宇介绍,A分区从2019年年底开始建设,原先只有200个节点,而后在2020年年中扩容到3000个节点,背后的原因并不是为了争夺Top3,而是为了满足客户的需求。
在郭宇看来,国内的超算市场可以大致分为三类:尖端超算、通用超算与行业超算。其中,国家超算中心所服务的需求,便主要是尖端超算,以难度高、设计性能平衡为主,要兼顾计算、访存、通信与I/O等,服务对象是国家级的科研项目,重点是出成果,而不是盈利。
而北京超级云计算中心的目标市场是通用超算,主要面向万核以下(尤其是千核以下)的应用规模,为需求不一的海量用户提供租赁式超算服务。对于北京超级云计算中心来说,他们的目标是超算的商业化运营,实现超算业务的盈利,反哺到中心建设的投入中,实现自给自足、灵活外延的正循环。
「让计算不排队」,是北京超级云计算中心的核心理念。
从2011年成立至今,北京超级云计算中心经历了两个主要的阶段:
刚成立的几年,北京超级云计算中心以运营中科院体系内的超算为主,包括中科院计算机网络信息中心在2014年推出的超级计算机「元」、2015年的「元」二期等等。在这一阶段,北京超级云计算中心的建设模式、运营模式与国家超算中心的体系有许多相同之处。
到了2017年,他们逐渐发现了上述所说的国家超算中心无法满足的外溢市场需求。随着国内科研发展的深入推进,高校教师对计算的需求越来越大,超算的用户类型也越来越多,应用越来越复杂,用户对计算机的服务要求也越来越高。
比方说,有些用户做计算,并不是简单地将一个程序放到超级计算机上就可以直接运行,而是需要在Linux命令行窗口下将源代码进行编译、调优、集成甚至更复杂的适配移植,这对广大只熟悉Windows操作系统的用户来说过于复杂。
国家超算中心的主要任务是支持重量级的科研项目,取得出色的学术成果(比如获戈登贝尔奖),如此以来,国家超算中心的计算资源自然会优先分配给重要的科研团队,这就导致了许多中小用户享受不到好的服务,出现「排队计算」的情况。
基于这一行业需求,北京超级云计算中心便思考从商业运营的角度去解决国家超算中心的这部分外溢需求,通过灵活的方式将计算资源提供给超算市场的中小微「散户」。
于是,2018年,北京超级云计算中心发布了「中国科技云·超算云」,开始了计算商业化的探索征程。
他们以云服务的方式输出超算,注重商业化运营,遵循「随需供应」、「按需扩容」的理念,在两年间占领了一定的超算市场,赢取了客户的信任,在吸引更多中小用户的过程中对A分区进行了扩容与提升,最终在2020年赢得了中国高性能计算机Top100排行榜的第三名。
郭宇表示:「赢得Top3是结果,不是目的。我们打造超算,本心是为了服务客户,获得该荣誉是锦上添花。」
相对于聚焦Top3的排名,郭宇更希望大家看到A分区背后的北京超级云计算中心及其独特的建设模式。
3、关于「计算」模式的新思考
郭宇提出了一个有意思的观点:作为一种「产品」,计算的独特之处在于,在用户购买计算资源时,用户需要的并不是计算资源,而是想要解决问题。就像人们在购买电钻时,他们想要的并不是电钻,而是电钻在墙上钻出的洞。
所以,在市场上推广计算资源时,北京超级云计算中心往往是强调「客户服务」,而不是中心的资源情况。
从A分区来看,我们不难发现,北京超级云计算中心与国家超算中心的模式多有不同:
首先是建设周期。国家超算中心由科技部或地方政府出资,超级计算机的项目申报需要经过层层审批,建设周期一般为3-5年,而A分区由北京超级云计算中心内部「拍板决定」。此外,A分区的建设主要基于市场上已有的技术设备,减少了技术攻关的时间成本。
比如,A分区从2019年年底开始建设,从一个试验性的小集群到面向用户开放,2020年年中扩容,只用了3周便从200个节点扩容到3000个节点。
其次是分布位置。从地图上看,我们不难发现,国家超算中心基本分布在东部城市,而北京超级云计算中心的超算系则主要分布在中西部,尤其是西部。A分区便是分布在宁夏。计算中心是「耗电大户」,从商业运营的角度看,西部的电价明显更低。以北京为例,北京的电价每度为9毛钱,而西部城市只有不到3毛。
在建设A分区的时候,国家还没有发布十四五计划,「碳达峰」与「碳中和」的概念还未兴起。郭宇谈道,从北京超级云计算中心的角度来看,他们在建设A分区时,主要是遵循商业运营的逻辑,而今年「双碳」热点出现后,他们意外地发现,自己的路线竟契合了国家的「双碳」战略。
「西部有风力发电、光伏发电,能源丰富,而且年平均气温比较低,十分适合计算中心的生存,所以我们将西部作为主要的据点。而且超算业务对实时通讯的需求不高,用户更关心的是产品的价格,至于机器是在Ta的本地城市、还是在几千公里以外的西部,他们并不关心。」郭宇解释。
北京超级云计算中心面向通用超算,用户数量大,符合长尾效应。郭宇谈道:「有这些特点的市场,是比较适合用互联网的方式去服务的。一是降低单用户的成本,二是贴身服务。」
所以,无论是计算选址的确定,还是「超算+云服务」的互联网运营模式,都体现了北京超级云计算中心在计算供应中注重灵活与性价比的特点。
从A分区所搭配的CPU来看,也可窥见北京超级云计算中心的商业运营理念:
A分区采用的是AMD在2019年推出的第二代EPYC(霄龙)服务级处理器,代号罗马(Rome),基于7nm工艺,搭载64核心128线程,每一个核心的内存为4GB,在提升核心的同时也提升了时钟速度,加速频率可达3.4GHz。
从计算机的角度来看,计算总共可以分为4种类型:计算密集型、访存密集型、存储密集型(I/O密集型)与网络通信密集型。北京超级云计算中心的主要客户是访存密集型的应用,这决定了A分区的特点是:计算规模不大,成本低。而罗马处理器主频适中,计算性能适中,能耗低,性价比高,显然更有利于商业运营。
郭宇坦言,北京超级云计算中心的目标从来不是打造出像「神威·太湖之光」或「天河二号升级系统」这样各方面性能均衡又出色的超级计算机,而是找到自己的市场定位,为目标用户提供适合他们的超算方案。
根据处理器的类别,北京超级云计算中心的超算分区可以划分为四大系列:
• 基于AMD芯片的A分区与M分区,以及A分区的加强版「A6分区」
• 基于英特尔芯片的T分区与L分区
• 基于国产芯片(如海光x86 CPU)的先导一号
• 基于英伟达芯片的AI智算云,比如N17、N19区
根据不同用户的需求,北京超级云计算中心设立了不同的分区去满足这些需求。比如,荣登2020年中国高性能计算机Top100榜单的A分区便是专门针对计算密集型与访存密集型的用户,存储性能加强的I/O分区专门面向I/O密集型,等等。
「中国科技云·超算云」汇聚了国家超算中心、互联网云计算中心等资源,可以为用户提供定制化的计算服务。同时,他们揭掉了高性能计算的「神秘面纱」,为用户提供运行问题解答、参数配置优化、定制化脚本编写等一系列服务,更有一对一专属微信群、7×24小时人工值守与5分钟快速响应等机制。
4、自主研发离不开计算
近年来,越来越多企业高举「自主研发」的旗帜。与此同时,产品的迭代周期加快。为了快速满足市场的需求,研发人员会越来越多地利用数字化技术进行模拟仿真,其间产生大量数据,对计算的需求也会越来越多。
事实上,从2010年以来,许多企业也陆续建立了计算中心,但他们同样面临建设周期长、内部计算资源协调难、计算排长队的现象。企业一般是基于项目的优先级进行计算资源的分配,但人工协调的效率较低,限制了研发项目的进展。
郭宇认为,随着人们对云计算优势的认识加深,云计算的市场也在不断扩大。在新基建中,「数据中心」对应的便是云计算,云计算是数字化转型的基础。同时,随着「双碳」规划的推进,碳排放指标也将成为自建超算中心发展的限制因素之一。而北京超级云计算中心在分布位置上的先见之明,无疑将在未来的逐鹿上优势渐显。
作为国内第一家成规模的、市场化运营的超算中心,北京超级云计算中心的建设模式,启示了中国超算市场的发展现状:除了国家超算中心,越来越多由地方政府支持、民间创办的超算中心展示了其在推进中国超算发展上的独特优势。
比如,在2020年中国高性能计算机Top100的榜单排名上,除了北京超级云计算中心A分区获得佳绩,内蒙古和林格尔新区的内蒙古高性能计算公共服务平台(青城之光)位居第四。
除了尖端超算与通用超算,中国的超算市场还有一股重要的力:公有云厂商,比如阿里云、华为云与亚马逊云(AWS)。北京超级云计算中心的另一块重要业务——行业超算,便与这股力量有所交织与重叠。
行业超算更注重实际业务,应用规模为单核到几千核不等,超算只是业务中的一环。比方说,在基因测序的过程中,基因测序仪产生大量数据,这时候,如果数据存储在云上,使用云的存储、网络与计算资源等等服务进行基因的测序与分析,那么整个业务流程就会十分顺利。
对于这类业务流程,郭宇自认为,单靠通用超算是很难满足的。从北京超级云计算中心的角度来看,他们会考虑将通用超算与云厂商的云服务资源相结合。除了核心的计算业务,公有云厂商还提供丰富的云服务组件,能更好地解决用户的问题。
「对用户来说,解决问题最重要。至于计算资源来自哪里,他们并不在乎。我们就是要把各种优势的资源组合在一起,满足客户的需求。」郭宇谈道。
从2018年至今,北京超级云计算中心已服务超过15万用户,2019年便开始实现了盈利。
比如,北京超级云计算中心曾支持中科院力学所研究中速磁浮列车的空气动力学外形优化设计。中速磁浮列车气动外形优化研究需要针对一系列优化外形进行数值模拟研究,对计算资源的要求较高,单工况网格量约6000万左右,流场特性研究及外形优化研究中产生的计算工况上百计,单工况并行计算核数约200个。
在这个项目中,北京超级云计算中心提供了可灵活拓展的大量计算节点,保证了多任务的提交计算。最终,他们确定的最优化流线外形,相对于原始外形,头车气动升力系数增加了33.25%,尾车气动升力系数减少了1.78%,整车气动阻力系数减小了4.44%,大幅提升了中速磁浮列车的气动性能。
「从用户的角度看,建设几千核的计算资源,先不说时间,就投资成本来讲,现在的主流服务器,一个节点大概是40核心,如果他用的是5000核的计算资源,那么就需要125个节点,125个节点大概需要投资1000来万,但他们的项目时长只有两个月。」郭宇介绍。
因此,从投入产出比来看,对一些短期的项目来说,直接采购计算资源显然更划算。
5、计算紧跟时代
在郭宇看来,目前国内的超算市场展示了以下三个趋势:
趋势一:国内的企业越发重视自主研发,计算需求增加,同时也越来越愿意接受云计算的模式。
趋势二:国产化的推进加深。在超算体系中,芯片、操作系统、应用等等方面的国产化趋势将越来越明显。
趋势三:计算体系架构正在革新。随着人工智能、加速计算的兴起,以异构计算、加速卡为引导的GPU力量正在崛起。
郭宇谈起,他在2019年去美国参加全球超级计算大会(SC)时,席间与美国高校的老师聊天,得到的讯息便是:「在现在的环境下,如果你没有搞点GPU的加速计算,文章都难发。从学术的角度看,CPU体系已经研究地差不多,下一个重点就是GPU。」
2021年正好是北京超级云计算中心成立的十周年。作为一家商业运营的超算中心,郭宇介绍:「我们肯定会坚定不移地走计算商业化的道路。与此同时,他们也会与时俱进,根据国内超算市场的发展趋势,制定新的发展方针。雷锋网
紧跟学术界的研究趋势,北京超级云计算中心也加大了在GPU计算领域的投入,建设基于GPU加速卡的计算分区。随着人工智能计算的兴起,以及异构计算模式的变化,他们也顺势建立了「AI云·智算云」,以满足部分从事人工智能研究的学者需求。雷锋网
相应地,针对企业的自主研发需求,北京超级云计算中心也逐步推出了一系列面向企业的计算资源,比如针对CAD三维设计和中小规模CAE仿真计算的设计仿真云,支持海量中小企业实现“云上研发”,可以极低成本起步,推动中小企业高速发展,为国家中小企业发展打造坚实云上研发平台。针对超算体系国产化的趋势,他们也建立了基于国产芯片的集群(先导一号),与国产软件厂商合作,通过云化的方式,帮助国产应用更好地触及用户。雷锋网
在郭宇看来,「让计算不排队」不仅是一句口号,更是切实、坚定的实践。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。