近日,英博数科对外正式发布英博云多款GPU智算产品及服务,并接受了网易科技等媒体的采访。英博数科CTO李少鹏、副总裁宋琛以及副总裁秦伟俊与媒体进行了深入交流,展示了英博云在人工智能算力领域的创新成果、市场战略以及对行业趋势的深刻洞察。

打开网易新闻 查看更多图片

(英博云系列智算产品与服务发布现场)

随着ChatGPT、Sora等AI模型的相继爆发,智算领域受到了前所未有的重视。英博数科希望抓住这一市场机遇,紧跟行业趋势,不断推动算力技术的创新与应用。据英博数科副总裁秦伟俊介绍,英博数科于2022年成立,作为鸿博股份的全资子公司,其率先在国内部署了英伟达集群,并成功交付了京能智算中心项目,积累了从建设、采购、部署到维修的全流程技术经验。

据介绍,在智算行业的变化中,英博数科敏锐地捕捉到了市场需求的转变。秦伟俊提到,智算中心的建设正从千卡规模向万卡规模转变,这对数据中心的基础设施建设提出了更高的要求。他强调:“万卡规模的智算中心是未来大规模通用基座大模型迭代的必备门槛,英博数科在这方面已经做好了充分的准备。”

针对当前算力市场存在的卡闲置问题,英博数科提出了单位有效算力成本的概念。秦伟俊解释说,这一概念的核心是提高算力的有效利用。为此,英博数科推出了GPU容器服务,提供基于K8S的云原生服务,面向客户提供按需使用的算力资源,甚至精确到按小时、按分钟计费,以及按照CPU任务或GPU任务进行混合资源分配,既满足了客户对算力的弹性需求,也大大提高了算力的使用效率。

同时,英博数科副总裁宋琛分享了公司在智算行业上的观察与判断。她指出,今年以来,大模型行业出现了不少变化,一方面垂直应用领域开始逐渐有了商业化落地的趋势,另一方面越来越多的聚焦于垂直领域应用的公司开始有了商业化实现闭环的场景和实践。英博数科也在这个过程中做了大量的工作,与众多客户建立了合作关系。

宋琛表示,英博云的主要客户一方面是京能集团、百川智能、无问芯穹、潞晨科技等产业界知名企业,另一方面则是清华大学、人民大学、中国科学院等学术界权威学府。与此同时,英博云也在关注多模态、视频生成、自动驾驶、具身智能机器人以及AI for Science等领域的垂直大模型企业,它们在训练算力使用方面有着爆发式的增长需求,但这种增长更多地分散于各个不同的企业和中小客户里。因此,推出了高效能、性价比最优的英博云算力解决方案,以满足客户的弹性、动态的训练需求。

在算力市场的未来趋势方面,宋琛谈到,随着技术的不断进步和市场的日益成熟,算力市场将会呈现出更加理性、健康的发展态势。她指出,虽然当前算力市场仍然存在着一些泡沫和不确定性,但是长期来看,算力作为AI领域的重要基石,其发展前景仍然十分广阔。

在技术层面,英博数科CTO李少鹏也分享了他对算力技术发展的看法。他认为,万卡和十万卡集群并行训练是未来趋势,也是当前算力领域面临的重要技术挑战,需要解决计算网搭建、设备选型、机房环境选择等技术难题。英博数科凭借丰富技术经验,有望在这一领域发挥更大优势。

他还表示,随着技术的不断进步和应用场景的不断拓展,算力技术将会呈现出更加多元化、智能化的发展态势。他指出,未来算力技术将不仅仅局限于传统的计算模式和应用场景,而是会向更加智能化、自适应的方向发展,这将为AI产业的发展带来更多的机遇和挑战。

以下是英博数科与网易科技等媒体的对话(有删减)

问:今年大家对算力的需求跟去年相比有没有变化?

答:第一,通用大模型训练算力集群的需求规模越来越大,从千卡集群开始向万卡集群的方向和数量去转变。第二,因为应用领域方面的突破,垂直大模型的训练算力需求迎来了爆发式的增长。但是这种增长更多分散于各个不同的企业和中小客户里,所以这一块的需求就从原来的定量开始转向了临时、动态弹性的训练需求。第三,商业化的加速把算力的市场开始从训练向推理场景做转化,推理场景下对推理算力的需求也在不断增加。

问:英博云提出了“单位有效算力成本”,有望成为AI产业衡量算力投入效率的新标准,提出这个的初衷和背景是什么?

答:用户在使用过程中真正看的是应用算力的效率问题,客户真正能用到的是装机算力要乘以卡的可用率。因为目前哪怕是最先进的卡,故障率也是很高的,尤其是在运维技术或者运维条件不完善的情况下,故障概率非常高。装机算力有1000P,一个月下来可用算力只有900P,100P就浪费掉了,作为分母的时候会整体提升你的算力成本。

使用率涉及容器化的问题。很多客户还以原来CPU时代的方式来运作,租几台算力服务器自己用,这种情况下卡的闲置率是比较高的,反馈回来就是使用率比较低。AI大模型时代,GPU非常昂贵,算力成本相比过去增加数十倍。我们可以通过在集中算力池里做容器化的调度方式,来提升卡的使用率。

最后一层是说我们要提升模型的算力利用率,这也是特定的针对GPU做大模型训练过程中最重要的衡量指标,体现模型训练的效率。

综上,装机算力分别乘以卡使用率、卡利用率以及模型算力利用率,可以得到实际的有效算力。当智算中心综合了设备成本、机电成本和运维成本的总成本,除以有效算力,就可以得到单位有效算力成本,可以用来从客户算力使用的视角来衡量智算中心的效益。

问:算力实验室业务有什么样的优势?

答:我们发现大量客户对于自己业务的场景是缺乏经验的,针对这样的情况,我们设立了算力实验室。主要聚焦在几个领域,一方面我们对市场上主流的算力卡做测评,根据测评的结果,给客户提供最有效的,最适合客户的解决方案,帮助客户减少试错成本。另外一方面,我们关注到国产化是非常重要的一个趋势,而且我们认为未来一定是国产高端算力卡实现国产替代,基于这样的前提,我们在算力实验室里对国产卡同步进行一系列的测评和适配。异构算力平台开发的工作,也是在算力实验室里进行的。

问:与其他GPU服务商相比,英博云的差异化优势体现在哪里?

答:英博云专注于做两点:一方面对大模型训练本身会有集群规模增长的头部客户、大模型客户来说,我们有集群的建设、运维的经验以及长期的技术积累、技术跟踪,我们为这一类大模型客户提供量身定制的集群选型、建设、运维和整体解决方案。另一方面,对于中小型对弹性算力有需求的应用领域的客户,我们推出了GPU容器服务。针对不同的客户我们有不同的服务和产品去应对。

问:为什么现在开始做一些中小型客户了?如果做中小型客户的话会不会跟大型公有云厂商做对垒了?

答:主要还是顺应市场的变化。目前大模型企业的格局相对来说已经比较稳定了,未来大量新增玩家入局到这个赛道里做大模型大规模的训练其实不是特别现实,更多的企业开始谋求商业化的转型和落地。随着大模型不断的迭代,垂直领域应用落地的探索也开始呈现蓬勃发展的态势。同时也有大量小B类的中小型客户开始发展起来,有相当多客户基于大模型客户服务于某个垂直领域,已经实现了商业化的闭环。这些客户是未来行业能够长期发展下去的基石,也代表了未来的方向,陪伴这样的客户去成长其实是我们选择的一个战略方向。

相对原来公有云厂商来讲,我们主要的特点在于专注GPU算力云领域。英博云一直以来都聚焦于此,不断进行深度技术积累、开展研发投入,在技术层面精研细磨,从而构建起强大的技术壁垒。不仅如此,我们还能基于自身的深度技术沉淀,为客户提供灵活定制服务,精准把控成本,精心打造契合客户需求的优质方案。在整个GPU算力云市场中,我们有力地填补了细分缝隙。有大量的客户是我们“手把手”去教,挖掘需求,听取需求,量身定制服务的,在这方面我们的灵活度很高。

问:英博数科有没有融资的需求?如果要补充自己的能力,会对外投资什么样的能力厂商?

答:从融资的角度来讲,智算中心建设本身是一个资本密集型的事情,比如一个128台设备的英伟达高端设备集群动辄就是好几亿的投资。我们在集群建设方面确实需要大笔资金的投入,市场上也有比较成熟的融资模式和渠道。作为上市公司的子公司,上市公司也有相应的融资渠道。投资上,我们关注到在AI应用领域有大量新兴创业公司,他们逐渐开始形成了商业化的闭环,而且未来的增长增速非常快。对于这一类企业,我们考虑以产业孵化器的方式从资金、算力、人才培养、生态等方面给予相应的扶持。

问:现在不少巨头都为10万卡集群做准备,英博数科有哪些机会可以去争取?

答:实现万卡或者十万卡规模的并行训练,需要把所有卡组在一张计算网里,其实这是比较有技术挑战的一件事情。在这个规模下,无论是IB网络还是RoCE网络都是非常复杂的,涉及整体的设备选型,选择用什么类型的交换机、光模块和光纤这些辅助设备的选型。另外机房整体环境的选择,什么样密度的机柜模式,这些都会影响到整个万卡或者十万卡集群的性能指标。英博数科其实是最早做大规模智算集群建设的,我们在过去不到两年的时间里积累了比较丰富的硬件层面,以及大规模组网搭建的技术经验。在万卡或者十万卡规模需求的情况下,对于英博数科这种专业做AI建设的公司是比较利好的消息,可以让我们之前技术的积累更好地发挥优势。

问:现在关于Scaling Law的讨论很多,有人认为可能它要走到尽头了,有人认为远远还没有到尽头。现在视频生成也越来越多了,也爆发了很多算力需求,这些会给算力发展带来哪些新的机遇或者挑战?

答:从第一性原理考虑Scaling Law的话,Scaling Law是不会失效的。基于人类已有的知识,训练一个尽可能聪明的大模型。只要这样一个基本原理在,不管算法如何演进,在同一个架构情况下,模型规模越大,模型就越聪明。它可能受到一些硬件条件的制约,但是它的作用或者它的效用是不用质疑的。现在我们看到了大模型在部分应用领域里显示出比较强大的力量,尤其是在视频生成领域,应用侧的威力开始凸显。整体而言,未来对于算力的需求是会持续不断地增长的。

问:几乎所有的AIGC产品都会面临比较严峻的算力问题,英博云能为AIGC产品提供什么样的支撑?

答:现在AIGC产品唯一的制约点是成本问题,我们跟很多客户聊的时候,看的情况是模型做得挺好的,输出的结果也挺好,但是难以大量投放或者难以真正经营,因为它的算力消耗成本是巨大的,导致它的收益覆盖不了算力成本,用户越多就亏得越严重。我们要做的事情是提供高效益的算力,让AIGC公司用到更便宜的算力,低成本就是我们未来的方向。

问:大模型产业现在处于什么样的阶段?

答:非常早期的阶段。几年前工业界、技术界已经在深入研究大模型了,但是直到去年才被大众知道,带动了一波研究浪潮,当时整个工业界对它充满了期待。但现在大家发现期待过高了,热情曲线迅速下来了,这是任何一项新技术发展曲线的一个阶段。随着推理算力的增长,大模型产业会逐渐进入平稳发展期,可能今年下半年就处在这样一个变化期里。

本文来自网易科技报道,更多资讯和深度内容,关注我们。