2024年3月20日,火花公开课36期《中国智算的未来》。对话中讨论算力中心建设面临的挑战和解决方案,包括建设方案的合理性和先进性、算力技术更新换代快、以服务用户为导向、算力中心的运营需要考虑提供便利的应用和插件等。同时,介绍了计算平台的通用能力和应用能力,以及人工智能发展历史和大模型时代的到来。此外,还讨论了人工智能基础设施在产业客户中的重要性,以及国产化人工智能芯片的发展面临的挑战和前景。最后,讨论了团队的背景和自研芯片在推理节点的优势,以及中国计算领域的现状和未来发展方向。

嘉宾:王平,登临科技联合创始人/首席架构师

主持人:鱼博士(#北大AI鱼博士)

互动嘉宾:尹雨,商汤科技智算中心事业部副总经理

尤作,AIGCxChangsha发起人

吴卓凡AIGCxGuangzhou发起人

高泽林石榴科技创始人/AIHero主理

倪考梦,AIGCxChina发起人

打开网易新闻 查看更多图片
中国智能的未来

要点回顾

1、AIGC领域的发展趋势及挑战是什么?

王平-登临科技:随着去年以来大语言模型和生成式AI的兴起,AIGC行业正经历着爆炸式增长,尤其是各种多模态模型的诞生。这不仅对算力中心的计算需求产生巨大压力,还切实改变着人类的生活。例如,人们可以通过写年终总结的关键字生成摘要,并在工作场景中广泛应用AI生成技术。尽管如此,国内目前仍有不少人对AIGC技术持观望态度,但随着技术进一步融入日常生活,我们需要思考如何让更多人使用和受益于AI技术。

2、在建设算力中心过程中面临的挑战有哪些?在选择建设算力中心时,如何实现合理规划与高效利用?

王平-登临科技:建设算力中心面临的主要挑战包括:一是需求旺盛但建设方案合理性及先进性有待提升;二是运营效果与算力服务跟进不足,用户难以充分利用算力资源;三是建设方案缺乏性价比,可能导致投资效率低;四是缺乏便利的应用接口和插件,使用户使用体验不佳;五是软件生态与算力平台之间匹配度不高,影响业务流水线的高效运行;六是算力中心不应仅服务于大模型,而应面向开发者和终端用户,提供开放、通用且易用的开发环境。针对当前建设方案存在的问题,建议采取小步快跑的方式,多次分期建设,每次确保能满足或应用的需求,让用户更容易上手使用。同时,要结合国内制造中心的发展现状,避免大规模一揽子投入导致的低负荷状态和高投资成本。此外,还需关注性价比,开发具有实际应用效果的硬件解决方案,并基于用户习惯打造开放的开发环境,使开发者能够轻松集成第三方资源和代码,从而提升整体开发效率。最后,要注重用户体验,让更多人能够便宜、高效地使用计算资源,通过用户反馈不断优化产品。

3、你们在开发过程中,如何利用CUDA、openCL等生态,方便其他开源代码和业务成果的迁移和应用?

王平-登临科技:我们在开发时,通过构建一个通用的平台,使开发者能够轻易地将现有的开源代码、工作中积累的知识成果迁移到新的系统中。这样做的好处在于,我们的平台具有通用性和广泛适用性,能够快速地在多个场景中落地应用,并得到了客户普遍认可。

4、你们的PCA异构架构是如何提高AI计算性能的?

王平-登临科技:我们通过PCA易购架构设计,实现了AI计算密度更大、带宽更低,从而提升了整体性能和符号效率。这一架构优化了AI计算资源的利用效率,使得我们的产品能够在相同的硬件环境下处理更多的数据,满足更多用户的需求。

5、在AIGC大模型方面,你们有哪些关键技术和优势?

王平-登临科技:我们具有超高的单卡容量,支持多卡并行计算,这使得一个模型可以容纳更多批次数据进行训练,提高了模型使用效率。同时,我们的模型支持fine tune,只需更少的机器就能完成相同的任务,适应私有化部署和公有云环境。

5、你们的产品线中是否有针对各种操作系统和硬件平台的大模型框架一体机?

王平-登临科技:是的,我们提供了一系列大模型框架的通用一体机产品,支持各种各样的CPU国产操作系统和非国产操作系统,包括Windows在内的各种操作系统,实现了全平台兼容性。

6、商汤的易总能否简单分享一下关于计算中心的定义以及计算中心的价值?

尹雨-商汤科技:计算中心不仅是基础设施层,还包括软件层面的技术设施,如AI芯片适配、人工智能大模型服务以及算法工具等。计算中心的价值在于整合数据、算力和算法,将沉淀下来的数据通过人工智能成熟算法进行大规模处理,发挥现有资源的最大效益,从而推动人工智能在各行各业的应用落地。

7、大模型在AI时代的重要性是什么?

尹雨-商汤科技:随着人工智能的发展,大模型因其处理的数据量和参数量巨大而成为计算密集型的标准形态。大模型基础设施势在必行,因为它能有效整合数据、模型和算力,实现行业加模型加算力的闭环,提升行业整体水平。商汤在汽车、医疗、城市建设、电力等行业均进行了大模型技术的落地实践。

8、对于人工智能的应用,商汤如何将其视为工具并与各行业结合?

尹雨-商汤科技:商汤认为人工智能是一个工具,需要与产业生态中的各个合作伙伴共同开发各种应用场景。我们与不同行业展开深度合作,尝试将大模型应用于智慧城市、医疗、电力系统等多个领域,旨在借助人工智能工具解决实际问题,提升行业整体水平。同时,我们也密切关注国家相关政策法规导向,如政府正在试点将数据资产作为财政要素进行价值评估。

9、数据资产如何映射到个人消费者或企业?

尹雨-商汤科技:在全球生成式AI核心IT支出预测中,23年到27年市场规模将快速增长。AI基础设施的主要服务对象将从C端客户转变为产业客户,如AI大模型公司和行业龙头企业,为他们提供大规模模型研发训练、行业应用孵化等服务。

10、传统云服务如何转变为服务于产业客户?

尹雨-商汤科技:传统云服务如阿里云和腾讯云,过去主要服务C端客户,基于CPU运算、网络时延、规模弹性等因素设计。而现在,随着人工智能技术的发展,云服务将转变为更专注于产业客户的AI基础设施,提供包括模型研发训练、具体行业应用孵化等全面服务。

11、人工智能基础设施在计算中心中的关键作用是什么?

尹雨-商汤科技:人工智能基础设施在计算中心中的关键作用不仅是数据存储和计算,而是转变为大规模模型研发训练及行业应用孵化。它是人工智能产业发展的重要推动力,是实现智能化转型的核心需求。

12、汤为何在上海临港布局人工智能计算中心?

尹雨-商汤科技:商汤从2019年开始在上海临港布局人工智能计算中心,目前已投资几十亿建设亚洲最大的计算中心,该中心致力于提供完善的大模型体系、核心软件支撑能力和数据闭环体系,打造先进供应链底座,并以市场化形式持续提供算力服务。

13、计算中心成功的完整闭环包括哪些要素?

尹雨-商汤科技:计算中心成功运营的完整闭环包含五个关键要素:完善的闭环大模型体系、核心软件支撑能力、数据闭环体系与数据沉淀、先进的供应链底座以及运营方案,以实现可持续商业模式。

14、计算中心在训练和推理算力需求方面有何变化趋势?

尹雨-商汤科技:计算中心在训练算力需求方面呈现持续增长态势,尤其在后半年或明年年初,随着大模型应用场景落地,推理算力需求也将迎来爆发。这预示着未来对算力的需求将进一步增加,无论是训练还是推理,都将成为重要的商业驱动力。

15、汤作为一家软件公司,希望通过哪些努力实现国产化GPU的无感部署?

尹雨-商汤科技:商汤希望通过与国内众多国产GPU厂商的合作,在临港建立的大实验室里部署超过1000P的国产算力,并进行适配工作,将国产CPU的新下线产品送至商汤进行相关的适配测试,以此实现国产化技术在软件层面的易用性和无缝对接。

16、在国家政策的支持下,未来几年国产化GPU市场容量和应用场景会有什么样的发展?随着国产芯片的发展,未来在推理应用场景中会有怎样的变化?

尹雨-商汤科技、鱼博士-主持人:预计未来几年,随着国家相关政策的支持以及国产化技术的成熟,国产化GPU的市场容量和应用场景会有爆发式增长。在训练方面,国产化技术已经可以用于商用,并且性价比已经可以满足需求;而在推理方面,国产化技术已经可以商用,性价比优势明显。随着国产芯片在推理场景中的发展,其优势会逐渐显现,因为它们基于大量不同场景的数据积累,使用起来会更加高效稳定,从而在推理环节提升市场竞争力。

17、国产化芯片在人工智能领域面临的主要困难是什么?

尹雨-商汤科技:国产化芯片在人工智能领域面临的主要困难是生态建设。虽然多家厂商在进行生态扩大适配,但目前这个过程还存在挑战,需要时间沉淀,类似于鸿蒙OS转向鸿蒙OS NEXT,需要一个较长的过程。

18、当前国产芯片在性能上是否已经赶超了英伟达的部分产品?

鱼博士-主持人:是的,根据易总透露的信息,在某些方面,国产芯片已经可以与前一代英伟达产品相媲美,但在应用场景和应用过程中还需要持续追赶。

19、对于创业型AI应用公司,如何应对未来可能的巨大算力需求?

尹雨-商汤科技:对于创业型AI应用公司,现金为王,首先要确保生存下来,再考虑研发投入。建议这类公司采用云化的算力租赁服务,以降低研发成本和周期,并通过POC(原型演示)或联合研发的方式逐步迭代所需算力。

打开网易新闻 查看更多图片
商汤科技智算中心尹雨

20、电力调度大模型与文本大模型有何区别,以及其在电网调度中的应用情况如何?

尹雨-商汤科技:电力调度大模型主要用于电网调度,如电力负荷预测、风力发电预测等,由于其复杂性,需要大量的人工智能人才支持。电力调度模型的应用效果并非“幻觉”,而是实实在在的成本降低和效率提高,但这种认知转变需要时间。

21、英伟达的最终用户协议对国内应用会产生什么影响?

尹雨-商汤科技:英伟达最终用户协议对于国内应用有一定影响,禁止未经允许将生成的模型转译到硬件上运行。这要求国内软件企业在进行算力适配时,必须解决非扩大API的使用问题,可以通过公共云服务将软件封装完成,让用户无感知地调用API进行模型生成和运行。

22、王总,您能否先简要回顾一下今天算力的趋势判断,并与之前易总分享的内容相印证一下?

王平-登临科技:我非常认同易总的观点,即今年训练算力相对稳定增长,而推理算力可能会有较大幅度提升。这是因为我们在生产和生活中实际应用算力来解决实际问题,比如开发有趣的产品,如果投入大量资源但用户无法使用,就失去了推广价值。而推理侧的需求日益增长,因此如何让推理侧的产品能够广泛应用是一个关键问题。

23、推理阶段,文字与视频数据量和需求量差距巨大,您认为这是否意味着未来推理算力的需求可能会呈现爆炸性增长?

鱼博士-主持人、王平-登临科技:我同意推理阶段的文字需求量远低于视频需求量,这将导致算力需求的显著增加。数据已经表明,过去几年算力的增长已非线性增长,而是爆炸式的增长,而且随着AI技术进一步发展,这一趋势将更加明显。

24、对于边缘计算和大算力需求结合的问题,您的团队是否有探索过解决方案?

王平-登临科技:我们正在研究如何将边缘计算与云端大算力有效结合,以便提供通用解决方案。这需要从底层架构和芯片选择上进行优化,使得在边缘侧能够高效运行,同时保证低功耗。在软件层面,我们也希望保持一致性,以减少开发复杂性。

24、能否介绍一下贵团队的背景和自研芯片在推理节点的优势?

王平-登临科技:我们团队成立于2017年,主要成员来自图芯、S3、英伟达、AMD和阿里等公司,具有丰富的高性能计算和GPU内核开发经验。我们团队的优势在于能够利用高性能计算的技术积淀,同时在商业逻辑上寻找既能获得高性能又具备成本优势的路径。我们的自研芯片采用了异步天宁易购架构,在AI领域进行了深度优化,拥有更高的计算密度和更低的功耗,同时兼容非GPU生态,易于客户落地和使用。

25、麒麟适配的过程中,我们作为加速卡供应商,在整个云边端系统中的定位是什么?

王平-登临科技:我们是无感的。因为我们主要提供算力功能,而整个云边端系统架构是计算领域的,具体如何在架构中运行是由大厂或者用户来决定的。

26、调度和资源分配这个关键点上,登临这边有相应的解决方案吗?

王平-登临科技:我们遵循生态兼容的理念,倾向于让用户和运维方能更好、更稳定地使用资源。我们已经做好了对K8S等云虚拟化和多用户复用功能的支持,让更多的用户能够使用我们的硬件资源。

27、下个阶段,AI应用类公司会更倾向于自建算力体系还是与现有云生态产生类似的合作关系?

尹雨-商汤科技、王平-登临科技:个人认为,现金为王是现阶段的发展策略。未来会更倾向于与像我们这样的算力中心合作,通过生态建设让用户能够将算力应用起来,形成一个闭环,实现算力的产生价值和产品质量提升。

28、对于推理市场的爆发,以及训练和微调为主导的情况,您认为独立GPU云玩家的数量会在短时间内增加吗?

鱼博士-主持人:预计在二三年的Q3和Q4,to c端APP的DAU会爆发增长。无论是大卡还是小卡,客户需求都以非标为主,且供给多元。同时,政府和初创企业对算力中心的扶持力度较大,独立GPU云玩家会逐渐增多,价格战阶段并不代表性价比高,关键在于机器配置、网络和应用程度。

29、未来三到五年,对于中国计算市场的展望是什么?

鱼博士-主持人:展望未来,中国计算市场在推理阶段有望发挥出优势,尤其是数据、应用等方面的优势将更大地发挥作用,让计算技术能更好地融入老百姓的生活,实现智能化和轻松化。

打开网易新闻 查看更多图片
登临科技联合创始人/首席架构师 王平