11月28-29日,为期两日的36氪WISE2024 商业之王大会于北京隆重召开,作为中国商业领域的全明星盛典,WISE大会今年已经是第十二届,在不断变化的时代里见证着中国商业的韧性与潜力。
2024,是有些模糊且变化多于稳定的一年。相比过去十年,大家的脚步正放缓,发展更加理性。2024,也是寻求新的经济动力的一年,新的产业变化对每个主体的适应性提出了更高的要求。今年WISE大会以Hard But Right Thing(正确的事)为主题,在2024,什么是正确的事,成为我们更想交流的话题。
当日,「后摩智能」副总裁倪晓林带来了主题演讲,分享了AI与NPU背后所蕴含的无限可能与深远影响。
以下为演讲内容(经36氪整理编辑)
倪晓林:尊敬的各位来宾大家好!
我是来自「后摩智能」的倪晓林,「后摩智能」是一家基于存算一体的AI芯片公司。今天每个环节都在讲AI,各种AI大模型、AI设备、AI应用场景都在飞速发展。作为AI大时代的参与者、见证者,我们感到非常荣幸。下面与大家分享后摩智能对于边端侧AI算力需求变化的一些看法。
后摩智能
2022年11月OpenAI发布ChatGPT3.5,标志着AI 2.0时代的到来;2023年,大批的本地大模型发布。AI开始沿着两个路径同时高速发展。云端模型持续沿着scaling law向前演进,模型规模和参数继续增加,不断探索通用智能的边界。例如去年发布的GPT4的参数就高达1500B,也就是15000亿个参数。但追求高通用性、高智商的同时,也带来了超高的投入和高昂的运营成本。目前已经有大批的玩家开始退出了这个攀高的赛道。
与此同时,端边侧出现了更适合本地部署的7B,13B,30B等模型,和大型通用智能相比,这些模型更适合进入千行百业,解决各类实际问题。和云端“万模齐发,百模争霸”相比,端侧无疑拥有更大的应用规模,每年全球新增智能设备高达数十亿台,全球端边侧的规模想象空间更大、前景更广阔。
另外,端边侧的AI具有个性化更懂你、低时延实时性、数据隐私等优点,例如AI PC,它具有了解你个人信息的专属Agent、根据你历史文档建立的本地数据库等。
当然,目前我们看到更多的讨论还是云端模型,端边侧模型的还没有得到普及,我想除了这些软件的因素以外,还有一个很重要的影响就是硬件。端侧对的硬件要求和云端不同,可以总结为“三高三低”:高算力、高带宽、高精度、低功耗、低延时、低成本。
CPU显然无法满足全部要求,GPU虽然可以满足三高,但同时其高成本和高功耗又大大限制了端侧设备的普及使用。例如如果本地运行30B模型,我们需要一块4090显卡,但将近2万块钱的成本和近500W的功耗让绝大部分设备都无法承受。
和云端“训练”场景为主不同,边端侧大模型基本都以“推理”场景为主。专为本地大模型设计的NPU相信更加适合边端侧的使用。比如我们可以用十分之一的功耗实现GPU相同的算力,同时NPU自带大内存,无需通过系统总线占用系统内存,就完全可以流畅独立运行。NPU的成本也大大优于GPU,让现有设备+AI成为可能。
面对边端设备对AI高带宽、低功耗等需求,传统的冯.诺伊曼架构已经面临巨大挑战,特别是存储墙和功耗墙相信很多企业都已经苦不堪言。
存储墙,是指因为总线带宽有限,严重限制了数据传输的速度。
功耗墙,是指90%以上的功耗是耗费在数据的搬运中,而不是真正需要的计算和处理。
面对这两堵高墙,后摩智能采用存算一体的全新架构,实现了存储单元和计算单元的高度集成,计算直接在存储单元完成,使得功耗大幅下降,带宽大幅增加。
存算一体的AI芯片实现了AI能效比2-3个数量级提升。算力密度提升高达50%,时延较传统架构芯片更是有数倍提升。这些特点都非常适合边端侧AI大模型的需求。
后摩智能
目前,后摩智能已经自研了两代存算一体芯片架构,针对LLM类大模型,进行了专项设计。
主要体现在:
1、基于存算一体自研IPU架构,提供高并行的浮点和整型算力,自研SFU支持多种非线性算子;自研RVV多核提供了超大通用算力,可灵活支持各类LLM/CV算法;自研C2C接口,具备多颗芯片级联扩展特性,实现更大模型的部署。
2、配套的后摩大道软件工具链,简单易用,兼容通用编程语言。适配存算架构的算子库,高效利用存算IP所带来的性能/功耗优势,提升部署上线时间。
2023年和2024年,我们已经分别推出了后摩鸿途®️H30和后摩漫界®️M30两款NPU芯片,充分展现出了存算一体架构在算力和功耗方面的巨大优势。以M30为例,100Tops的强大算力,仅需12W的功耗。
在此提前预告一下,2025年,后摩将推出基于新一代“天璇”架构的最新款芯片,性能将再一次大幅提升,相信这款芯片可以加速端边设备部署大模型的进程。
后摩智能
为了方便AI设备方案商及生产商快速部署,我们不仅提供芯片,还提供多种标准化产品形态,包括力谋®️LM30智能加速卡(PCIe)、力谋®️SM30计算模组(SoM)等。对于现有各类终端设备,通过标准接口加装NPU,就可实现本地AI大模型的流畅运行。
2009年的移动互联网兴起,让我们的手机从功能机变成了智能机。2016年物联网的爆发,让我们身边越来越多的设备变成了智能设备。这些智能设备,在现有方案上,通过+AI+NPU的方式,将再次进化,成为AI大模型使能设备。
比如PC,我们看到联想已经在大面积推广AI PC了。汽车AI座舱、AI TV、AI会议大屏、AI具身智能机器人等,它们会成为更懂你、更聪明、更高效的助理、秘书、司机、文案、美工、程序员、辅导老师等等,为我们提供各种服务。希望通过后摩智能的AI芯片,助力大家实现快速升级。
1999 年到 2008 年,互联网让中国几乎所有的行业重做了一遍;2009 年到 2018 年,移动互联网把中国几乎所有行业又重做了一遍。我们相信,未来10年的AI大模型时代,NPU将重塑所有端边场景,所有的端边设备,都将再重做一遍!
希望与在座各位所有AI的企业、AI生态的合作伙伴一起多多沟通,我们一起合作携手,通过“+AI”的方式,使现有设备,以及未来将诞生的各种全新型设备,都能够流畅地运行AI大模型,期待我们一起携手共创AI的新时代,谢谢大家!