打开网易新闻 查看更多图片

经济观察网 记者 任晓宁 “完全没有想到会以这种方式出圈,挺惶恐的。”6月14日,面壁智能首席执行官李大海在接受经济观察网采访时,提到了此前火爆一时的斯坦福大学学生抄袭面壁智能旗下大模型的事件。他认为,从全球范围看,目前中国在端侧模型、开源模型等领域都有创新的地方。

5月29日,多模态大模型Llama3-V在开源社区走红,其开发者是美国斯坦福大学学生组成的AI团队,他们声称可以用500美元的价格训练出对标GPT-4V(美国AI公司OpenAI旗下大模型)多模态能力的模型。

第二天,Llama3-V模型被网友指出涉嫌抄袭中国的端侧模型MiniCPM-Llama3-V 2.5,这件事在国外AI圈引发关注,在国内也多次登上微博热搜。最终斯坦福大学学生选择道歉并删除Llama3-V模型。

MiniCPM系列模型由中国大模型创业公司面壁智能开发。这家公司此前只在AI圈内知名,但因被抄袭一事名声大噪。李大海在接受经济观察网采访时,讲述了该事件的来龙去脉。他认为,该事件说明,中国的大模型技术在一些领域已经处于全球领先位置。

面壁智能主要做端侧模型。相比互联网大厂和其他大模型创业公司主要发力的云侧大模型,端侧模型一般参数较小,比如MiniCPM的第一款模型,只有20亿参数,但可以实现文本翻译、知识问答、代码编程等大模型能力,也有多模态能力。由于成本低、参数小,端侧模型更适合在手机端、个人电脑(PC)端和智能硬件端使用。

与已经开启“百模大战”的云侧大模型市场相比,端侧模型市场的国内参与者较少。李大海解释,面壁智能所做的事,是在同样的时间、同等参数量的条件下,把模型知识压缩的效率做到极致,把更多的高质量数据压缩进一个更小更优的模型中。

面壁智能成立于2022年8月,创始团队主要来自清华大学自然语言处理实验室,联合创始人刘知远是清华大学计算机系长聘副教授、博士生导师,李大海则担任过知乎首席技术官。

2023年至今,面壁智能完成了两轮融资。去年4月,知乎、智谱AI对其投资数千万元。今年4月,面壁智能完成了新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投。

以下为对话实录:

经济观察网:之前斯坦福大学学生抄袭面壁智能模型的事件,是否说明当前中美大模型的差距缩小了?

李大海:在最大、最聪明的模型层面,我们距离美国整体还有比较大的距离。这些差距是由于资金能力、算力水平、算力投入等造成的,我们需要正视这些现实。

但中国在很多领域也有自己的创新和探索。比如对端侧模型的探索,我们在全球范围内都算是比较领先的,所以才会出现被抄袭的事情。此外,在开源模型这个领域,国内有很多同行在不同层面都做出了创新,比如阿里通义千问对开源模型的贡献就比较大。

经济观察网:今年是AI应用元年,很多大模型产品正在落地,出现了各式各样的应用。你们所研发的端侧模型,是否也已经开始落地?现在有哪些应用场景?

李大海:在PC、手机、智能汽车,以及一些前沿的智能终端领域,都有端侧模型落地的场景。我们最近在和一家机器人公司合作,他们研发的是外形像宠物猫的情感类机器人,主要提供给爱猫的用户。我们的端侧模型与机器人结合在一起,能让它更加懂用户,能更好地与用户进行交流,给用户带来很多情绪价值。

经济观察网:为什么这家机器人公司要和你们的端侧模型合作,而不是和其他大模型公司合作?

李大海:因为在这样的场景中,端侧模型有比较大的优势。其他云侧大模型也可以用在机器人之中,但端侧模型的成本更低、可靠性更强,因为它不需要依赖于网络。即使断网后,用户也可以和这只机器猫交流。

相比云侧大模型,端侧模型参数规模要小一些,它不可能做所有的事情,这是它的劣势。但是它有非常好的隐私性,也有更强的可靠性,比如在飞机上、在隧道里或在野外,人们都可以放心大胆地使用它。

经济观察网:ChatGPT(OpenAI旗下聊天机器人)等大模型产品当下已经被广泛应用。端侧模型技术进展到了什么程度,可以落地应用了吗?

李大海:在一些特定的场景下,比如嵌入到宠物机器人中与人类进行交流的场景,端侧模型已经是可用的了。但它现在还没到大规模使用的时候。

关于端侧模型什么时候可以大规模应用到手机、PC中的问题,我想提供一个大模型维度的摩尔定律。我们发现无论是开源模型还是闭源模型,都呈现出每8个月左右参数规模下降一半,但模型性能维持不变的现象。有两个例子可以说明这个现象,比如OpenAI几年前发布了1750亿参数的GPT-3模型,今年我们用20亿参数的模型,就已经可以实现同样效果。另外,我们不久前发布的面壁小钢炮MiniCPM-Llama3-V 2.5模型,使用80亿参数,能达到甚至超过业界多模态王者GPT-4V的多模态性能水平。

参数规模下降、性能维持不变,说明大模型的知识密度提升了。随着大模型知识密度的提升和端侧算力的提升,我相信我们能用2年左右做出等同于GPT-4水平的端侧模型。到时候端侧模型就能大范围使用了。

经济观察网:大模型公司的竞争已经非常激烈,价格战也正在开启。面壁智能在端侧模型目前有领先优势,你们怎么能保证自己一直领先?

李大海:天下武功,唯快不破,在快速变化的环境里面更是如此。创业公司必须有足够快的自我迭代速度。我们公司大的战略方向是做端侧模型,在这个大方向上我们会有定力。但在具体执行战略上,我们会不断升级认知、提升方法论、提高迭代速度,我觉得这是最重要的事情。

相比其他公司,面壁智能很早就看到了端侧模型的价值,并把所有的资源都往上堆,目前也做出了一些成绩。前两天苹果开发者大会也在强调端侧模型,这说明行业里更多同行也认可了这个方向,这也证明了这个方向的正确性。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。

打开网易新闻 查看更多图片

任晓宁经济观察报记者

TMT新闻部资深记者
关注并报道TMT(科技、传媒、通信)领域重大事件,擅长行业分析、深度报道。
联系邮箱:renxiaoning@eeo.com.cn
微信号:tangtangxiaomo