现在媒体上普遍的看法是:中美在人工智能领域处于世界上第一梯队,与其他国家已经拉开差距,而美国又明显领先中国。具体来说,美国在基础人工智能技术,尤其是大模型,人工智能芯片等方面明显领先,中国在人工智能的具体行业应用上具有优势。
我在上一篇文章“”对以上看法总体上也算是认同的前提下,对AI大模型、中模型和小模型各自的不同应用前景进行了具体分析。本文是在参观过2024年10月22号开幕的北京安博会之后,有了更深入的理解,将更进一步特别细化地讨论,中国人工智能技术为什么事实上已经处于遥遥领先世界的状态,以及究竟领先在何处。
一、传统人工智能应用的普及
事实上,在大模型出现之前,中国在人工智能实际落地的能力上就已经处于世界非常领先的水平。因为以往人工智能最成功的技术,就是车辆、人、语音等的识别。相应成功的应用是停车收费,社区、道路等人工智能的安防监控。这些已经在中国获得广泛的普及,并且产生了巨大的经济和社会效益。大模型技术的出现,是沿着原有的人工智能应用进行了更大范围和更深程度的扩展。以往的人工智能安防应用是这样的:
在模拟时代,记录的视频是独立的数据,按行业术语说就是没有进行“结构化”。如果要在视频中找寻某个对象,得依靠人工逐个时间点地去翻看,这个效率实在是太低了,要查寻到某个视频记录,耗费很多人力资源花上几天时间都有可能。
采用人工智能技术后,可以实现视频的结构化。也就是可以智能地识别出视频中车辆的车牌、颜色、车辆型号,甚至司机是否系安全带,另外还有行人智能识别等。有了这些识别出的数据并与视频内容相对应地进行记录,如果再查寻视频就会变得极为方便,只要输入某个车牌号或其他信息内容,就可以瞬间查寻到相应时间点的视频片段。
可以说,虽然人工智能的出现很早,并且持续地有人提出各种人工智能的应用。例如下各种棋胜过人类职业冠军选手等,但人工智能第一次真正获得大规模商业回报,就是视频安防领域。其他的技术如语音识别,它只是其他各类应用的一个免费的功能(如微信的语音输入、语音识别鼠标等),它自己很难形成独立的产品。
但这个阶段的人工智能也有一些限制,就是要想识别什么类型的信息,必须是提前确定好,由企业研发人员进行相应数据的训练和优化。这样,如果要增加某个功能,比如说要新增识别三轮车,就需要企业研发人员来建模和对前方市场人员收集回来的数据进行训练。这样新增某个应用的周期就会非常长,成本也会非常高。
二、采用大模型技术后的人工智能应用极大扩展
采用大模型技术以后会是什么情况?
首先是数据训练的工作可以非常简化,能前移到代理商或其他本地专业服务者那里进行。这样他们就可以对自己特定环境的对象进行针对性的训练。例如,动物园可以用相同的软件来训练识别动物,而不再局限于车辆;学校可以训练打篮球、跳远等,是判断运动员有没有犯规,而不是判断司机有没有系安全带.....这一下就打开了非常广阔的应用空间。要实现这一点需要什么具体产品来支撑呢?首先当然就是得开发出本地或特定领域应用的数据训练平台。
这是浙江宇视建立在自己梧桐2.0大模型基础上的算法训练平台,客户可以根据自己的需要训练特定应用的数据。
这一下就让行业的应用拓宽到近乎无限的领域。例如,可以用来监控特定受保护的动物。
可以应用到各种智慧社区细分应用场景 —— 如宠物狗佩戴的安全罩是否合规? 车辆停放是否占道? 是否有着火点? 是否有人违规从高层楼房抛物? 垃圾袋放置是否合规? 厨房的厨师工作中是否有不合卫生的行为? 生产工位上的生产是否正常? 被生产的零件是否正常? 生产设备是否出现意外情况? 严禁烟火的地方是否有人吸烟? ......
当然,最可能点燃新一代人工智能新的大规模应用的,可能不是那些看起来有些严肃的业务,而是娱乐性的AI体育。正如我年初写的一篇文章中的说的那样:科技以好玩为本。这也是电信运营商可以大力开发的领域。
人们可能会问一个问题:大模型出现以后,以上应用的识别率是否有实质性的提升呢?回答是肯定会有一些提升。
屏幕中左下角是手机拍摄的晚上的视频效果。主屏是硬件进步加上采用现在人工智能所达到的晚间视若白昼的效果。
这是在暗室里拍摄的图像效果。上面四个图像分别是不同时期技术效果的对比。左上角是早期黑白红外效果。右下角是获得彩色和较高分辨率的效果。这同样是硬件进步加上人工智能算法进步共同作用的功劳。而且以上人工智能的进步也未必全都与大模型有关系。
可以告诉大家一个可能令人非常意外的情况是:以上这些图像识别率和还原效果等的提升的确是非常好的进步,但对人工智能尤其大模型技术来说并不是革命性的。真正重要的只是因为远比过去更方便,所以才能让各种细分的应用成为现实。也就是说,原来的人工智能,单纯从技术上说早就可以获得很多应用,只是因为细分市场收益与研发投入之间不成比例,所以主要是经济性上的原因阻碍了这些应用成为现实。大模型的真正价值是使大量不同细分应用的数据训练变得极为方便,可以不再需要研发人员参与,这才使性价比达到可以实用化的程度。
能把这种性价比实际变现的,主要就是中国企业。
将这种大模型真正落地的,就是中模型。
三、采用大模型技术灵活访问中模型的应用
中模型可以使人工智能的应用领域无限地扩展,那么最终用户如何同样方便地访问和 应用它们呢?大模型技术的确也在这方面提供了同样的方便性。以往在视频结构化以后,进行访问时是采用精确或模糊的关键词匹配。例如要查某个车辆号的车的行进轨迹,是输入某个车辆号后进行精确匹配或一定程度的模糊匹配。这个对使用者输入的关键词是有一定要求的。
采用大模型技术以后,相当于有了接近语义理解的能力。输入某个问题后,并非是精确或模糊的关键词匹配,而是会通过大模型进行语义搜索。例如,浙江宇视的万物搜,只要输入一个问题,系统会根据问题搜索出符合要求的视频。
输入“一个穿着京东快递衣报的人”,万物搜系统就可以把视频库中符合要求的相应图像给找出来。
如果输入的是“穿着闪送衣服的人”,万物搜的结果就是图像中有穿着闪送衣服的人员。
你也可以输入“带着宠物狗的顾客”“带小孩的顾客”“穿红衣服的人”“手拿提包的女士”“一群打架的人”“两个吵架的男士”“出现老虎的画面”“出现猛禽大鵟”“猛禽入水捕鱼”等,系统都可以根据要求迅速搜索出符合语义要求的视频结果。
这样就使应用变得极为方便,也有利于非专业人员的应用。当然,如果增加一个语音识别输入,就可以实现语音访问。
四、实现中模型的设备
人们往往把对人工智能的期待集中在那些性能最强的英伟达芯片,或大型的计算中心上。但真正要实现大规模商业化应用,必须使得其成本在可控的范围。与上述中模型应用相配合的,可以是云,也可以是如下盒子里的设备。通过将需要训练的数据和应用高度约束在极为有限的范围,就可以极大地降低数据训练的规模和存储容量、计算能力。使得在非常有限成本的前提下,实现所需要的功能。
人工智能各种应用中最重要的就是识别,完成识别之后,进行控制相对来说就比较容易了。无论是机器狗、无人机还是智能生产设备等都是如此。
深圳无人机团队在沙特秀出的无人机群展现国王头像。
五、大模型的价值还有多少提升的空间?
最后,我们再来谈一下大模型技术以及为什么本文主题要说“中国人工智能已经遥遥领先全球”。大模型本质上的价值就是一个智能化的人机接口。简单回顾一下人机接口的某些发展历史是很有参考意义的。我使用电脑的历史是从20世纪80年代初的苹果II开始,使用过IBM的8086 AT机,苹果的麦金塔,对微软操作系统是从DOS 2.0版本开始用,一直到今天的Windows 11。我在20世纪90年代初北京邮电大学研究生期间学习图像处理时,使用的软件开发平台是当年SGI公司的专业图形工作站。微软的操作系统从命令行的DOS5.0到Windows3.1是一个真正的飞跃。直到Windows95,才算赶上苹果麦金塔视窗系统最初的效果。可能会让大家感到非常意外的一件事情,可以说直到今天的Windows 11,效果都没有超越上个世纪90年代初SGI工作站X-Windows 的专业水准。从Windows95大致稳定,一直到今天的Windows 11,硬件性能有近百万倍的提升,软件技术水平也有巨大进步,但使用者很难感觉到它有什么本质的变化。
怎么会是这样?因为人类对人机接口的需求也是有限的。面向普通用户使用的微软Windows系统并不需要最专业的视窗效果,重在普通人便于使用。普通人甚至不太希望界面有过多的变化。正因如此,才导致了界面变化太多的Windows8市场销售上的很不成功。
但是,人们接受到的技术概念多是大众媒体上非专业人员的炒作。美国人又特别善长于炒作概念,每隔一段时间就会换一个IT技术概念来炒作。包括炒作者本人都不完全理解这些技术内涵到底是些什么东西。但凡出现一个新东西,都是一场“革命”,要带来颠覆性的结果。不仅中国是如此,美国同样是如此。甚至美国在这个领域的那些专栏作家,畅销书作者大多也都是外行。这很容易给人们在技术上造成偏差过大的理解。
未来学家和数学家维尔诺·文奇 (Vernor Vinge)所理解的技术发展路径
真实世界一切实际技术的发展路径。只是在跨越新台阶的瞬间,才出现让人误以为是奇点的特征。
美国在大模型上的确是领先的,但这种领先就如同新的视窗系统,最容易秀出新花样,最容易吸引外行人,但却并不是技术进步真正能落地的商业应用所在。纵观人工智能以及其他类似技术的发展历史,并不是什么到一定时间点会出现一个奇点,然后就无限地涌现或指数级提升,而是的确在某一个时间点上会出现一个瞬间指数级提升的飞跃,然后很快就基本上停滞在这个新的平台上,以非常缓慢的、甚至人们都察觉不到的进步速度继续提升。所以,从来都没有,未来也不会有什么奇点,只不过是一个又一个高度有限的技术或产品台阶的阶段性飞跃而已。
也就是说,美国领先的大模型,已经完成了迈向新台阶的过程,中国也已经完成了这个新台阶的跃升过程。后续在大模型上的进步,就基本上属于没多大实际意义的、在新台阶上缓慢的变化。中国企业在过去人工智能技术的落地能力上就已经遥遥领先全世界,例如浙江宇视可以说核心能力就是AI+视频,在将AI技术落地上从一开始能力就非常强。在今天的中模型和小模型领域,中国企业的AI落地能力更是独步全球,而这些工作才是有实质性意义的商业应用和进步。