编者按:
财联社、科创板日报旗下《AI daily》推出的“Insight・AI锋线”深度报道与人物访谈,聚焦国内外人工智能及大模型领域优秀企业、创业者、领军学者、投资人等,带来AI赋能千行百业的最新探索、实践与思考。“Insight・AI锋线”,洞见,先锋,一线!最新一期“Insight・AI锋线”人物为读者IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋。

《科创板日报》11月26日讯(记者 毛明江 黄心怡)沈向洋,华人圈中成就最高的计算机科学家之一,同时也是杰出的人工智能学者。

沈向洋出生于江苏镇江溧水县,他就读的第一所学校在他自己记忆中是“牛棚小学”。1980年代,他先后在南京工学院、香港大学求学。1996年获得卡内基·梅隆大学获得机器人专业的博士学位,博士论文是世界上最早有关将照片转换成虚拟现实的研究。

1998年,微软中国研究院在北京成立时,他应院长李开复的要求前往加盟,并于2004年担任院长。2013年,他出任微软全球执行副总裁,直接向时任微软CEO鲍尔默汇报工作,负责帮助微软确立技术上的发展方向。现已分拆独立Al聊天机器人小冰,就是在沈向洋领导下研发推出。

因“为计算机视觉和计算机图形学做出了贡献,并在工业研究和产品开发方面发挥了领导的作用”,沈向洋于2017年当选美国国家工程院外籍院士。2019年,在做出“一生中最艰难的决定”后,这位微软的“中国先生”宣布离开微软。后受聘担任香港科技大学校董会主席。

2021年作为创院理事长,沈向洋带领下的粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA研究院”)成立。作为致力于人工智能和数字经济领域的前沿研究与产业落地的国际化创新型机构,IDEA在粤港澳大湾区被寄予厚望。IDEA迄今已延揽了数百名的顶尖科学家团队,沈向洋特别强调加入IDEA的人才要有“科学家头脑,企业家素质,创业者精神。”

一身深蓝的西装,儒雅亲和的外表,敏锐前瞻的思考,不时脱口而出的幽默金句。在上周深圳举行IDEA2024大会上,《科创板日报》记者见到了低调而忙碌的沈向洋。作为IDEA研究院创院理事长,沈向洋以大会主持身份,带来了一场精彩的涉及人工智能、低空经济等“学研产投”的多成果发布会,也畅谈了他对于人工智能的最新思考。

▌“讲卡伤感情,没卡没感情”

在人工智能蓬勃发展的浪潮中,算力已成为这场科技竞赛的核心战场之一。沈向洋一句“讲卡伤感情,没卡没感情”,生动地描绘出当前人工智能领域算力的重要性与激烈的资源竞争。

回顾计算行业的发展历程,算力一直是推动行业进步的关键因素。曾经摩尔定律主导着算力的提升节奏,每18个月芯片性能近乎翻倍,为信息技术的飞速发展奠定了坚实基础。然而大模型的出现,如同一头算力“巨兽”,其参数量从百亿级迅速攀升至千亿级、万亿级,对算力的需求呈指数级增长。以GPT系列模型为例,GPT3使用了2T数据,GPT4的训练数据量更是达到20T左右,而预计未来的GPT5预计将达到200T规模。如此庞大的数据量,对算力的要求超乎想象。

在沈向洋看来,英伟达在这场算力革命中占据了机器有利的位置。其芯片产品,尤其是H100芯片,成为众多中外企业竞相追逐的对象。用沈向洋话说,“今天拿得到英伟达的卡,那你就成功了一半。”

在上周六香港科技大学授予英伟达创始人黄仁勋荣誉博士的典礼上,沈向洋与黄仁勋换上了同款纪念皮衣,并进行了一场前沿对话。

打开网易新闻 查看更多图片

黄仁勋与沈向洋在港科大授予黄仁勋荣誉博士典礼上

他提及“黄氏定律”,以模型训练衡量算力增长,按当前大模型算力需求每年四倍多的增长速度,十年可能预见100万倍的算力需求增长,算力需求与参数呈平方关系,未来的增长极为庞大。

黄仁勋对此表示认同,并表示,“我们现在经历的是,你的神经网络越大,训练的数据越多,人工智能似乎就越智能。”

▌合成数据是百亿美元的创业机会

在人工智能技术迅猛发展的当下,大模型的演进对数据量与质的要求达到了前所未有的高度。随着大模型如GPT系列的不断迭代升级,数据需求呈爆炸式增长。GPT3使用了2T数据,GPT4则使用了12T到20T数据,据预测,GPT5预计将需要200T数据。

然而,互联网现有数据的局限性逐渐暴露,其存量难以满足如此庞大的需求。在沈向洋看来,“缺数据”已成为大模型行业的普遍共识。互联网上洗干净的数据量约为20万亿Tokens,距离提供GPT5所需的200T数据相去甚远,且社交媒体数据质量也不尽如人意,私域数据又因安全孤岛问题难以被充分利用。

在此背景下,合成数据应运而生,成为人工智能领域新的“宝藏”。沈向洋指出,人工智能要继续向前发展,制造和合成数据成为必然趋势,而这其中蕴含着百亿美元的创业商机。这里面关键在于如何合成数据。例如,1万亿的数据约等于500万本书、20万张高清照片或500万篇论文,人类历史上的书籍总量约为21亿Tokens,微博有38亿Tokens,Facebook约有140T Tokens的数据,即便如此仍无法满足大模型日益增长的需求。

沈向洋指出,合成数据在多模态应用中的重要性尤为突出。GPT系列模型主要依赖互联网语料数据,在编程、物理、化学等多模态应用场景中,所需的更强逻辑性和专业性数据往往无法从互联网直接获取,合成数据则为解决这一问题提供了关键路径。通过合理生成合成数据,可为多模态模型提供丰富训练资源,推动多模态技术发展。

▌AI For Science,从技术突破到产业融合

“今天我们一定要做的一件事情是AI For Science。讲得稍微夸张一点,难以想象今天还有什么事情比AI For Science更重要。”沈向洋呼吁,当前人工智能不管是研究者还是产业端,“拼命的推动大模型的技术落地是最重要的。”

他以今年诺贝尔物理奖与化学奖获奖结果,说明AI For Science的重要性。

打开网易新闻 查看更多图片

沈向阳带领下的IDEA在大模型领域的探索与实践,展现出其对AI For Science的坚定决心。尽管受到算力等因素的限制,IDEA在超大模型方向未进行过度扩张,但在垂直大模型领域取得了令人瞩目的成果。化学大模型、学术大模型、营销大模型、经济大模型、运筹大模型、投资大模型、视觉大模型等一系列垂直模型的成功研发,彰显了沈向洋带领下的团队在特定领域的技术实力和创新能力。

IDEA还与与美团、比亚迪、腾讯等行业领军企业开展合作,在无人机智能技术、工业机器人智能化、人居环境具身智能等前沿领域共同探索。通过产学研用的深度融合,推动人工智能从实验室技术创新到产业规模化发展的跨越,为社会经济发展注入新的活力和动力。

▌发展低空经济要建“四张网”

2022年以来,IDEA研究院持续发布低空经济发展白皮书。今年IDEA大会上,沈向洋也带来了IDEA撰写的《低空经济发展白皮书3.0—安全体系》。白皮书认为低空经济发展需遵循应用为王、政府为主、技术为底、安全至上的原则。

沈向洋深度解析低空经济发展安全体系,从“点-飞行安全”、“线-航路安全”、“面-运行安全”、“体-社会安全”四个维度指出构建低空经济安全体系的重要性和紧迫性,认为规模化低空经济要解决安全、效率、成本三大问题,为行业发展提供前沿洞察与指引

“我们跟深圳市政府一起研究这个问题,提出必须要打造低空智能融合基础设施,具体来讲要建四张网:1、设施网,所有的硬件。2、航路网,飞机在天上可以怎么样飞,哪里可以飞,哪里不可以飞。3、空联网,得知道在空域环境里,监控可以看到的信号是什么。4、服务网。”

同时,IDEA研究院还发布了开放的智能融合低空系统OpenSILAS 1.0 Alpha版,这一智能融合低空系统——低空的“大脑”,来统筹、协调、管理、分配低空时空资源,支撑、管理、服务各类低空飞行活动。此外,大会发起共建OpenSILAS创新联合体,IDEA研究院与17家首批发起单位携手,共同打造一个开放共享、技术领先、不断迭代的系统和平台,

▌“从经济的最大增长,到人类的最大福祉”

在当今时代,人工智能的影响力正以前所未有的速度蔓延至社会的各个角落,引发了广泛而深刻的关注与思考。沈向洋最后谈到了人工智能治理的问题。

在今年上海举行的世界人工智能大会上,沈向洋就与与国际知名的瑞迪教授、布卢姆教授和姚期智教授等学界泰斗共同研讨人工智能治理的方向与路径。

在沈向洋看来,从社会发展的宏观视角审视,农业社会生产力受限,GDP增长微乎其微;工业社会与信息社会虽取得一定进展,但增长幅度仍相对有限。而AI时代的来临,有望大幅提升生产效率,据经济学家预测,平均GDP增长或将跃升至百分之十几。然而,这一预测背后隐藏着更深层次的追问:AI推动的经济高速增长,能否切实转化为人类的福祉?

对于从事人工智能技术研发和产业落地的人员来说,这是必须思考的关键问题。在人工智能在诸多领域已展现出超越人类的能力的当下,在追求技术进步和经济利益的同时,如何确保人工智能的发展造福人类,如何平衡技术发展与社会公平、伦理道德等多方面关系,每个问题都不能忽视。沈向洋呼吁行业关注AI治理,重视人工智能对社会发展的全面影响,引导人工智能朝着有利于人类的方向发展,实现科技与人文的和谐共生。