视频生成群雄逐鹿，哪些重要问题待解？

12月5-6日，2024中国生成式AI大会（上海站）「GenAICon 2024」将在上海中星铂尔曼大酒店盛大举办。中国生成式AI大会已成功举办两届，迅速成长为国内生成式AI领域最具影响力的产业峰会之一。

此次也是中国生成式AI大会首次登陆上海举办，由智一科技旗下智能产业第一媒体智东西、AI与硬科技知识分享社区智猩猩共同发起。上海市人工智能行业协会为本次大会的指导单位。

大会上海站以“智能跃进创造无限”为主题，将设置“主会场峰会+分会场研讨会+展览区”。其中，主会场将进行大模型峰会、AI Infra峰会，分会场将组织端侧生成式AI、AI视频生成和具身智能三场技术研讨会。主会场与分会场外则设有展览区。

50+位嘉宾将在大会上带来致辞、演讲、报告和对话讨论，以前瞻性视角为大家解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。

作为大会上海站的三场技术研讨会之一，AI视频生成技术研讨会将在第二日上午的分会场进行，由主题报告和圆桌Panel两个环节组成。

Sora自年初问世以来，AI视频生成领域风起云涌，到年末来看，国内外都已是群雄逐鹿的局面。尽管如此，依旧有不少重要问题有待解决。目前，从学术界到工业界，都在致力于解决AI视频生成尚未解决的问题，以期为视频生成大模型及应用产品带来更优质的体验。

一、上海站三场研讨会之一，完整议程公布

目前，AI视频生成技术研讨会邀请到中存算董事长陈巍，上海交通大学人工智能研究院助理教授晏轶超，新壹科技AI算法主任架构师李璋，井英科技联合创始人、CTO王健，旷视研究院高级研究员李华东5位青年学者和技术专家带来报告，将围绕视频大模型架构比较、三维数字人视频生成、面向数字人生成的视频垂直大模型、AI短剧技术突破、可控人物视频生成展开讲解。

视频大模型（VLM）正与短视频产业结合并迎来新爆发点。中存算董事长陈巍将围绕《视频大模型架构对比及长序列模型加速》这一主题，从视频生成大模型与世界模型的视角出发，对比主流架构（如NaViT、RADM），探讨内存墙和通信墙对视频大模型GPGPU/TPU集群训练和部署的挑战，并分享算力芯片级训练部署的解决方案和系统经验。

三维高斯、大模型等技术在过去一年快速发展，并与数字人技术进行了广泛结合。上海交通大学人工智能研究院助理教授晏轶超将带来主题为《先验引导的三维数字人视频生成》的报告，从数字人重建、生成与编辑等方向介绍三维数字人视频生成的最新进展，并探讨三维数字人技术的发展趋势。

在生成式AI技术的推动下，智能数字人已成为内容创作的重要方向。新壹科技AI算法主任架构师李璋将围绕《视频垂直大模型在智能数字人生成中的应用》，介绍从通用大模型到垂直大模型的技术演进，讲解新壹视频大模型在数字人视频生成中的核心技术突破，并深入分析如何实现自然语言驱动的动作与表情生成，还将展示其在相关领域的典型应用案例。

近期，井英科技通过视频生成模型实现了100分钟以上短视频的制作，并成功实现了用户付费观看的商业模式。公司联合创始人、CTO王健将在此次论坛上将分享AI短剧从最初的不可行到现如今可行的关键技术突破，主题为《AI短剧拐点背后的技术突破》。

随着短视频、影视和游戏动画的快速发展，传统的视频制作方式因耗时耗力而逐渐显现局限性。视频生成大模型算法为高效生成高质量视频提供了新选择，但现有算法的生成内容可控性不足。旷视研究院高级研究员李华东将以《可控人物视频生成》为主题，介绍支持混合模态控制的人像视频生成算法MegActor 系列工作。

主题报告环节结束后的圆桌Panel，将由中存算董事长陈巍，上海交通大学人工智能研究院助理教授晏轶超，井英科技联合创始人、CTO王健，以及旷视研究院高级研究员李华东一起带来。

二、五位学者专家多维度讲解AI视频生成

1、中存算董事长陈巍

陈巍博士，大模型+AI芯片专家，高级职称，中存算等企业董事长。国际计算机学会（ACM）、中国计算机学会（CCF）专业会员，多个国际人工智能期刊审稿人。主要研究方向为大模型架构、稀疏量化压缩与部署加速，存算一体与3D Chiplet处理器，相关技术成果已被广泛应用于知名IDC和互联网企业。

曾任领域知名人工智能（自然语言处理）企业首席科学家，中国科学院副主任（2012），多个国家科技重大专项课题负责人。中国与美国发明专利软件著作权约70+项（约50+项发明专利已授权）。著有《Sora大模型技术精要—原理、关键技术、模型架构与未来趋势》《GPT-4大模型硬核解读》《ChatGPT大模型技术精要—发展历程、原理、技术架构详解和产业未来》《智能网联汽车：激光与视觉SLAM详解》等。

报告主题：《视频大模型架构对比及长序列模型加速》

内容概要：随着大模型技术的快速发展，视频大模型（VLM）正与短视频产业结合并迎来新的爆发机遇，逐渐成为互联网应用的热点。

本次分享从视频大模型与世界模型的角度，对比主流视频生成大模型架构，探讨视频生成的关键技术（包括NaViT、RADM等），分析视频生成类大模型的主要挑战与发展趋势；探讨内存墙（Memory Wall）和通信墙对视频大模型GPGPU/TPU集群训练和部署的挑战，并针对这类视频长序列模型的算力芯片级训练部署，结合具体项目给出软硬结合的解决方案与系统经验。

2、上海交通大学人工智能研究院助理教授晏轶超

晏轶超，上海交通大学人工智能研究院助理教授，博士生导师。获上海交通大学电子工程系学士、博士学位，法国里昂中央理工学院硕士学位，曾担任阿联酋起源人工智能研究院研究科学家。主要研究方向为AIGC及三维数字人技术，发表包括TPAMI、CVPR、NeurIPS在内的论文40余篇。先后主持国家自然科学基金青年项目、CCF-阿里巴巴青年科学家基金等项目8项。曾入选上海市海外高层次人才计划，获2020年度中国图象图形学学会优秀博士论文奖。

报告主题：《先验引导的三维数字人视频生成》

内容概要：“人”一直是视频生成的核心对象，面对大规模视频的生成需求，利用生成式人工智能技术产生高拟真，规模化的虚拟数字人正逐渐成为研究热点。三维高斯、大模型等技术在过去一年快速发展，并与数字人技术进行了广泛结合，本次报告将从数字人重建、生成、编辑等方向介绍数字人视频生成领域的最近进展，对三维数字人技术的发展趋势进行探讨。

3、新壹科技AI算法主任架构师李璋

李璋，拥有中国科学院软件工程硕士学位，是生成式人工智能领域的资深技术专家。在深度学习、算法优化以及大模型研发方面具有深厚的理论基础和丰富的实战经验。在新壹（北京）科技有限公司担任AI算法主任架构师，主导设计并研发了多个具有行业标志性的AI项目。设计与研发了“新壹视频大模型”——国内首个专注于视频生成的生成式AI大模型。该模型在视频内容生成、理解与优化方面取得了突破性成果，为推动国内生成式AI技术在视频领域的实际应用提供了强有力的支撑。

报告主题：《视频垂直大模型在智能数字人生成中的应用》

内容概要：在生成式AI技术蓬勃发展的背景下，智能数字人已成为内容创作、虚拟助手和人机交互等领域的重要应用之一。然而，传统生成模型在高精度、多模态的智能数字人生成中仍面临诸多挑战。为此，垂直领域的大模型提供了一条全新路径。

本次演讲，首先会介绍从通用大模型到垂直大模型的演进，之后将着重讲解新壹视频大模型的整体架构设计及其在数字人视频生成与优化中的核心技术突破；此外，还将对智能数字人生成的技术难点，包括数字人生成中实现自然语言驱动动作与表情生成的关键技术等进行深入分析，并分享视频垂直大模型驱动的智能数字人在相关领域的典型应用案例。

4、井英科技联合创始人、CTO 王健

王健，井英科技联合创始人，CTO，国内视频生成模型的首批创业者，从2020年起专注于视频生成模型及相关应用。在参与创立井英科技之前，担任触宝科技联合创始人、CTO，是触宝输入法主创，自然语言模型专家。

报告主题：《AI短剧拐点背后的技术突破》

内容概要：自今年2月OpenAI发布Sora起，视频生成大模型成为了热点方向。但其具体落地的业务场景却一直不明确。近期，井英科技通过视频生成模型实现了100分钟以上短视频的制作，并成功实现了用户付费观看的商业模式。本次分享将介绍AI短剧从最初的不可行到现如今可行的关键技术突破，并探讨了除视频生成大模型之外的其他关键技术进展。

5、旷视研究院高级研究员李华东

李华东，旷视研究院高级研究员，硕士毕业于清华大学计算机系。研究方向为计算机视觉，主要包括视频生成与理解，深度估计等，已在ECCV，AAAI等人工智能顶级会议上发表多篇论文。

报告主题：《可控人物视频生成》

内容概要：短视频、影视和游戏动画创作正在迅速发展。然而，传统的视频制作过程耗时耗力，通常需要大量的人工后期编辑。视频生成大模型算法提供了一种低成本、高效的高质量视频内容生成解决方案。但视频生成算法生成的内容可控性不足，限制了其实际应用的有效性。因此，如何实现视频生成内容的可控性仍是一大关键挑战。

在本次报告中，我将介绍 MegActor 系列工作，这是一种支持混合模态控制的人像视频生成算法。该算法支持角色自定义（包括真实人物、二次元人物和游戏人物等），并能够通过视频、音频和文本输入实现单独和混合控制。其功能涵盖了控制角色说话、唱歌和生成表情动画等。MegActor 系列是社区内的首个开源可控人物视频生成大模型，将持续优化以推动技术的不断发展。

三、中国生成式AI大会上海站日程

视频生成群雄逐鹿，哪些重要问题待解？

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

AI眼镜是智能硬件的新方向，还是伪概念？

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

黑色轿车看见停车位，靠着熟练的技术侧方停车，网友：老司机看一眼就走

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

广东一学校学生因家里办白事凌晨请假，宿管未开门放行引争议，学校：正处理

网民深陷“信息茧房”，四部门联手治理乱象，算法发展要积极向

象棋软件比赛巅峰对决堪称神仙打架弃子乱舞

东汉末年群雄逐鹿到三国鼎立全过程

5年千亿估值，清华系大模型的崛起之路

泽连斯基：正详细检查“榛树”导弹残骸寻找应对方法

听泉直播现场，熟悉的感觉又回来了，看到后面太炸裂了！

视频生成群雄逐鹿，哪些重要问题待解？

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

AI眼镜是智能硬件的新方向，还是伪概念？

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

黑色轿车看见停车位，靠着熟练的技术侧方停车，网友：老司机看一眼就走

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

广东一学校学生因家里办白事凌晨请假，宿管未开门放行引争议，学校：正处理

网民深陷“信息茧房”，四部门联手治理乱象，算法发展要积极向

象棋软件比赛巅峰对决 堪称神仙打架弃子乱舞

东汉末年群雄逐鹿到三国鼎立全过程

5年千亿估值，清华系大模型的崛起之路

泽连斯基：正详细检查“榛树”导弹残骸 寻找应对方法

听泉直播现场，熟悉的感觉又回来了，看到后面太炸裂了！

象棋软件比赛巅峰对决堪称神仙打架弃子乱舞

泽连斯基：正详细检查“榛树”导弹残骸寻找应对方法