本期为TechBeat人工智能社区第639期线上Talk。
北京时间11月14日(周四)20:00,德克萨斯大学奥斯汀分校博士生樊志文的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题 是:“端到端从多视角图片解析3D与全景3D生成”, 届时他 将 分享三篇3D重建以及一篇3D生成模型的工作,其中三篇均收录于NeurIPS'24和ECCV’24。
Talk·信息
主题:端到端从多视角图片解析3D与全景3D生成
嘉宾:德克萨斯大学奥斯汀分校 · 博士生 - 樊志文
时间:北京时间11月14日(周四)20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/
Talk·介绍
用互联网级数据训练的Large Foundation Model在改变我们的工作方式和解决复杂问题上展现了很大潜力。不过,像LLM和VLM这样的模型虽然能解读文本或单张图像,但在现有的多模态训练框架下,对空间关系的理解还存在挑战。未来的智能AI系统要能够理解3D环境的结构,才能可靠地与物理世界交互,这是实现自主系统的关键。
然而目前的3D重建流程还是依赖于模块化、non-differentiable的处理系统,难以进行大规模训练。在生成式AI,元宇宙应用里使用全景图可以提供沉浸式的体验,如何通过文字或者单张全景图来生成3D和4D全景图未曾解决。
本次talk将分享三篇3D重建以及一篇3D生成模型的工作,其中三篇均收录于NeurIPS'24和ECCV’24。
Talk大纲
1. InstantSplat 从稀疏视角图像以秒级重建3D
2. LightGaussian 压缩3D-GS超过15倍并且提升渲染速度超50%
3. LargeSpatialModel 端到端的3D语义重建框架
4. DreamScene360 文字到3D全景图生成
Talk·预习资料
论文链接: https://arxiv.org/abs/2403.20309 项目主页: https://instantsplat.github.io/
论文链接: https://arxiv.org/abs/2311.17245 项目主页: https://lightgaussian.github.io/
论文链接: https://arxiv.org/abs/2410.18956 项目主页: https://largespatialmodel.github.io/
论文链接: https://arxiv.org/abs/2404.06903 项目主页: https://dreamscene360.github.io/
Talk·提问交流
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
樊志文
德克萨斯大学奥斯汀分校 · 博士生
樊志文是德克萨斯大学奥斯汀分校的Ph.D Candidate,其导师为Zhangyang "Atlas" Wang教授。他在2022年获得了高通创新奖学金资助,目前在Meta Core AI担任研究实习生,致力于3D Foundation Model的开发。樊志文还曾在NVIDIA和Google实习,并曾任职于阿里巴巴集团,担任高级研究工程师。
个人主页: https://www.techbeat.net/grzytrkj?id=42447
-The End-
如果你也想成为讲者
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>
预约本期Talk