大家好,我是 i 学习的老章
最近 Qwen3 发布、DeepSeek-R2 也传言即将发布,十分热闹。其实多模态方面,最近也非常热闹,只是热度很一般。
本文,老章会近期发布的几个多模态大模型做个梳理
感兴趣的部分,大家可以深入看看
1、Magi-1 视频生成大模型,推理成本低到后脚跟
Magi-1,首个实现顶级画质输出的自回归视频生成模型,模型权重、代码 100% 开源。此次开源了从 24B 到 4.5B 参数的一系列模型,最低配置一块 4090 就能跑。
在线试玩:https://sand.ai/
项目地址:https://github.com/SandAI-org/MAGI-1
论文地址:https://static.magi.world/static/files/MAGI_1.pdf
模型文件:https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/
详细介绍:
2、基于 Qwen2.5 架构直出语音编码
基于 Qwen2.5 架构直出语音编码,零样本复刻任意人声,中英文混合生成丝滑无界。无需专业设备/海量数据,即刻生成媲美真人的多语言语音。
项目:https://github.com/SparkAudio/Spark-TTS
论文:https://www.arxiv.org/abs/2503.01710
Demo:https://sparkaudio.github.io/spark-tts/
3、阿里视频生成大模型 Wan2.1
Wan-AI 发布的 140 亿参数的大型模型,用于 First-Last-Frame 到视频生成。该模型能够生成 5 秒钟 720p 高清视频,并因其创新方法而备受关注。它于 2025 年 4 月发布,并附带推理代码和权重。
项目:https://github.com/Wan-Video/Wan2.1
模型文件:https://modelscope.cn/organization/Wan-AI
技术文件:https://arxiv.org/abs/2503.20314
4、腾讯混元视频生成
不算新模型了,看到一个最近的项目是基于腾讯混元,才发现腾讯在这方面也有干货
FramePack 是一种渐进式生成视频的下一帧预测神经网络架构,通过将输入上下文压缩至恒定长度,使生成工作量与视频时长无关。该架构即便在笔记本电脑 GPU 上,也能用 130 亿参数模型处理超长帧序列。
Project Page:https://lllyasviel.github.io/frame_pack_gitpage/
Paper:https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf
Code:https://github.com/lllyasviel/FramePack?tab=readme-ov-file
混元图像转视频模型(基于混元视频的可定制图像转视频模型):https://github.com/Tencent/HunyuanVideo-I2V
混元大型视频生成模型的系统框架:https://github.com/Tencent/HunyuanVideo
模型文件:https://huggingface.co/tencent/HunyuanVideo
官方介绍+Demo:https://aivideo.hunyuan.tencent.com/
然后还发现腾讯还有 3D 视频大模型
官网:https://3d.hunyuan.tencent.com/
3D 模型文件:https://huggingface.co/tencent/Hunyuan3D-2
在线试玩:https://huggingface.co/spaces/tencent/Hunyuan3D-2
5、文本到图像模型
HiDream-I1是一款全新的开源图像生成基础模型,拥有 170 亿参数,能在数秒内实现顶尖的图像生成质量。HiDream-ai/HiDream-I1-Full: 文本到图像模型,HiDream 的新模型,生成质量非常好
试玩:https://vivago.ai/home
GitHub:https://github.com/HiDream-ai/HiDream-I1
模型文件:https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full
6、阿里 Qwen2.5-VL
也不算新,最近有模型更新
阿里开源的旗舰视觉语言模型,在视觉理解方面表现出色,能够识别常见物体,分析图像中的文本、图表等元素。在视频处理上,Qwen2.5-VL 能够理解超过 1 小时的长视频,精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。
部署教程:
模型文件:https://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files
技术文件:https://qwenlm.github.io/blog/qwen2.5-vl/
项目地址:https://github.com/QwenLM/Qwen2.5-VL
最后再推荐一个我正在学习的课程:

