大家好,我是 i 学习的老章

最近 Qwen3 发布、DeepSeek-R2 也传言即将发布,十分热闹。其实多模态方面,最近也非常热闹,只是热度很一般。

本文,老章会近期发布的几个多模态大模型做个梳理

感兴趣的部分,大家可以深入看看

1、Magi-1 视频生成大模型,推理成本低到后脚跟

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

Magi-1,首个实现顶级画质输出的自回归视频生成模型模型权重、代码 100% 开源。此次开源了从 24B 到 4.5B 参数的一系列模型,最低配置一块 4090 就能跑。

在线试玩:https://sand.ai/

项目地址:https://github.com/SandAI-org/MAGI-1

论文地址:https://static.magi.world/static/files/MAGI_1.pdf

模型文件:https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/

详细介绍:

2、基于 Qwen2.5 架构直出语音编码

基于 Qwen2.5 架构直出语音编码,零样本复刻任意人声,中英文混合生成丝滑无界。无需专业设备/海量数据,即刻生成媲美真人的多语言语音。

项目:https://github.com/SparkAudio/Spark-TTS

论文:https://www.arxiv.org/abs/2503.01710

Demo:https://sparkaudio.github.io/spark-tts/

3、阿里视频生成大模型 Wan2.1

Wan-AI 发布的 140 亿参数的大型模型,用于 First-Last-Frame 到视频生成。该模型能够生成 5 秒钟 720p 高清视频,并因其创新方法而备受关注。它于 2025 年 4 月发布,并附带推理代码和权重。

项目:https://github.com/Wan-Video/Wan2.1

模型文件:https://modelscope.cn/organization/Wan-AI

技术文件:https://arxiv.org/abs/2503.20314

4、腾讯混元视频生成

不算新模型了,看到一个最近的项目是基于腾讯混元,才发现腾讯在这方面也有干货

FramePack 是一种渐进式生成视频的下一帧预测神经网络架构,通过将输入上下文压缩至恒定长度,使生成工作量与视频时长无关。该架构即便在笔记本电脑 GPU 上,也能用 130 亿参数模型处理超长帧序列。

Project Page:https://lllyasviel.github.io/frame_pack_gitpage/

Paper:https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf

Code:https://github.com/lllyasviel/FramePack?tab=readme-ov-file

混元图像转视频模型(基于混元视频的可定制图像转视频模型):https://github.com/Tencent/HunyuanVideo-I2V

混元大型视频生成模型的系统框架:https://github.com/Tencent/HunyuanVideo

模型文件:https://huggingface.co/tencent/HunyuanVideo

官方介绍+Demo:https://aivideo.hunyuan.tencent.com/

然后还发现腾讯还有 3D 视频大模型

官网:https://3d.hunyuan.tencent.com/

3D 模型文件:https://huggingface.co/tencent/Hunyuan3D-2

在线试玩:https://huggingface.co/spaces/tencent/Hunyuan3D-2

5、文本到图像模型

HiDream-I1是一款全新的开源图像生成基础模型,拥有 170 亿参数,能在数秒内实现顶尖的图像生成质量。HiDream-ai/HiDream-I1-Full: 文本到图像模型,HiDream 的新模型,生成质量非常好

试玩:https://vivago.ai/home

GitHubhttps://github.com/HiDream-ai/HiDream-I1

模型文件:https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full

6、阿里 Qwen2.5-VL

也不算新,最近有模型更新

阿里开源的旗舰视觉语言模型,在视觉理解方面表现出色,能够识别常见物体,分析图像中的文本、图表等元素。在视频处理上,Qwen2.5-VL 能够理解超过 1 小时的长视频,精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。

部署教程:

模型文件:https://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files

技术文件:https://qwenlm.github.io/blog/qwen2.5-vl/

项目地址:https://github.com/QwenLM/Qwen2.5-VL

最后再推荐一个我正在学习的课程:

打开网易新闻 查看更多图片