多模态干翻天了

大家好，我是 i 学习的老章

最近 Qwen3 发布、DeepSeek-R2 也传言即将发布，十分热闹。其实多模态方面，最近也非常热闹，只是热度很一般。

本文，老章会近期发布的几个多模态大模型做个梳理

感兴趣的部分，大家可以深入看看

1、Magi-1 视频生成大模型，推理成本低到后脚跟

Magi-1，首个实现顶级画质输出的自回归视频生成模型，模型权重、代码 100% 开源。此次开源了从 24B 到 4.5B 参数的一系列模型，最低配置一块 4090 就能跑。

在线试玩：https://sand.ai/

项目地址：https://github.com/SandAI-org/MAGI-1

论文地址：https://static.magi.world/static/files/MAGI_1.pdf

模型文件：https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/

详细介绍：

2、基于 Qwen2.5 架构直出语音编码

基于 Qwen2.5 架构直出语音编码，零样本复刻任意人声，中英文混合生成丝滑无界。无需专业设备/海量数据，即刻生成媲美真人的多语言语音。

项目：https://github.com/SparkAudio/Spark-TTS

论文：https://www.arxiv.org/abs/2503.01710

Demo：https://sparkaudio.github.io/spark-tts/

3、阿里视频生成大模型 Wan2.1

Wan-AI 发布的 140 亿参数的大型模型，用于 First-Last-Frame 到视频生成。该模型能够生成 5 秒钟 720p 高清视频，并因其创新方法而备受关注。它于 2025 年 4 月发布，并附带推理代码和权重。

项目：https://github.com/Wan-Video/Wan2.1

模型文件：https://modelscope.cn/organization/Wan-AI

技术文件：https://arxiv.org/abs/2503.20314

4、腾讯混元视频生成

不算新模型了，看到一个最近的项目是基于腾讯混元，才发现腾讯在这方面也有干货

FramePack 是一种渐进式生成视频的下一帧预测神经网络架构，通过将输入上下文压缩至恒定长度，使生成工作量与视频时长无关。该架构即便在笔记本电脑 GPU 上，也能用 130 亿参数模型处理超长帧序列。

Project Page：https://lllyasviel.github.io/frame_pack_gitpage/

Paper：https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf

Code：https://github.com/lllyasviel/FramePack?tab=readme-ov-file

混元图像转视频模型（基于混元视频的可定制图像转视频模型）：https://github.com/Tencent/HunyuanVideo-I2V

混元大型视频生成模型的系统框架：https://github.com/Tencent/HunyuanVideo

模型文件：https://huggingface.co/tencent/HunyuanVideo

官方介绍+Demo：https://aivideo.hunyuan.tencent.com/

然后还发现腾讯还有 3D 视频大模型

官网：https://3d.hunyuan.tencent.com/

3D 模型文件：https://huggingface.co/tencent/Hunyuan3D-2

在线试玩：https://huggingface.co/spaces/tencent/Hunyuan3D-2

5、文本到图像模型

HiDream-I1是一款全新的开源图像生成基础模型，拥有 170 亿参数，能在数秒内实现顶尖的图像生成质量。HiDream-ai/HiDream-I1-Full: 文本到图像模型，HiDream 的新模型，生成质量非常好

试玩：https://vivago.ai/home

GitHub：https://github.com/HiDream-ai/HiDream-I1

模型文件：https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full

6、阿里 Qwen2.5-VL

也不算新，最近有模型更新

阿里开源的旗舰视觉语言模型，在视觉理解方面表现出色，能够识别常见物体，分析图像中的文本、图表等元素。在视频处理上，Qwen2.5-VL 能够理解超过 1 小时的长视频，精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。

部署教程：

模型文件：https://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files

技术文件：https://qwenlm.github.io/blog/qwen2.5-vl/

项目地址：https://github.com/QwenLM/Qwen2.5-VL

最后再推荐一个我正在学习的课程：

多模态干翻天了

登上NeurIPS，Genesis开创无需OCC引导的多模态生成新范式

让LLM不再话痨，快手HiPO框架来了

Cursor不香了？前0.01%大神倒戈Claude，万字叛逃笔记爆火！

文心5.0正式版发布，霸榜LMArena的“最强文科生”到底强在哪？

把它「画」进隐空间！新框架RoT探索大模型隐空间推理新范式

当事人回应用SIM卡炼出191克黄金：网络上部分数据存在表述不准确的情况

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

张维为戳破美式生活滤镜体面背后尽是拮据日常

你刷到的视频是真的么？用物理规律拆穿Sora谎言

五年级数学求面积，两个模型

百万围观、HuggingFace多模态登顶，开源语音版「DeepSeek」爆火

试点城市名单公示郑州、开封入选中央财政将拨款

初中几何动点最值经典模型，构造等边三角形

全网疯转，Claude Code之父神级代码首次公开！10亿美金秘密来了

OpenAI绝地反击！Codex大脑首曝，8亿用户极限架构硬刚Claude

谷歌4D世界模型来了，比SOTA快300倍！

极氪007对比特斯拉model3，3个参数干趴对方，特斯拉彻底死心

美媒首次公开轰-20参数：第二岛链拦不住，美国本土已不再安全！

CUDA要凉？Claude 30分钟铲平英伟达护城河，AMD要笑醒了

拒绝成为落后的开发者：用TRAE Skills构建你的10倍效能工具箱

多模态干翻天了

登上NeurIPS，Genesis开创无需OCC引导的多模态生成新范式

让LLM不再话痨，快手HiPO框架来了

Cursor不香了？前0.01%大神倒戈Claude，万字叛逃笔记爆火！

文心5.0正式版发布，霸榜LMArena的“最强文科生”到底强在哪？

把它「画」进隐空间！新框架RoT探索大模型隐空间推理新范式

当事人回应用SIM卡炼出191克黄金：网络上部分数据存在表述不准确的情况

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

张维为戳破美式生活滤镜 体面背后尽是拮据日常

你刷到的视频是真的么？用物理规律拆穿Sora谎言

五年级数学求面积，两个模型

百万围观、HuggingFace多模态登顶，开源语音版「DeepSeek」爆火

试点城市名单公示 郑州、开封入选 中央财政将拨款

初中几何动点最值经典模型，构造等边三角形

全网疯转，Claude Code之父神级代码首次公开！10亿美金秘密来了

OpenAI绝地反击！Codex大脑首曝，8亿用户极限架构硬刚Claude

谷歌4D世界模型来了，比SOTA快300倍！

极氪007对比特斯拉model3，3个参数干趴对方，特斯拉彻底死心

美媒首次公开轰-20参数：第二岛链拦不住，美国本土已不再安全！

CUDA要凉？Claude 30分钟铲平英伟达护城河，AMD要笑醒了

拒绝成为落后的开发者：用TRAE Skills构建你的10倍效能工具箱

张维为戳破美式生活滤镜体面背后尽是拮据日常

试点城市名单公示郑州、开封入选中央财政将拨款