苹果开源的 FastVLM 是一个基于视觉语言模型的大型预训练模型,它在视觉编码方面通过引入 FastViTHD 视觉编码器,提高了编码效率并减少了时间到首个令牌 (TTFT) 的时间。FastVLM 的小型变体在性能上优于了 LLaVA-OneVision-0.5B,具体来说,TTFT 速度提高了 45 倍,视觉编码器大小缩小了 3.4 倍。此外,FastVLM 还有更大的变体,如 FastVLM-1.5B 和 FastVLM-7B,这些变体在使用 Qwen2-7B LLM 时,性能优于最近的工作,如 Cambrian-1-8B,TTFT 速度提高了 7.9 倍。这些数据表明,FastVLM 是一个性能卓越的大型视觉语言模型。 地址: 网页链接
特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。

