乌鸦AI日报：苹果发布FastVLM模型；Kimi入驻小红书

苹果正式推出FastVLM，这是一款专为高分辨率图像处理优化的视觉语言模型，具有极高的编码速度和卓越的性能，特别适合在移动设备上运行。

Kimi与小红书的合作标志着AI大模型在内容平台上的新尝试。虽然目前的入口尚未与小红书的其他功能深度整合，但这次合作显示出Kimi在流量焦虑下的转型策略。

过去一天，国内外AI行业还有更多热点可以关注，乌鸦君带你一起看看。

大模型

1）苹果发布FastVLM模型，可在iPhone上运行的极速视觉语言模型

苹果正式推出FastVLM，这是一款专为高分辨率图像处理优化的视觉语言模型，具有极高的编码速度和卓越的性能，特别适合在移动设备上运行。FastVLM的核心是其创新的FastViTHD编码器，通过动态分辨率调整和层次化令牌压缩等技术，显著提升了效率。

2）字节跳动发布开源代码模型Seed-Coder，8B参数

字节跳动的Seed团队推出了全新的开源代码模型Seed-Coder，凭借其8B参数和卓越的代码生成与推理能力，迅速引起业界的关注。Seed-Coder在多个基准测试中表现优异，展现了强大的编程潜力。

其创新的数据处理方式和高效的训练策略，不仅提升了代码生成质量，也为未来的AI驱动数据处理提供了新思路。

AI应用

1）Kimi入驻小红书，AI大模型从“投流大战”转向内容深耕

未来，Kimi可能会通过内容与社区的结合，增强用户黏性，尽管目前的功能仍显谨慎，双方的进一步合作仍需观察。

2）腾讯发布全新 AI 框架 PrimitiveAnything:颠覆3D 形状生成方式!

PrimitiveAnything 是腾讯与清华大学合作推出的革命性框架，旨在重新定义3D形状的抽象与生成。通过将复杂形状分解为原始组件，框架不仅提升了几何准确性，还增强了学习效率。

其自动回归生成方式和大规模的 HumanPrim 数据集验证了该框架在重构准确性和与人类抽象模式一致性方面的优越性，展现出强大的泛化能力，特别适合于高效的互动3D应用。

3）快手推出 AI 作图工具 Poify，聚焦电商市场

快手最近推出了AI作图工具Poify，专注于电商领域的图像处理，旨在提高商家在产品展示方面的效率和经济性。Poify的核心功能包括文生图和图生图，特别适用于电商需求，提供AI模特试衣、背景更换等创新能力，帮助商家降低成本并提升视觉吸引力。

4）首个智能文档处理基准发布:Gemini领跑但短板待补，多模态AI面临现实挑战

5月11日，智能文档处理领域迎来了重要的里程碑，首个视觉-语言模型的统一基准测试IDP Leaderboard正式推出。该基准通过对9229份文档和16个数据集的评估，全面分析了当前主流模型在多个核心任务上的表现。

尽管Gemini2.5Flash在综合实力上表现突出，但在OCR和分类任务中却出现了意外的下滑，显示出多模态推理能力与基础文本识别功能之间的权衡问题。

5）谷歌再破界限:Gemini2.5Pro实现6小时视频理解，AI视觉能力迈入新纪元

谷歌的Gemini2.5Pro模型在视频理解领域取得了重大突破，支持长达6小时的视频分析和高达200万Token的上下文窗口。通过API解析YouTube链接，模型在VideoMME基准测试中表现出色，准确率接近行业顶尖水平。

其技术应用于教育、创意产业和商业分析等多个领域，展现了AI视觉能力的新纪元。

6）Claude AI API 引入全新的网页搜索功能

Anthropic最新推出的Claude AI API引入了网页搜索功能，使其能够实时访问网络信息。这一创新显著提升了Claude在回答问题时的准确性，并为传统搜索引擎带来了竞争压力。开发者可以利用这一功能构建更加精准的智能体，应用于金融、法律、开发者工具和生产力等多个领域。

7）全球首款AI智能浏览器Fellou发布:一键搞定研究、发帖、邮件，效率飙升5倍!

Fellou的发布标志着浏览器的重大变革，成为全球首款具备AI智能自动化功能的浏览器。它不仅能进行传统的搜索和浏览，还能思考、规划并执行复杂任务，大幅提升用户的工作效率。

通过深度研究模式和工作流自动化，Fellou为研究人员、营销人员和开发者提供了强大的支持，尤其在跨平台协作和数据处理方面展现出巨大的潜力。

8）NVIDIA AI推出Audio-SDS，革新音效生成与多任务音频处理

NVIDIA的Audio-SDS技术通过将Score Distillation Sampling扩展至音频领域，显著提升了音效生成和音源分离能力。该技术支持多任务音频处理，用户可通过文本提示生成定制化音效，降低了开发成本与时间。

Audio-SDS的开源发布为创意产业和智能设备等多个领域提供了新的可能性，标志着AI音频处理的一个重要里程碑。

整理/宇霁

PS：如果你对AI大模型领域有独特的看法，欢迎扫码加入我们的大模型交流群。

乌鸦AI日报：苹果发布FastVLM模型；Kimi入驻小红书

模型自己找视觉线索，小红书Video-Thinker破解视频推理困局

狂掷80亿 , 节AI大战谁赢了？

谷歌高管放话：这两类AI初创公司，别轻易涉足了

GPU要凉？前英伟达AMD大神将AI刻在芯片上！17000 tokens/秒屠榜

中美AI同步加速：47天30次更新，中国AI的最强主场究竟在哪？

欢迎来到AI智能体新时代：未来不是“为人创造”，而是“为AI服务”

北大团队让AI智能体「入侵」论坛，指挥真实机器人执行任务

VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

谁在决定AI手机的未来：模型、系统，还是生态？

AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

行业最大规模具身数据集！出自简智机器人GenRobot.AI

行业最大规模具身数据集：10Kh RealOmni-Open DataSet

小红书不欢迎“避雷贴”

苹果亮出下一个iPhone，搭配智能眼镜、AI挂件

元宝跌出苹果下载榜前十

苹果硬件2026大爆发：三大革命新品，还有两款平民战神

二次元火热一整年：年轻增量不变，消费习惯变了

苹果用 5 年时间就优化了一个声音

特斯拉新车来了；苹果首款折叠屏手机将于2026年秋季推出丨邦早报

花一万元植入DeepSeek，一场没有终点的流量游戏

乌鸦AI日报：苹果发布FastVLM模型；Kimi入驻小红书

模型自己找视觉线索，小红书Video-Thinker破解视频推理困局

狂掷80亿 , 节AI大战谁赢了？

谷歌高管放话：这两类AI初创公司，别轻易涉足了

GPU要凉？前英伟达AMD大神将AI刻在芯片上！17000 tokens/秒屠榜

中美AI同步加速：47天30次更新，中国AI的最强主场究竟在哪？

欢迎来到AI智能体新时代：未来不是“为人创造”，而是“为AI服务”

北大团队让AI智能体「入侵」论坛，指挥真实机器人执行任务

VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

谁在决定AI手机的未来：模型、系统，还是生态？

AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

行业最大规模具身数据集！出自简智机器人GenRobot.AI

行业最大规模具身数据集：10Kh RealOmni-Open DataSet

小红书不欢迎“避雷贴”

苹果亮出下一个iPhone，搭配智能眼镜、AI挂件

元宝跌出苹果下载榜前十

苹果硬件2026大爆发：三大革命新品，还有两款平民战神

二次元火热一整年：年轻增量不变， 消费习惯变了

苹果用 5 年时间就优化了一个声音

特斯拉新车来了；苹果首款折叠屏手机将于2026年秋季推出丨邦早报

花一万元植入DeepSeek，一场没有终点的流量游戏

二次元火热一整年：年轻增量不变，消费习惯变了