从端到端语音到超级智能体,FlashLabs以前沿研究回应Agent时代的一次反共识下注。
Open Claw的爆火,让AI Agent第一次被推向了真实的工程环境。
这一次,Agent不再只是Demo、插件或对话式工具,而是开始尝试进入企业内部,承担持续、复杂、可被验证的工作任务。但几乎与此同时,一个现实问题也被清晰地暴露出来:当Agent走向长期运行的真实工作流,它所面临的挑战,远不止是提示词或工具调用,而是部署成本、交互效率,以及底层模型是否适合“常驻运行”。
这也迫使行业直面一个更底层、却迟早必须回答的问题——
如果Agent的目标是成为可靠的数字员工,它是否还应该继续建立在上一代模型与交互假设之上?
在这一阶段,行业事实上已经形成了一种隐含共识:Agent的问题,应当通过更快的产品迭代来解决。
更复杂的Prompt、更精细的流程编排和更丰富的工具调用,成为多数团队默认的前进方向。
但在FlashLabs看来,这种路径回避了一个更根本的问题:如果底层模型本身并不适合长期运行与实时协作,那么再精巧的产品设计,也只是在放大系统的结构性上限。
多数团队选择在既有模型能力之上加速产品化,尽快跑通应用与商业闭环;而也有少数人选择了一条更慢、风险更高的路径——回到前沿research和模型层本身,重新审视Agent的基础假设。
FlashLabs,正是后者。
01
把Agent当成“数字员工”,而不是工具
在FlashLabs看来,AI Agent不应只是被动执行指令的工具,而应更接近一个被赋予目标、能够自主拆解并持续推进工作的“数字员工”。
这一判断并非源于短期的技术趋势判断,而是来自创始人石一对真实组织运作方式的长期观察。在其近期的采访中,他反复强调一个观点:当下中小企业面临的核心挑战,已经不再是单点降本,而是在组织规模受限的前提下,如何持续放大关键岗位的产出能力。
在这样的现实背景下,如果AI只是完成被人类拆解好的任务步骤,它的能力上限是清晰可见的;而如果Agent能够理解OKR与KPI,并围绕目标主动拆解、执行与迭代,它才有可能真正成为组织能力的一部分。
“现在市面上很多Agent,本质上仍然是被动式的。”石一在交流中指出,“它们完成的是用户已经想清楚、拆解好的任务。但如果把Agent当成员工,它就不应该只响应指令,而是应该围绕目标,主动推进事情发生。”
在他看来,对Agent能力的过度保守,本质上是一种对技术潜力的低估。如果技术已经具备逼近“数字员工”的可能性,那么延迟这种能力的实现,并不会让组织更安全,只会让效率损失长期固化。
02
SuperAgent:为长期运行而设计的Agent
这一判断,直接塑造了FlashLabs核心产品SuperAgent的设计方向。
从功能定位上看,SuperAgent是一款以持续完成复杂任务为目标的企业级AI Agent,面向销售、市场与运营等真实岗位场景。但与多数Agent不同的是,SuperAgent从一开始就被假设为一个可以长期运行的系统,而不是一次性任务执行器。
在机制层面,SuperAgent不再将用户输入视为单次指令,而是首先进行意图理解,将其判断为一个可能包含多个阶段的复合目标。随后,系统会自动进入任务规划流程,对整体目标进行多步骤拆解,并在执行过程中持续维护上下文状态,从而避免早期Agent产品中常见的“任务半途而废”。
主动性是SuperAgent的另一核心特征。当目标存在歧义或关键条件不明确时,它会像真实同事一样向用户发起确认,而不是基于假设继续推进;在任务完成后,它也会主动提出下一步建议,而不是简单结束对话。
整个任务拆解、规划、搜索与执行的过程,都会对用户保持可见。这种设计,让SuperAgent从“指令执行器”升级为更接近组织协作者的角色。
在部署方式上,SuperAgent选择了云端化、开箱即用的路径。这在一定程度上也是对行业现实的直接回应:当Agent的使用与部署成本过高,其价值往往难以在真实业务场景中持续验证。
在实际使用中,SuperAgent已在多个岗位场景中完成能力验证:
在销售与增长场景中,它可承担线索发现、数据补全、管道分析与自主跟进;在内容与展示场景中,覆盖从研究、结构规划到PPT生成的完整流程;在GTM与运营层面,则支持数据清洗、客户画像构建、市场划分与趋势分析等。
03
如果Agent要上岗,语音不能停留在上一代架构
在FlashLabs对SuperAgent的整体设计中,语音被视为一种不可回避的交互形态。
石一认为,如果Agent真正要嵌入真实工作流,就不能只停留在文本层面,尤其是在客服、销售、支持等以实时沟通为核心的岗位中,语音本身就是天然的工作接口。
但在语音方向上,行业主流仍然选择“快路径”:通过ASR语音识别、LLM文本大模型与TTS语音合成的级联式架构,优先推动产品落地。这种方案在工程成熟度与上线效率上具有明显优势,也是当前大多数语音AI产品的实现方式。
FlashLabs却做出了一个反共识的选择:
他们没有围绕现有模型进行封装,而是回到模型层本身,尝试重新定义语音交互的基础架构。
在团队看来,级联式架构的问题并非“尚未优化到位”,而是其设计假设本身并不适合实时、长期的人机协作场景。当语音在系统入口被强制还原为文本时,情感、语气、停顿等副语言信息不可避免地被丢失;而多模型串联运行,也带来了难以压缩的累积延迟。
04
Chroma:为Agent时代设计的端到端语音模型
基于这一判断,FlashLabs团队花费约一年时间,自研打造了端到端语音模型Chroma。
Chroma能够在同一模型体系内完成语音理解、语义推理与语音生成,避免了传统级联式方案中因中间文本转换导致的信息损失与多段延迟。其采用的交错调度策略,使模型能够在实时流式对话中同时处理语音与文本标记,实现亚秒级的端到端响应。
在实际测试中,这种设计带来了几个显著优势:
首先,模型能够直接感知并表达语音中的副语言信息,如情绪、语调与停顿;其次,只需几秒钟参考音频即可实现高保真的个性化语音克隆,并在多轮对话中保持一致;更重要的是,在真实对话场景中,Chroma的端到端延迟显著低于传统级联系统,使语音交互更接近自然交流节奏。
从这个角度看,Chroma并非“更快的语音模型”,而是为Agent长期运行与实时协作而设计的新一代语音基础设施。
05
开源,是Frontier Research的工作方式
对FlashLabs来说,做到这一层,并不意味着研究阶段的结束,反而意味着一个更明确的判断:
如果Agent被视为一项前沿研究问题,而不是封闭产品,那么它的核心能力就不应只存在于公司内部。
在团队内部,Chroma从一开始就被当作一种“可被检验的研究假设”,而不是某个产品模块。模型是否成立,不取决于单一业务场景的表现,而取决于它在更复杂、更开放环境中的适应能力。
在发布Chroma时,FlashLabs与Huggingface以及Github平台同步开放了模型权重与推理代码。
在石一看来,当研究对象本身尚未定型时,封闭往往会过早固化假设。
而对于Agent与端到端语音模型这样的前沿方向而言,真正需要被验证的并非某一项指标,而是整个架构是否具备可扩展性与长期成立的可能。
“如果你相信这是一个frontier research问题,那么它就不应该只在一个团队、一个数据分布下被验证。”石一表示,“开源不是为了证明我们已经做对了什么,而是为了更快发现我们还没想清楚的部分。”
模型开源后,Chroma在社区的下载量迅速超过一万次。相比性能跑分,开发者讨论的焦点更多集中在端到端语音路径本身:
- 这种架构是否更适合实时交互?
- 是否具备长期运行的稳定性?
- 是否能成为Agent的通用语音基础设施?
在FlashLabs看来,这些来自真实使用环境的反馈,本身就是frontier research的一部分。
也正因如此,FlashLabs并未将Chroma的开源视为一次性发布行为。
在团队规划中,开源本身是一项长期工程,而不是阶段性事件。
随着Chroma向2.0版本迭代,FlashLabs计划持续开放模型能力、训练思路与部分数据构建方法,并准备向开源社区发起语音数据集共建计划,以更系统的方式推进端到端语音模型的研究进程。
06
一次押注长期上限的选择
从SuperAgent到Chroma,可以看到FlashLabs在公司战略与产品层面的共同取向:
相比短期变现,更优先押注决定长期上限的基础能力。
石一将自己定位为“原生有效加速主义者”——相信技术进步本身具备长期价值,应该在前沿能力上持续推进,而不是过早被既有商业或其他形态所约束。
在Agent仍未形成统一范式的阶段,技术路线、产品形态与商业模式仍在快速分化。有人选择围绕现有能力加速落地,也有人选择承担更高不确定性,去验证下一代基础假设是否成立。
FlashLabs的选择,是在Agent尚未定型之前,尽量把决定未来上限的能力先做出来。
这意味着更慢的回报周期,也意味着在范式真正成形时,拥有更大的主动权。
在一场可能持续十年以上的技术演进中,站在定义能力边界的一侧,或许比顺应当下趋势更重要。

