本文概要: 1. 测评K2、DeepSeek、doubao 三个模型完成相同的数据分析任务,水平如何 2. 盘点此刻能自动实现全流程数据分析工作的 AI 工具 3. 使用 AI 完成数据分析的关键边界和基建要求

7月11日,Kimi 低调开源发布了 K2 模型,根据官方的描述,新的模型在推理、代码和 Agent 能力上有了巨大提升。

打开网易新闻 查看更多图片

考虑到当前官网还没上线 MCP 功能,直接让它分析 Excel 中的数据会以上下文的形式「硬分析」,一是准确度不高(具体原因在 Part3),二是无法体现它的 Agent 能力。

接下来我们使用一个支持代码生成、执行的第三方客户端,来看看官方宣称的代码、推理和 Agent 能力是不是真的那么神。

第三方客户端:Cline-VS Code
同任务对比模型:DeepSeek-V3、doubao-Seed-1.6
(本来还想测一下 MiniMax M1,但是死活配置不到 Cline)

数据分析任务描述

示例数据是 1000 条客户服务满意度提升数据的 Excel 表格,包括服务渠道问题类型问题解决时长满意度评分问题是否被解决

打开网易新闻 查看更多图片

从数据包含的字段看,使用这组数据可以至少从以下几个维度进行分析并得出对业务有助益的洞察:

  1. 1. 分析各个服务渠道的服务质量和效率情况

  2. 2. 分析不同类型问题的处理复杂度

  3. 3. 分析不同类型问题的处理满意度

  4. 4. 分析不同类型问题的解决结果差异

  5. 5. 分析售后问题在时间上的分布(如每月的高峰问题时间)

为了考验各大模型的推理能力,在提出需求时我不会告知它们这些已知的分析方向,让模型根据字段自行选择分析的维度。

提示词如下:

当前路径下的`客户服务满意度提升数据.xlsx`excel表内是一组客户服务的数据,请提取其中的字段和部分数据,根据字段内容和数据类型选择可以帮助我了解当前客户服务质量的全貌的可视化数据分析报告(Markdown 格式即可),报告中要给出业务的优化建议。 优先使用可选工具撰写代码来完成数据读取、分析和可视化报告生成。

由于这几个大模型特别爱逞能直接使用上下文的形式读取表格直接贴脸分析,但是它们数学计算能力和超长上下文下的推理能力都是渣渣,所以提示词最后一句加了一个“能用工具优先用工具”。

关于客户端 Cline。

这原本是一个辅助编程工具,它能直接读取、编辑本地文件和终端,可以调用大模型完成规划、执行、反馈的 Agent 任务,还支持自定义大模型。

以及,因为它不靠卖会员赚钱,消耗的都是用户自己的 API 额度,所以它会以解决问题为第一目标,而不是节省 Token 糊弄事儿。

满足我们这次数据分析任务的全部条件。

K2 的分析

整个过程消耗了 125 K Token,生成了 1 份3700 字的 Markdown 格式的报告和 1 张包含 6 张可视化图表的图片。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

K2 执行任务的步骤如下:

  1. 1. 先查看要提取和分析数据的 Python 依赖库有没有装好

  2. 2. 写 Python 代码获取原数据的基本信息(表格形状、列名、每列的数据类型)

  3. 3. 撰写 Python 代码分析数据(生成图表、简单报告框架以及输出分析数据)

  4. 4. 综合历史分析输出,优化分析报告

查看它最终给的分析报告,我们前面提到的 5 个描述性分析维度全覆盖了,K2 完整的分析报告可以在文末获取,我会把它开源到 Github。

DeepSeek V3 的分析

DeepSeek V3 消耗不到 70K tokens,生成了 1 份 1245 字的分析报告和 4 张可视化图表

打开网易新闻 查看更多图片

DeepSeek V3 执行任务的步骤如下:

  1. 1. 编写 Python 脚本查看表格数据

  2. 2. 编写 Python 脚本分析数据(输出图表+报告文档)

  3. 3. 修复生成图表时的中文报错(没修复成功直接放弃)

我看了一下 DeepSeek 生成分析报告的 Python 代码,里面的结论是在生成代码时直接写死的

这意味着 DeepSeek 依然是“一口吃个胖子”的做事方式,没有分步执行、逐步迭代优化的意识。

(K2 是先写草稿,再综合终端里的历史输出分析结果重写分析报告)

豆包分析产出

豆包 Seed 1.6 模型消耗 ~70K Tokens,生成了 1 份分析报告和13 张图表。

打开网易新闻 查看更多图片

执行任务的步骤如下:

  1. 1. 思考,然后编写代码分析数据+生成报告

  2. 2. 思考,然后安装依赖

  3. 3. 思考,输出“工作完成”

与 DeepSeek 一样,豆包 1.6 生成的数据分析Python代码里,是包含一并生成了分析报告的内容。其中分析结论也是写死在代码里的。

这就意味着,它的结论得出,不依赖于数据分析……

也是一口吃个胖子。

以上全部三个模型的分析结果见:https://github.com/comeonzhj/K2-DeepSeek-doubao-dataanalysis

更多数据分析“Agent”

除了使用模型API + Tools的方法让 AI 帮你分析数据以外,此刻豆包、扣子空间、智谱和混元都支持上传表格+分析任务,一键全自动完成数据分析任务了。

测试下来,只有扣子空间这种 Agent 级别的工具能输出完整的报告,并且完成度极高(报告里用的甚至是动态可视化图表)。

你可以通过这个链接回看扣子空间分析的全过程:https://space.coze.cn/s/cKS0lzlsuhc/

打开网易新闻 查看更多图片

其次是豆包,整个分析过程它是分步完成的,每个分析维度生成一个 Python 代码、根据代码输出撰写当前维度的结论,并且显示图片。

你可以通过这个链接查看豆包分析的输出:https://www.doubao.com/thread/w77f89e2efa2da7a0

打开网易新闻 查看更多图片

再其次是智谱的数据分析智能体,这个功能在 2023 年就有了,倒是最近一年几乎没啥迭代。它有更专业的数据分析方法论,但是因为模型的纠错、二次规划能力不够看,以至于大部分任务都是在数次报错-处理循环后,直接崩溃。

打开网易新闻 查看更多图片

这个链接是顺利完成分析的一次:https://chatglm.cn/share/0FSTVbDV

元宝也可以直接完成数据分析任务,但是仅限于 Hunyuan 模型。

这是相同任务的完成情况:https://yuanbao.tencent.com/bot/app/share/chat/guqjRQspQfgH

什么叫胜任数据分析

你应该试过直接把一个 Excel 扔给 DeepSeek,让它帮你做数据分析。

结果大部分时候都是卡好久,然后给你一顿乱回复。

核心原因在于,把 Excel 作为附件直接扔给“没有工具”的 DeepSeek,它只能强行把 Excel 的全部内容读取成文本,作为上下文进行理解、分析。

这大概相当于,你用“心算”,计算这几千行数据的平均值、相关系数、分类统计每个渠道的销量,然后继续用“心算”根据这些数值,得出分析结论。

并且要在 5 秒内写成一份 1000 字的数据分析报。

像豆包、扣子空间、智谱它们,之所以能够胜任数据分析任务,是因为它们内置类代码执行工具,全流程都是写 Python-运行 Python-分析代码运行结果

对比刚才你的“心算”过程,相当于,你对一列值使用函数公式计算出平均值,记下来A列平均值:198,然后算其他列。最终把你记下来的这些计算结果汇总,来写报告。

回到最前面我们使用 Cline 测试的三大模型+工具做数据分析任务的过程。

虽然 DeepSeek 和 Doubao 也用了工具,但是它们使用工具的原因大概率只是因为我在提示词里让他们用工具。

它们并不是真是在使用工具来弥补自己既想“一口吃个胖子”、能力又不允许的短板。

而从 K2 完成任务的过程看,它似乎有点理解了“工具”是什么了。K2 撰写的 Python 代码,不只为了生成图表图表,它把每一个分析维度的分析结果都使用print()打印输出到终端了。

打开网易新闻 查看更多图片

在最后一步优化输出的初版分析报告时,会用所有 Python 代码运行时输出的信息作为参考,来填充分析报告。

一旦解决了“一口吃个胖子”的毛病,胜任 Agent 场景就指日可待了。

K2 有前途的(非广)。

为什么选数据分析任务

数据分析是一个综合了任务理解意图识别任务规划工具调用代码编写反馈纠偏异常处理等可以衡量大模型 Agent 水平的各种环节的任务。

从前面的测评反馈来看,K2 和扣子空间这两个大模型(Agent)在数据分析任务上的输出水平已经不输一个中等水平的数据分析师了。

这项看起来复杂、高大上的任务,正在随着 AI 能力提升,越来越没有“底线”:只要你掌握了基本的数据思维方式、能够意识到用数据来为业务洞察和决策来提供支持,你动动嘴皮子就可以让 AI 帮你得出理性的结论。

我在 7 月 14 日会上线一套《数据分析思维养成&AI助力快速把认知落地应用》的课程,帮助大家构建这个“高阶职场岗位”必备的数据分析思维

如果你在开营前(含开营当天)看到这篇文章并报名,可以领取海报中的优惠券。

只需 599,就可以掌握并在 AI 的帮助下熟练应用数据分析创造价值。

你将有很大的机会,冲击那个一百倍于学费的薪资的高阶岗位!

打开网易新闻 查看更多图片