文 | 三言Pro,作者 | 雨果

近日,理想汽车推出了一款基于自研多模态认知大模型 Mind GPT 开发的 AI 智能助手——理想同学APP。

打开网易新闻 查看更多图片

据介绍,理想同学具有强大的知识问答能力,能解答汽车、出行、财经、科技等众多领域的问题,此外,还擅长英文词句翻译、文本生成等。

此外,其还具备强大的视觉感知能力,不论汽车、动物、植物,都能识别。

打开网易新闻 查看更多图片

从界面风格、功能按钮的整体来看,理想同学和其他大模型助手的区别不大,界面都是比较简洁,其他大模型助手一般只支持常见的支持语音和文字输入,而理想同学还支持实时图像连续识别。

打开网易新闻 查看更多图片

那么,实际体验如何呢?我们一起来看看。

一、识别车型都对了

人物分不清,那对车型总该可以吧,毕竟理想同学是车载AI助手。

这次笔者选取了理想、蔚来、问界、小米等热门车型。

最终的测试结果是令人满意的,理想同学全部准确识别了展示的车型,反应速度还算快。看来,认车才是理想同学的优势学科。

二、识别车圈大佬,好像只认识自家老板李想

既然是车企的AI助手,那就看看它能不能识别出车圈的各位大佬吧。

结果让人有点失望,笔者随机选了李想、李斌、余承东三人,理想同学是认对了自己老板,将李斌错认成李想,更是把余承东当成了李彦宏。

上面的测试是连续识别,笔者又尝试了一次测试一个人物。结果还是差强人意。

打开网易新闻 查看更多图片

三、识别手机型号翻车

刚夸完,理想同学在识别手机型号上又翻车了。理想同学不仅没能准确识别一款手机的型号,甚至还把小米说成了荣耀。

下面是正确答案。如果说苹果认错了还情有可原,但华为mate70 pro还是识别度很高的,看来理想同学是“术业有专攻”,不能说是全才。

打开网易新闻 查看更多图片

四、9.11大于9.8谁大?

数字比较大小的问题曾经难倒了一众大模型,可以说是集体翻车,ChatGPT、文心一言、通义千问、百创智能、kimi、豆包、讯飞星火全部败下阵来。

那理想同学的表现呢?理想同学通过了测试。

打开网易新闻 查看更多图片

不过,数字比大小的问题已经很久了,大模型们也该修复了。

笔者又回头简单找了两家大模型重复测试,结果有一家大模型还是给出了错误答案,有点无语。

打开网易新闻 查看更多图片

五、识别日常静物

对于日常生活中的事物,理想同学识别还算准确。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

测试完识别能力,再来测试下大模型最基础的文字对话测试。

1、给以下动作排列合理的先后顺序:穿鞋,穿袜子,剪指甲,系鞋带

理想同学回答正确。

打开网易新闻 查看更多图片

2、将下面的文字组成一个句子:啄木鸟那只美丽的脖子长长的有着

理想同学通过测试。

打开网易新闻 查看更多图片

3、1个笼子里装着免子和鸡,一共有20个头,45只脚,请问免子和鸡各有多少只?

其实这个问题是无解的,理想同学给出了错误的答案。

打开网易新闻 查看更多图片

4、为什么爸妈结婚没叫我参加婚礼?

这个问题也没难到理想同学。

打开网易新闻 查看更多图片

5、麻辣螺丝钉怎么做?

最后一个问题还是难住了理想同学,看来还有待提升。

打开网易新闻 查看更多图片

6、比较理想和竞品

理想同学在比较李想和李斌以及蔚小理问的车型时,给出的答案更偏知识汇总,没有太多的判断倾向,还算中立。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

总结:通过简单的测试,理想同学的能力基本过关,稍微偏科,对汽车识别准确,手机、人物略欠缺外,其他静物都比较准确。

在文字问答上,还算可用,其他大模型也有类似的错误,比如“麻辣螺丝钉怎么做?”这个问题很多热门大模型都犯错了。

虽然今天的测试内容有限,但能得出个大概结果,希望理想同学快快成长,别再偏科。

作为一家车企,理想之所以推出理想同学APP, 与理想汽车的定位有关。理想汽车的目标是成为一家人工智能企业。

前几日的理想AI Talk中,李想被问及为什么现在想做人工智能企业,他表示认为人类会发生根本性改变,这是一个更大的故事,一个更大的梦想,“我要选择一个森林,然后我要做森林里最大的,无论它多么难,无论它需要我经历什么样的困难,我绝对不只做一棵树了”。

李想提到做理想同学手机App的原因,他表示理想一直在做基座模型,基座模型是人工智能时代的操作系统和编程语言。同时,基座模型所构建的是人工智能的超级产品,是新一代入口,它会在所有设备上,会在所有服务之上。在掌握基座模型前提下,一个真正的大模型产品,一定能够自主使用所有设备,会拥有所有服务。

那么从用户角度,很多用户第一个接触的人工智能产品就是理想同学,理想希望可以让理想汽车的100多万用户,再加上这些用户的家庭,大概300万至500万人,不仅可以在车上,还可以在手机、电脑,甚至以后还可以在眼镜上,都体验到一致的人工智能产品。

这代表理想要在大模型领域与文心一言、豆包、kimi、通义等正面竞争了吗?