出品|虎嗅科技组
作者|余杨
编辑|苗正卿
头图|视觉中国
最近打开AI新闻,大块的版面都和AI搜索相关,AI巨头们,从文生视频的Sora卷到了搜索界。
这让我想起前几天我难住了Kimi的一个问题。即:100ml咖啡粉大约是多少g咖啡豆。
是这样的,双十一我买了一包250g的咖啡豆,到咖啡店磨成粉来做手冲,我朋友想尝尝,并且一定要和我AA,但我们没有秤,没法计算。最终ta拿来一个ml计量的容器,装了100ml。
于是我准备偷个懒问问Kimi,Kimi给完答案,我当场截了屏。
Kimi阅读了35个网页告诉我,100ml的咖啡粉大约对应于285.71克的咖啡豆。
而我买的咖啡豆,一共250g。
我表示这太难了,再三劝说朋友,ta最终放弃了和我AA。
因此,今天写测评,我将把“难题”作为prompt,来测评一下AI搜索哪家强。
prompt:100ml咖啡粉大约是多少g咖啡豆?
参赛选手则包括月之暗面Kimi、字节豆包、秘塔AI搜索、Perplexity和ChatGPT。
月之暗面Kimi
首先我们再给Kimi一次机会,此次使用的是Kimi探索版,主打解决复杂的搜索问题,大约15秒后,Kimi给出了自己的答案。
在Kimi的陈述中,100ml咖啡粉前面需要20g咖啡豆,后面需要67g咖啡豆,这让我感到,它没有理解这100ml究竟是咖啡粉还是制作出来的咖啡。
再看Kimi的工作流程,它搜索了我的问题,灰色字显示,Kimi采用的是关键词搜索方法。
在右侧的搜索栏中,Kimi搜索到最多的是咖啡的粉水比,文不对题,有一种上帝视角给出答案,但是没有具体路径的即视感。
这让我多少有点失望。
我调整了自己的措辞又试了一次。打开一个新的对话,依旧使用探索版,将prompt改为:把250克咖啡豆磨成粉,用来做手冲咖啡,取出100毫升咖啡粉,请问这100ml咖啡粉是由多少克咖啡豆制成的?
Kimi看似开始向答案靠近,右侧的搜索栏也看起来逐渐正确,但我点开右侧的链接,前5个链接里都找不到Kimi所参考的密度信息。
另外,前三个链接都来自一个咖啡爱好者分享的帖子,信息来源的可靠性,大概确实是:内容由AI大模型生成,请仔细甄别。
字节豆包
豆包的左侧功能区为AI搜索专门留出一个模块,输入prompt后,它在8秒钟左右给了我答复。
虽然豆包的工作流程也是理解问题-搜索网页-找到来源-总结陈述,但从结论上看,豆包一开始就没有理解问题,而是根据搜索到的信息交出了一份潦草答卷。
值得表扬的是,豆包在总结文本中添加了来源引用标注,使文本更加有路可循。
那么让我们也对豆包友好一点,打开一个新的对话,使用更为确切的prompt,搜索一下:把250克咖啡豆磨成粉,用来做手冲咖啡,取出100毫升咖啡粉,请问这100ml咖啡粉是由多少克咖啡豆制成的?
豆包表示,由于缺少咖啡粉的密度数据,无法直接换算出对应的质量,搜索的网页数量,从5变成了6,有所进步但仍显怠工。
于是,我尝试了深入搜索,等待了30秒,豆包输出了1500字长文,向我讲了许多道理。其中包括250 克咖啡豆磨粉后的粉量范围、手冲咖啡用的咖啡粉量估算等等信息,但都没有毫升和克重的换算。
秘塔AI搜索
秘塔AI 最近风很大,此次经过16秒左右的等待,秘塔交出了自己的答卷。
不得不说,秘塔AI 的表现令人惊喜。不仅在文本陈述中展现了搜索的完整路径,还精准地锁定了我的问题所对应的字节,给出了相应的答案。
这像极了人类使用搜索引擎查找信息的过程。
在秘塔的搜索栏中,还给出了全网、文库、学术、图片、推荐几个板块,适应不同搜索类型的需求。另外在右侧可以看到,秘塔甚至做好了下一步替我生成PPT的准备。
总的来说,秘塔AI展现了优秀的问题理解能力,我也无需再进一步明确prompt,流畅直接。
Perplexity
Perplexity是一家总部位于美国的AI初创公司,创立于2022年,公司创始人阿拉温德·斯里尼瓦斯来自OpenAI。据悉,Perplexity在AI搜索领域表现出色,尤其是在答案引擎方面具有显著优势。
2023年10月,Perplexity完成了一轮融资,估值达到5亿美元。此外,软银集团愿景基金二期计划向Perplexity投资1000万至2000万美元,对Perplexity的估值为30亿美元。最近,Perplexity正在进行新一轮融资谈判,希望将其估值增加一倍以上,达到80亿美元或更高。
Perplexity在8秒钟即给出了答复。
但从答案看来,Perplexity也认为我要喝100ml的咖啡。
考虑到中英文理解的难度,我修改prompt试试看:把250克咖啡豆磨成粉,用来做手冲咖啡,取出100毫升咖啡粉,请问这100ml咖啡粉是由多少克咖啡豆制成的?
Perplexity的答案立竿见影地好起来了。
ChatGPT
再看ChatGPT,输入prompt后,ChatGPT在13秒左右给出了我答案:
ChatGPT活狠话不多,答案简单明了。
首先是理解问题的能力硬挺,其次算法逻辑在5位选手中是一股清流,而数值和上文虽然相差较大,但也在波动范围内。
似乎也不需要我再进一步明确prompt了。
AI搜索 vs 传统短查询
此次测评所选取的prompt,指向的是近期AI 领域大热的数学推理能力和“搜索引擎替代说”。
10月31日,OpenAI发布了ChatGPT Search,引发世界热议,即生成式AI是否将就此改变人们获取信息的方式?谷歌(Google)作为传统搜索引擎更是首当其冲,许多人认为OpenAI的搜索引擎或将成为未来的“Google杀手”。
国内多款大模型也先后推出AI 搜索版,它们可以直接提供实时答案,帮助用户避免浏览大量广告和SEO优化的文章,快速找到所需信息,并以相对简洁的格式呈现答案,同时附上信息来源的链接,引用的标注也可以对AI生成的文本进行快速校验。
但是无论哪一家,离技术成熟都还有很长的路要走。
这不仅仅是AI不够“聪明”的问题。
更深刻的问题在于,AI 搜索使用的是关键词搜索,而传统搜索引擎如Google最常使用的功能是导航型检索(navigational queries)。
四个字以内的简短查询占据了Google搜索的大部分,这些通常是用户知道但懒得逐字输入的网址,或者只是通过关键词快速找到目标网页的搜索。
比如“上海天气”、“白色T恤”、“咖啡馆营业时间”、“附近自习室”等等,这些查询让谷歌成为数十亿网民上网的入口。
我输入“白色T恤”想购物,但豆包给我解释了几种白色T恤的款式、面料和设计。
大语言模型可能并不适合处理这些短提示。它通常需要完整的问题才能有效回答,因为完整问题能创建强有力的统计模式。AI 搜索并不了解,搜索“白色T恤”的人可能是想购物,而不是了解这种衣物的材质。
对于这些问题,用户可能需要像我修改prompt那样,一遍一遍地具体化和精确化。
OpenAI发言人Niko Felix在一份邮件声明中表示:“使用ChatGPT Search时,我们观察到用户比以往使用其他搜索工具时更倾向于以自然语言提问。同时——网络导航查询——通常较短且相当常见。我们计划随着时间的推移改进这些查询类型的体验。”
Perplexity也曾被吹捧为“Google杀手”,但它在短查询上也遇到了同样的问题。
Perplexity CEO Aravind Srinivas曾谈起用户对其产品与Google搜索的不同使用方式,“在Google搜索中的查询字数中位数在2到3之间,而在Perplexity上则在10到11之间。所以显然,用户在Perplexity上直接提出问题的频率更高。而在谷歌上,用户通常输入几个关键词快速找到特定链接。”
但换个角度看,这意味着,AI 搜索在回答长问题时表现相当不错。
类似“美联储继续宣布降息,对全球经济将产生什么影响?”这样的复杂问题,谷歌往往难以回答,而AI 搜索可以快速从多个网站获取信息并提供一个合理的答案(Perplexity在回答此类问题方面也表现出色)。
要真正替代Google,AI搜索需要改进人们日常生活中更常用的短查询。但问题在于,AI搜索为何非替代Google不可呢?
AI搜索在提供被传统搜索掩盖的信息方面填补了一个新空白,这本身是有价值的。
深耕知识性长问题,掘一口新井,又有何不可?
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com